Вопросы по теории доргенства

M
На сайте с 11.10.2004
Offline
20
910

Решил попробовать сгенерить дорвей в целях расширения кругозора. Взял у товарища текстовики от пастуховской базы 44М, залил их на сервер, грепом наковырял запросы для отдельных ключевых слов, собрал шаблон, сгенерил. Через пару дней пришол гугльбот, ещё через пару дней пошёл первый траф, преимущественно адультный. Собираются естественно одни низкочастотники. За три недели вышел на уровень порядка трёхсот человек в день. Пробовал сливать много куда, отбилось только на адультфрендфайндере, примерно полцента за человека.

Теперь немного деталей. Под весь дорвей выделен отдельный пустой домен. Все ключевые фразы нарезаны грепом на группы строго по тематикам через ключевые слова. Каждая группа вынесена на отдельный домен третьего уровня, все страницы лежат в корне. Например, для группы hot teens грепнулось порядка 10 тысяч фраз, из которых соответственно слепилось 10 тысяч страничек, каждая имеет адрес вида http://hotteens.mydomain.net/some-page-about-hot-teens.html. Таких доменов третьего уровня у меня набралось уже под три десятка, количество фраз в каждой группе от тысячи до сорока тысяч, суммарно 340 тысяч. Гугльбот ежедневно сосёт от 4 до 25 тысяч страниц на протяжении уже почти двух недель.

На данный момент я поднял дорвейку аналогичной структуры, но с более другим шаблоном, на другом домене. Он почему-то просасывается сильно медленнее. На третьем домене я щас генерю 9,3 миллионов страниц (не много ли?) раскиданных по папкам, шаблон есесно отличается от двух предыдущих. Под всё это дело товарищ мне написал сишную приблуду, потому что пхп-скриптом оно генерится ужасающе долго. Надо ещё попробовать вынести этот дорген на отдельный сервер с саташным винтом для повышения производительности.

Вопросы к знатокам:

1. Есть ли заметная разница при прочих равных между http://hotteens.mydomain.net/some-page-about-hot-teens.html и http://mydomain.net/hotteens/some-page-about-hot-teens.html в плане всасываемости и индексируемости?

2. Насколько сильно влияет на всасываемость и индексируемость шаблон страницы? Есть ли какие-то конкретные рекомендации по его структуре?

M
На сайте с 11.10.2004
Offline
20
#1

Очень плохая была идея про 9М страниц, оно по расчётам будет генериться две недели с такими скоростями. Пристрелил процесс, теперь два часа вычищаю результаты.

response
На сайте с 01.12.2004
Offline
324
#2
mtishetsky:
Очень плохая была идея про 9М страниц, оно по расчётам будет генериться две недели с такими скоростями. Пристрелил процесс, теперь два часа вычищаю результаты.

распределенные вычисления рулят ☝

Однопоточный парсер ключевых слов Магадан (http://magadanparser.ru) (со свистелками) Многопоточный парсер ключевых слов Солнечный (http://sunnyparser.ru) (без свистелок)
[Удален]
#3
mtishetsky:
Очень плохая была идея про 9М страниц, оно по расчётам будет генериться две недели с такими скоростями. Пристрелил процесс, теперь два часа вычищаю результаты.

Жесть однако.

greenwood
На сайте с 08.09.2003
Offline
519
#4

mtishetsky, удали плиз из своего поста ненормативную лексику - тут запрещено это

M
На сайте с 11.10.2004
Offline
20
#5
greenwood:
mtishetsky, удали плиз из своего поста ненормативную лексику - тут запрещено это

Я в упор не вижу кнопку редактирования, где она?

greenwood
На сайте с 08.09.2003
Offline
519
#6

я отредактировал - больше не пиши такого

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий