Как ускорить индексацию?

MA
На сайте с 02.07.2001
Offline
16
1243

Суть проблемы:

Большой сайт - порядка 200000 страниц

Вот уже в течении полугода ни одна из поисковых систем не может его проиндексировать!

У Яндекса и Рамблера проиндексировано порядка 4000-5000 тысяч страниц(в неделю Яндекс прибавляет по 300-400 страниц) РАмблер вообще непонятно как индексирует, лучше всего проиндексировал Апорт - около 15000 страниц.

Сайт не динамический! Роботам были скормлены специальные страницы содержащие ссылки на ВСЕ документы! Причем в каждом документе есть ссылки на другие и т.д.

Вопрос: почему индексирует ТАК медленно и что надо сделать чтобы повысить скорость индексации!

Заранне спасибо за советы!

N
На сайте с 08.03.2001
Offline
22
#1

для индексирования объемных сайтов везде существуют особенные правила, со службами поддержки связывались?

Николай
MA
На сайте с 02.07.2001
Offline
16
#2

<font face="Verdana" size="2">Originally posted by Nicholas:
для индексирования объемных сайтов везде существуют особенные правила, со службами поддержки связывались?</font>

В Рамблере ответили стандартной отговоркой, что не индексируют динамический страницы(это было когда они вообще ничего не проиндексировали, а через несколько дней появилось первые 3 с лишним тысячи страниц - этот объем держится и по сей день), а в Яндексе ответили следующее:

<font face="Verdana" size="2">В принципе, с вашим сайтом все более менее нормально, но ... более 100000 URL'ов... Конечно, с марта мы их еще не обошли - как Вы пишите,
проиндексировано менее 4000 документов. И это закономерно. Ограничения на количество просматриваемых документов существуют. При каждом
заходе на сайт это прежде всего страницы, на которые чаще всего ссылаются, в основной своей массе неизменившиеся с последнего захода, и только
потом добираются новые, до сего момента неиндексируемые. Решение проблемы индексирования больших сайтов - установка на сервере поисковой
программы Яndex.Site (вторая версия) (http://www.comptek.ru/yandex/yansite.html) со специальным модулем, который отдает на индексирование только
изменившиеся (новые) страницы.
Честно говоря, для такого большого сайта, как Ваш, никакого другого разумного решения просто не просматривается. Впрочем, Вы предвосхитили наше
предложение, значит интересовались этой программой и сочли ее для себя непреемлемой. Возможно, Вы правы. Яndex.Site хорош для какого-нибудь
обобщенного магазина, владелец которого почему-то уверен, что общедоступный бесплатный сервис должен ежедневно менять ассортимент на его
полках. Ваш сайт статичен и основная проблема - проиндексировать его целиком.
Попытаемся "дедовскими методами", но Вы поймете, что это не выход.
1. Прежде всего "избавиться" от второстепенного контента - форумы, доски, архивы, статистика, версии на других языках, другие кодировки и т.д., закрыв
все это от индексирования с помощью файла robots.txt , оставив только собственно энциклопедии. Надо понимать, что всего перечисленного у Вас
неощутимо мало, если вообще имеется. В любом случае имеет смысл оставить для робота только "самое-самое"...
2. Создать на сайте несколько условных очагов индексирования, обычно это директории. Из каждого такого очага вручную через форму AddURL
добавлять по несколько десятков страничек. Если они уже есть в базе и дожидаются своей очереди на индексирование, это не сработает. Если
добавляются впервые, должно помочь. Самое главное - не перестараться, не саббмитить тысячами - иначе сработает антиспамовая программа и вообще
все запретит.

Вот, собственно, и все. Ничего иного пока не дано.
</font>

В Апорте к сожалению просьбу проигнорировали...

Я как-то на досуге занялся подсчетами - так вот получилось, что для полной индексации сайта потребуется более(!)... 4 лет!!!

F
На сайте с 15.11.2000
Offline
116
#3

<font face="Verdana" size="2">Originally posted by Mark Adamenko:
Большой сайт - порядка 200000 страниц
Вот уже в течении полугода ни одна из поисковых систем не может его проиндексировать!
</font>

Кстати, во время Кубка России по поиску пара ответов лучше всего находилась именно на Вашем сервере. Так что польза от его индексации очевидна.

<font face="Verdana" size="2">что надо сделать чтобы повысить скорость индексации!</font>

Мне кажется, путей может быть несколько.

Первый, самый простой и самый дорогой -- договариваться с поисковиками об оплате ускоренной индексации. Возможно, это будет плата деньгами, возможно, баннеропоказами. Например, подобный подход давно применяют Inktomi (для небольших сайтов), FAST. Как вариант этого решения для Яндекса вполне походит Yandex.Site, для Inktomi -- Index Connect, для FAST -- fastsitesearch. Возможно, на условии, что после полной индексации сайта Вы его уберете, Яндекс значительно снизит цену на программу (как бы аренда вместо покупки).

Второй путь, не исключающий первый -- создать большое число ссылок на самые важные разделы сайта. В поисковиках, применяющих PageRank, в первую очередь индексируются именно страницы с наибольшим весом. Так как Вас интересует однократная индексация, то ссылки могут быть временными, то есть в случае договоренностей с другими сайтами можно предлагать довольно льготные условия (баннеропоказами или как-то еще).

Третий путь, не исключающий первый и второй -- создание большого числа доменов (можно третьего и четвертого уровня), указывающих на самые важные разделы сайта, чтобы поисковики воспринимали эти домены как отдельные сайты, а не как часть целого. Это поможет избежать лимитов времени/объема по индексации, которые есть для индивидуальных сайтов.

С уважением,

Александр Садовский.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий