vs

Рейтинг
24
Регистрация
20.06.2001
Должность
разработчик
Как писал wolf
Ну и? Самые свежие там - от 31 декабря.

ну да, но никак не начало декабря. То, что накачали в январе - скоро будет доступно. Если есть вопросы по какому-то конкретному сайту - в техподдержку.

1) не мудрите с mod_rewrite - это вредно. Наш робот не любит сайты, которые не отдают по человечески ошибку 404. Сайт "ищем, находим, сравниваем" на все подряд отдает код 200.

2) не мусорьте - страницы, которые автоматим генерируются под разные поисковые запросы, содержат только дизайн (ссылки на разделы сайта, баннеры, оглавление и т. д.) наш робот/индексатор давит беспощадно и понижает вес всего сайта.

3) не пользуйтесь сабмиттерами

Что-то странное говорите, господа-товарищи.

Обновление было во вторник, часов в 6 утра. В базе полно свежих документов. Поищите, например,

http://search.rambler.ru/cgi-bin/rambler_search?words=новости&sort=1

А на счет "почему мой сайт утонул в выдаче" - ну да, эта база собрана индексатором, в котором есть еще одна давилка накруток. Возможно, кто-то под нее попал. Как работает давилка - не скажу ;Ь

Да, еще надо сказать о том, что мы показываем

last-modify - дату, если она известна, или last-access-time, если сервер не трудится отдать last-modify. Если у документов несколько дублей, то показывается дата от самого свежего дубля. В расширенной форме можно увидеть обе даты по отдельности.

Иначе можете получить ситуацию, когда робот скачает экземпляров 200 одной и той же страницы с разными

значениями этого вашего id. Оно, конечно, не страшно - лишнее поисковик выбросит, потом скачает еще что-нибудь,

но КПД ндексирования падает в разы.

Вообще говоря, наш робот иногда умеет фиксировать случайные числа в URL (например, PHPSESSIONID) и поэтому

в базе Рамблера все URL соответствующей части сайта будут иметь одинаковое значение этого параметра. В результате,

например, все посетители, пришедшие на сайт с нашего поиска, будут ходить с одним и тем же PHPSESSIONID. Я пока

не слышал, чтоб от этого сайту "снесло крышу", но такое вполне возможно. По крайней мере, анализ логов заболеет

запросто. Будете потом в логах видеть руку миллионопалую, которая одновременно по всем страницам сайта ползает.

Как писал AiK
как часто робот Рамблера заглядывает в robots.txt? Многие (импортные в основном) роботы один раз туда заглянут, а потом скачивают страницы пачками. И потом менять robots.txt бесполезно - даже возврат 404/403 не спасает - роботы тупо продолжают молотить вилами по воде, пытаясь куда-то приплыть и изрядно пачкая логи, - пока список URL не пройдут (да и не по одному разу!) в robots.txt больше не заглядывают :(

Сейчас это работает так: по выходным (в ночь с субботы на воскресенье) запускается специальный робот, который качает только robots.txt со всех машин. После скачивания он прочищает все наши списки URL по этим "свеженьким" robots.txt. Результат - список URL на удаление - отдается дальше по цепочке и в следующей сборке поисковой базы этих URL уже быть не должно. Таким образом, web-мастера могут чистить списки раз в неделю. Через некоторое время мы для части серверов этот интервал сократим вдвое.

Теперь пару нюансов.

1) Если проверятор robots.txt не смог достучаться до сервера, то следующие 6 дней он к этому серверу за страницами не обращается. При этом каждый день робот повторяет проверку, ожил сервер или все еще мертв. Если хост мертв 6 дней, то он из базы удаляется.

2) В некоторых режимах robots.txt читается чаще, перед каждым запуском робота. Но эти внеплановые чтения не обязательно приводят к прочистке всего списка URL.

Как писал AiK

Влад, а Вы умеете извлекать метатеги не закачивая страницу? :)

Ну что ж. Придется рассказывать медленно и два раза :-).

Робот скачивает страницу, потом индексатор ее обрабатывает. В некоторых ситуациях индексатор роботу сообщает: "эту страницу больше не скачивать в течение Х суток" (например, когда на хосте уже есть N страниц. эквивалентных данной). В случае обсуждаемой сейчас <META ...> это сообщение не генерируется и робот будет через некоторое время проверять страницу заново. Поэтому в отчетах о приходе роботов страница будет фигурировать всегда.

1) Была ошибка - индексировался кусок текста, который идет ДО тэга <META ...>. Получилось, что <TITLE> мы индексировали (он раньше идет по тексту), а остальной текст - нет. Ошибку исправим.

2) NOINDEX означает, что страницу не надо класть в индекс. А скачивать ее и извлекать из нее ссылки - не запрещает. Поэтому робот туда ходить должен.

Чтобы

а) Полнее искать: страница может быть релевантна запросу если она содержит значимые слова и не

содержит рядом с ними эти самые "неинформативные"

б) Быстрее искать: по слову "," (запятая) поисковики должны поднять такую уйму данных с дисков, что

слово приходится выкидывать (тем не менее, в буквальном поиске ищется с точностью до запятой)

в) Точнее искать: синтаксический анализ, разумеется, делается с исходным запросом, а не с прореженым

Как писал Interceptor
И я заметил ту же ерунду. Добавляю сайт (не динамика) в тындекс и рамблер, яндекс индексирует сайт полностью проходя по ссылкам, а вот рамблер индексирует только первую страницу, после этого я пытаюсь зарегистрировать отдельно внутренние директории снова, но мне выдается сообщение типа "ваш сайт не может быть зарегистрирован" и такое уже случалось не раз. В чем проблема то? Сайт не забанен потому как он есть в листинге. Ссылки на внутренние папки через img src, то есть картинками-кнопками. Вобщем ничего не могу понять в этом рамблере.

А почему Вы решили, что если сайт есть в листинге (кстати, а что это такое?), то он не забанен?

Короче, вам в техподдержку надо.

Всего: 129