ну да, но никак не начало декабря. То, что накачали в январе - скоро будет доступно. Если есть вопросы по какому-то конкретному сайту - в техподдержку.
1) не мудрите с mod_rewrite - это вредно. Наш робот не любит сайты, которые не отдают по человечески ошибку 404. Сайт "ищем, находим, сравниваем" на все подряд отдает код 200.
2) не мусорьте - страницы, которые автоматим генерируются под разные поисковые запросы, содержат только дизайн (ссылки на разделы сайта, баннеры, оглавление и т. д.) наш робот/индексатор давит беспощадно и понижает вес всего сайта.
3) не пользуйтесь сабмиттерами
Что-то странное говорите, господа-товарищи.
Обновление было во вторник, часов в 6 утра. В базе полно свежих документов. Поищите, например,
http://search.rambler.ru/cgi-bin/rambler_search?words=новости&sort=1
А на счет "почему мой сайт утонул в выдаче" - ну да, эта база собрана индексатором, в котором есть еще одна давилка накруток. Возможно, кто-то под нее попал. Как работает давилка - не скажу ;Ь
Да, еще надо сказать о том, что мы показываем
last-modify - дату, если она известна, или last-access-time, если сервер не трудится отдать last-modify. Если у документов несколько дублей, то показывается дата от самого свежего дубля. В расширенной форме можно увидеть обе даты по отдельности.
Иначе можете получить ситуацию, когда робот скачает экземпляров 200 одной и той же страницы с разными
значениями этого вашего id. Оно, конечно, не страшно - лишнее поисковик выбросит, потом скачает еще что-нибудь,
но КПД ндексирования падает в разы.
Вообще говоря, наш робот иногда умеет фиксировать случайные числа в URL (например, PHPSESSIONID) и поэтому
в базе Рамблера все URL соответствующей части сайта будут иметь одинаковое значение этого параметра. В результате,
например, все посетители, пришедшие на сайт с нашего поиска, будут ходить с одним и тем же PHPSESSIONID. Я пока
не слышал, чтоб от этого сайту "снесло крышу", но такое вполне возможно. По крайней мере, анализ логов заболеет
запросто. Будете потом в логах видеть руку миллионопалую, которая одновременно по всем страницам сайта ползает.
http://www.rambler.ru/db/rumetrica/article.html?mid=2438638
http://www.rambler.ru/db/rumetrica/article.html?mid=2037392
Сейчас это работает так: по выходным (в ночь с субботы на воскресенье) запускается специальный робот, который качает только robots.txt со всех машин. После скачивания он прочищает все наши списки URL по этим "свеженьким" robots.txt. Результат - список URL на удаление - отдается дальше по цепочке и в следующей сборке поисковой базы этих URL уже быть не должно. Таким образом, web-мастера могут чистить списки раз в неделю. Через некоторое время мы для части серверов этот интервал сократим вдвое.
Теперь пару нюансов.
1) Если проверятор robots.txt не смог достучаться до сервера, то следующие 6 дней он к этому серверу за страницами не обращается. При этом каждый день робот повторяет проверку, ожил сервер или все еще мертв. Если хост мертв 6 дней, то он из базы удаляется.
2) В некоторых режимах robots.txt читается чаще, перед каждым запуском робота. Но эти внеплановые чтения не обязательно приводят к прочистке всего списка URL.
Ну что ж. Придется рассказывать медленно и два раза :-).
Робот скачивает страницу, потом индексатор ее обрабатывает. В некоторых ситуациях индексатор роботу сообщает: "эту страницу больше не скачивать в течение Х суток" (например, когда на хосте уже есть N страниц. эквивалентных данной). В случае обсуждаемой сейчас <META ...> это сообщение не генерируется и робот будет через некоторое время проверять страницу заново. Поэтому в отчетах о приходе роботов страница будет фигурировать всегда.
1) Была ошибка - индексировался кусок текста, который идет ДО тэга <META ...>. Получилось, что <TITLE> мы индексировали (он раньше идет по тексту), а остальной текст - нет. Ошибку исправим.
2) NOINDEX означает, что страницу не надо класть в индекс. А скачивать ее и извлекать из нее ссылки - не запрещает. Поэтому робот туда ходить должен.
Чтобы
а) Полнее искать: страница может быть релевантна запросу если она содержит значимые слова и не
содержит рядом с ними эти самые "неинформативные"
б) Быстрее искать: по слову "," (запятая) поисковики должны поднять такую уйму данных с дисков, что
слово приходится выкидывать (тем не менее, в буквальном поиске ищется с точностью до запятой)
в) Точнее искать: синтаксический анализ, разумеется, делается с исходным запросом, а не с прореженым
А почему Вы решили, что если сайт есть в листинге (кстати, а что это такое?), то он не забанен?
Короче, вам в техподдержку надо.