От сессий избавляться пробовали? Их поисковики не любят, т.к. из-за них набирают кучу одних и тех же страниц с разным URL.
arachno, проздравляю!
Успехов в добывании WM через AWM :D
Не стОит забывать про поиск по картинкам.
Свежепроиндексированный документ на сайте не подверженном всяческим фильтрам попадает в выдачу примерно за сутки.
Сам сайт - зависит от качества входящих ссылок.
Не-а. Кэш всё-таки обновляется не сразу после захода бота. Как правило раз в сутки, иногда реже, ориентировочно с 3-х до 5-ти по MSK. И завтра там будет стоять 5-е число. Вот если ты сегодня найдёшь документы закэшированные 5-го числа, то можно будет строить предположения о пропуске.
Напрямую - нет, если не иметь доступа либо к логам Гугля либо к логам Яху.
Косвенно можно, по последней дате кэша. Про Яху я и так могу сказать - ходит каждый день :)
Только по логам. Если сайт динамический, но доступа к логам нет - можно самому вести лог посещений ботов по USER_AGENT. Для статических документов можно использовать SSI, какие-то счётчики выдают подобный код. Однако, если и SSI нельзя использовать, то увы никак - боты картинки не грузят.
Давайте не смешивать мух с котлетами. Заголовок Last-Modified можно получить только закачав весь документ целеком (запросов HEAD от индексатора яндекса я как-то не видел). Если при этом ещё отслеживать изменился ли контент существенно или только блок новостей (а Яндекс это делает), то планировать следующий визит нужно на основании реальных изменений страницы, а не фиктивного изменения заголовка. Вывод - Last-Modified никоим образом не сказывается на переиндексации и тем более на первичной индексации.
Ещё бы он его не игнорировал, ведь он получает только заголовок, но не содержимое страницы :)
Игнорировать он может разве что ETag, чего не делает, т.к. передавая этот заголовок он экономит трафик на закачке неизменившихся документов.
Но что проиходит в этом случае? Мы просто _замедляем_ переиндексацию одних документов, давая шанс роботу про/переиндексировать другие документы.
Это имеет смысл делать только на больших, очень динамично изменяющихся сайтах, который при этом содержит и редкообновляемые страницы. Большой - это несколько тысяч страниц.
С того, что с распространением CGI бОльшая часть страниц перестала иметь данный заголовок. Ну и манипулировать им уж очень легко :)
Во-первых, ссылки имеют свойство появляться сами по себе. Но даже скрытые от посторонних глаз страницы могут посещаться Яндексом, если заходить на страницу с баром.
Периодически контент обновлять надо, ходить будет чаще. Смысла повторно переиндексировать неизменившееся нет.
На самом деле Гугль уже с месяц выдаёт несколько страниц одних и тех же сайтов, на разных SERP.
Пример, запрос web design. На первой странице внутренняя страница useit.com, на второй - морда. htmlhelp.com - наоборот, сначала морда, потом внутренняя.
Такая петрушка наблюдается по очень многим запросам.