Piligrim, не совсем "=", поскольку поисковый запрос модифицируется, чтобы учитывать морфологию, словоформы и прочие особенности русского языка.
Nedo, в сервисе поиска портала Mail.Ru используются результаты поисковой системы Google, так что для нормальной индексации и ранжирования в Mail.Ru надо работать с Google.
andrej-ilin, индексацией изображений никогда глубоко не интересовался, в случае с Яндексом надо отлавливать робота P и разбираться, чего он хочет. У Google тоже отдельный робот для этого имеется.
КГУ - Киевский Государственный Университет им. Т. Шевченко, как сейчас называется не знаю.
Радиофизика и электроника, автоматизация научных исследований.
Interitus, не знаю :(
Я только заголовки запросов "складировал".
А как можно проверить соединение, что смотреть надо?
Хм.
andrej-ilin, позвольте с Вами не согласиться. Роботы при индексации сайта делают запрос GET, т.е. сразу получают и заголовки и тело страницы, анализируется сразу и то, и другое.
Управлять переиндексацией сайта можно с помощью анализа запросов, в которых есть заголовок If-Modified-Since с датой. В этом случае сервер может вернуть клиенту 304 Not Modified без тела документа, если документ не изменялся или 200 Ok вместе с телом документа, если изменялся. В этом случае, при неизменной квоте количества документов с одного сайта, роботы будут индексировать только те страницы, которые изменились. Большинство роботов запрашивают документы с заголовком If-Modified-Since, я даже некоторое время назад собирал статистику.
Да никак Expires не влияет, это больше для кешей нужно. Поисковики даже Last-Modified не очень доверяют.
В смысле запрашивают?
Этот заголовок или отдается, или нет, как и Last-modified, поэтому его робот получит, если сервер его отдаст. Другое дело, что роботы могут его просто не учитывать.
Файлик PDF забирается роботом с сервера, потом разбирается "по частям" и анализируется, так же, как и HTML.
Яндекс точно индексирует, учитывается текст и мета-информация.
Можно. Правда. Работает.
Лучше ставить дату изменения содержимого страницы, если страница выводится серверными скриптами. При настройках по умолчанию для статических страниц сервер сам разберется, какие даты выводить в заголовках.
Браузер клиента не может отталкиваться от даты создания/изменения файлов, потому что этих дат просто не знает. Браузер отталкивается от заголовка ответа сервера.