Cherny

Рейтинг
120
Регистрация
19.09.2001

Piligrim, не совсем "=", поскольку поисковый запрос модифицируется, чтобы учитывать морфологию, словоформы и прочие особенности русского языка.

Nedo, в сервисе поиска портала Mail.Ru используются результаты поисковой системы Google, так что для нормальной индексации и ранжирования в Mail.Ru надо работать с Google.

andrej-ilin, индексацией изображений никогда глубоко не интересовался, в случае с Яндексом надо отлавливать робота P и разбираться, чего он хочет. У Google тоже отдельный робот для этого имеется.

КГУ - Киевский Государственный Университет им. Т. Шевченко, как сейчас называется не знаю.

Радиофизика и электроника, автоматизация научных исследований.

Interitus, не знаю :(

Я только заголовки запросов "складировал".

А как можно проверить соединение, что смотреть надо?

Хм.

andrej-ilin, позвольте с Вами не согласиться. Роботы при индексации сайта делают запрос GET, т.е. сразу получают и заголовки и тело страницы, анализируется сразу и то, и другое.

Управлять переиндексацией сайта можно с помощью анализа запросов, в которых есть заголовок If-Modified-Since с датой. В этом случае сервер может вернуть клиенту 304 Not Modified без тела документа, если документ не изменялся или 200 Ok вместе с телом документа, если изменялся. В этом случае, при неизменной квоте количества документов с одного сайта, роботы будут индексировать только те страницы, которые изменились. Большинство роботов запрашивают документы с заголовком If-Modified-Since, я даже некоторое время назад собирал статистику.

Да никак Expires не влияет, это больше для кешей нужно. Поисковики даже Last-Modified не очень доверяют.

В смысле запрашивают?

Этот заголовок или отдается, или нет, как и Last-modified, поэтому его робот получит, если сервер его отдаст. Другое дело, что роботы могут его просто не учитывать.

Подскажите, как индексируется PDF?

Файлик PDF забирается роботом с сервера, потом разбирается "по частям" и анализируется, так же, как и HTML.

Индексируется PDF русскоязычными системами? Если да, что что именно индексируется?

Яндекс точно индексирует, учитывается текст и мета-информация.

Читала, что можно добавлять мета-теги в эти документы? правда ли это? правда ли это работает?

Можно. Правда. Работает.

какую дату предпочтительнее ставить в этом заголовке?

Лучше ставить дату изменения содержимого страницы, если страница выводится серверными скриптами. При настройках по умолчанию для статических страниц сервер сам разберется, какие даты выводить в заголовках.

что если этот заголовок вообще не выводить на странице? как поведет себя браузер клиента в этом случае? будет ли он отталкиваться от даты создания html (php, shtml и т.п.)-файла?

Браузер клиента не может отталкиваться от даты создания/изменения файлов, потому что этих дат просто не знает. Браузер отталкивается от заголовка ответа сервера.

Всего: 1011