Поищите по форуму. Индексация динамики неоднократно активно обсуждалась. В двух словах: важно не расширение страниц, а вид ссылок на них + вид выходных данных.
В моем случае D не обращался. Проверил все еще раз, дата последнего изменения robots.txt (Last-Modified) этого сайта:
Last-Modified: Mon, 17 Jun 2002 17:52:32 GMT до сих пор. Запроса от "Д" к robots.txt не было.🙄
Прошу прощения за глупый вопрос. Что есть ВИЦ страницы, я себе представляю. Что есть тогда ВИЦ сайта?
Почему нет. Первая страница может содержать какую-нибудь флеш-заставку и ссылку на "главную" страницу сайта с менюшками, тенюшками и пр. Все внутренние страницы сразу ссылаются на главную, минуя сплеш. А в баре как раз ВИЦ сплеш-страницы. Так и получается.;)
Он не проходит по ссылкам, но ссылки вытаскивает, так как из примера видно, что индексатор сразу пошел на второстепенные страницы, минуя главную. А главную индексатор брал только при следующей плановой переиндексации. Однако интересный расклад получается. 🙄
А таки вы правы, мистер wolf,😕 специально проверил логи методом grep Yandex access_log что дало следующий результат:
213.180.194.134 - - [08/Jul/2002:13:39:54 +0300] "GET / HTTP/1.1" 200 3706 "-" "Yandex/1.03.003 (compatible; Win16; D)" 213.180.194.134 - - [08/Jul/2002:13:39:56 +0300] "GET / HTTP/1.1" 200 3706 "-" "Yandex/1.03.003 (compatible; Win16; D)" 213.180.194.148 - - [09/Jul/2002:00:45:19 +0300] "GET /robots.txt HTTP/1.1" 200 167 "-" "Yandex/1.01.001 (compatible; Win16; I)" 213.180.194.148 - - [09/Jul/2002:00:45:23 +0300] "GET /secondpage.html HTTP/1.1" 200 6259 "-" "Yandex/1.01.001 (compatible; Win16; I)" 213.180.194.148 - - [09/Jul/2002:00:45:32 +0300] "GET /thirdpage.html HTTP/1.1" 200 6193 "-" "Yandex/1.01.001 (compatible; Win16; I)"
ну и так далее.
Это "регистратор", при добавлении сайта берет robots.txt и добавляемую страницу.
Снова "Данные не установлены".
Или это только у меня?
Спасибо за идею. Но так попадутся только картиночные роботы, основная же масса индексаторов и чекеров останется за бортом. А основной интерес представляют именно они.
Если вы пишете счетчик, выдающий графику, то возможно его кеширование, т.е. он достается из кеша браузера и, соответственно, "пропускает хиты". Лечится это добавлением в заголовок ответа строк:
Pragma: no-cache; Cache-Control: no-cache;
Хотя при таком раскладе счетчиком пропускается хит полностью, а не только Referer.
Что касается роботов, то они запрашивают документы, т.е. доморощенным текстовым счетчиком отлавливаются запросто. Возможно с помощью графического счетчика можно поймать "картиночного" робота, хотя ИМХО он может не брать результат работы скриптов, а только .jpg, .gif, .png.