Cherny

Рейтинг
120
Регистрация
19.09.2001
Как писал Andruha
Если у меня все страницы на сайте .asp то проиндексировано ничего не будет?

Поищите по форуму. Индексация динамики неоднократно активно обсуждалась. В двух словах: важно не расширение страниц, а вид ссылок на них + вид выходных данных.

В моем случае D не обращался. Проверил все еще раз, дата последнего изменения robots.txt (Last-Modified) этого сайта:

Last-Modified: Mon, 17 Jun 2002 17:52:32 GMT до сих пор. Запроса от "Д" к robots.txt не было.🙄

Как писал Professor
ВИЦ в баре = ВИЦ главной страницы, а не сайта !!!

Прошу прощения за глупый вопрос. Что есть ВИЦ страницы, я себе представляю. Что есть тогда ВИЦ сайта?

Как писал Professor
P.S. я до сих пор правда не могу понять, как ВИЦ внутренней страницы может быть больше ВИЦ сайта, показываемой в баре ...

Почему нет. Первая страница может содержать какую-нибудь флеш-заставку и ссылку на "главную" страницу сайта с менюшками, тенюшками и пр. Все внутренние страницы сразу ссылаются на главную, минуя сплеш. А в баре как раз ВИЦ сплеш-страницы. Так и получается.;)

Как писал wolf
Или яндексоиды по-прежнему считают, что раз робот не проходит по ссылкам, то это и не робот вовсе? :D

Он не проходит по ссылкам, но ссылки вытаскивает, так как из примера видно, что индексатор сразу пошел на второстепенные страницы, минуя главную. А главную индексатор брал только при следующей плановой переиндексации. Однако интересный расклад получается. 🙄

Как писал wolf
Отсюда следует вопрос: действительно ли робот-регистратор (D) обращается к robots.txt? Или он тоже невежлив, как и яндексовский робот-закладочник?

А таки вы правы, мистер wolf,😕 специально проверил логи методом grep Yandex access_log что дало следующий результат:

213.180.194.134 - - [08/Jul/2002:13:39:54 +0300] "GET / HTTP/1.1" 200 3706 "-" "Yandex/1.03.003 (compatible; Win16; D)"

213.180.194.134 - - [08/Jul/2002:13:39:56 +0300] "GET / HTTP/1.1" 200 3706 "-" "Yandex/1.03.003 (compatible; Win16; D)"
213.180.194.148 - - [09/Jul/2002:00:45:19 +0300] "GET /robots.txt HTTP/1.1" 200 167 "-" "Yandex/1.01.001 (compatible; Win16; I)"
213.180.194.148 - - [09/Jul/2002:00:45:23 +0300] "GET /secondpage.html HTTP/1.1" 200 6259 "-" "Yandex/1.01.001 (compatible; Win16; I)"
213.180.194.148 - - [09/Jul/2002:00:45:32 +0300] "GET /thirdpage.html HTTP/1.1" 200 6193 "-" "Yandex/1.01.001 (compatible; Win16; I)"

ну и так далее.

Как писал drag-on
Агент Yandex/1.03.003 (compatible; Win16; D)

Это "регистратор", при добавлении сайта берет robots.txt и добавляемую страницу.

Снова "Данные не установлены".

Или это только у меня?

Спасибо за идею. Но так попадутся только картиночные роботы, основная же масса индексаторов и чекеров останется за бортом. А основной интерес представляют именно они.

Если вы пишете счетчик, выдающий графику, то возможно его кеширование, т.е. он достается из кеша браузера и, соответственно, "пропускает хиты". Лечится это добавлением в заголовок ответа строк:


Pragma: no-cache;
Cache-Control: no-cache;

Хотя при таком раскладе счетчиком пропускается хит полностью, а не только Referer.

Что касается роботов, то они запрашивают документы, т.е. доморощенным текстовым счетчиком отлавливаются запросто. Возможно с помощью графического счетчика можно поймать "картиночного" робота, хотя ИМХО он может не брать результат работы скриптов, а только .jpg, .gif, .png.

Всего: 1011