Google игнорирует robots.txt...

D
На сайте с 16.04.2008
Offline
41
686

Специально для тупых ботов сделал ловушку: невидимая ссылка на директорию, запрещенную в robots.txt. И как вы думаете, кто стал первым посетителем ловушки? :laugh:

66.249.66.15 - - [] "GET /forum/catch_bots/index.php HTTP/1.0" Mozilla/5.0 (compatible; Googlebot/2.1; +httр://www.google.com/bot.html)

Стал разбираться, оказалось, что последний раз гугл загружал файл robots 13 часов назад (по его же информации) и наивно считает, что файл за это время не мог измениться, хотя активно пасется на форуме весь день.

[Удален]
#1
desti:
Стал разбираться, оказалось, что последний раз гугл загружал файл robots 13 часов назад (по его же информации) и наивно считает, что файл за это время не мог измениться, хотя активно пасется на форуме весь день.

А в таком случае налицо неверная интерпретация имеющихся фактов в заголовке темы. ;)

D
На сайте с 16.04.2008
Offline
41
#2
Psycho:
А в таком случае налицо неверная интерпретация имеющихся фактов в заголовке темы. ;)

Заголовок исправил.

Упс.. а этот форум не умеет править основной заголовок??

organic
На сайте с 07.11.2004
Offline
141
#3

Хм. Он просто обратился к директории или в индекс загнал?

Yeah, well, I'm gonna go build my own theme park, with blackjack and hookers. In fact, forget the park!
D
На сайте с 16.04.2008
Offline
41
#4
organic:
Хм. Он просто обратился к директории или в индекс загнал?

Робот запросил файл index.php и, как я полагаю, прочитал ответ скрипта. Что он сделал с этой инфой потом - мне неизвестно.

Я о другом, робот не считывает содержимое robots.txt перед каждым переходом по ссылке, а считает, что загрузки содержимого этого файла раз в сутки (?) достаточно.

Никого не обвиняю, ничего не хочу, просто информация! Видимо, решение проблемы простое, дождаться, когда гугл обновит инфу о файле robots и только тогда загружать неиндексируемый контент.

E
На сайте с 29.03.2007
Offline
102
#5

гугля редко смотрит в роботс.тхт, о чем недавно было написано на каком-то из официальных блогов. к тому же робот имеет свое мнение по поводу того загонять в индекс страницу или нет - например, если на закрытую роботсом страницу стоит ссылка, гугля запросто проигнорирует ваши инструкции...

D
На сайте с 16.04.2008
Offline
41
#6

Понятно, вопросов больше нет.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий