Дурной робот Апорта

12
Sergey Petrenko
На сайте с 23.10.2000
Offline
482
4201

Может, у меня глюк какой?

Неделю назад по форуму ходил робот Апорта и брал страницы report.php. Хотя они явно запрещены в robots.txt для всех роботов.

Теперь на выходных он начал выдавать такие запросы:

194.67.18.75 - - [09/Dec/2002:23:11:17 +0200] "GET /ubb/Forum12/HTML/000006-.html HTTP/1.0" 302 285 "-" "Aport"

И так он перебрал почти половину старого форума - около тысячи запросов.

Штука в том, что таких страниц не существует и никогда не существовало. Старый скрипт формировал страницы с именами "000006.html" или "000006-N.html", где N=2 и более. Соответственно, ссылок на запрошенные страницы нигде быть не могло. Откуда же робот их взял? Опять усечение?

Как раз только на WMW прошла дискуссия под девизом "Respect robots.txt or get 403"...

Григорий Селезнев
На сайте с 25.09.2001
Offline
298
#1

Gray, где то все-таки ошибка ... может линк на них все-таки есть ?

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#2

Ты думаешь, я не заметил, как поставил более тысячи ссылок? :)

Григорий Селезнев
На сайте с 25.09.2001
Offline
298
#3

ну ты же не руками их ставил ?

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#4

Да все равно, старый скрипт ведь тоже не дурной, чтобы давать ссылки на такие страницы.

Не считая уже того, что последние полгода он физически не способен отдать какие-либо ссылки...

AiK
На сайте с 27.10.2000
Offline
257
AiK
#5

У Яндекса таже фигня. У меня кроме того, ссылки которые могут якобы быть битыми закрыты в robots.txt. И инктоми так же страдает. Что-то тут не чисто :)

LM
На сайте с 30.11.2001
Offline
71
LiM
#6
Как писал AiK
У Яндекса таже фигня. У меня кроме того, ссылки которые могут якобы быть битыми закрыты в robots.txt. И инктоми так же страдает. Что-то тут не чисто :)

Думаю, все намного банальнее - некоторые фирмы почему-то в открытую держат отчеты проксей о том, куда ходили люди с этих фирм. В этих отчетах есть ссылки практически на все просмотренные страницы. Вот с них-то поисковики и узнают адреса...

С уважением, Андрей Хроленок. Загляни в FAQ по оптимизации и продвижению сайтов (http://www.seoman.ru/FAQ/) Анализатор страниц сайтов (http://www.seoman.ru/analizer/)
Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#7

LiM, ты не понял. Таких страниц просто нет. И никогда не было. Ходить было невозможно просто.

M
На сайте с 05.06.2001
Offline
23
#8
Неделю назад по форуму ходил робот Апорта и брал страницы report.php. Хотя они явно запрещены в robots.txt для всех роботов.

Это какой-то глюк, причем не связанный с парсингом robots.txt (если только он на этом сайте не менялся с тех пор). К сожалению, сейчас уже сложно понять, нужных логов не осталось

GET /ubb/Forum12/HTML/000006-.html ... Штука в том, что таких страниц не существует и никогда не существовало. Старый скрипт формировал страницы с именами "000006.html" или "000006-N.html", где N=2 и более. Соответственно, ссылок на запрошенные страницы нигде быть не могло. Откуда же робот их взял?
Ты думаешь, я не заметил, как поставил более тысячи ссылок :)

Да :)

Если посмотреть source у, например, то там можно найти ссылку на с текстом nbsp;nbsp; (она перед ссылкой на первую страницу топика)

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#9

Хех, действительно она там есть.

Хозяйке на заметку - Апорт читает ссылки, даже если они вообще не имеют текста.

Т.е. вида

<A HREF=""></A>
Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#10

ИМХО, это баг в роботе.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий