Дурной робот Апорта

482

Sergey Petrenko

10 декабря 2002, 01:27

4201

Может, у меня глюк какой?

Неделю назад по форуму ходил робот Апорта и брал страницы report.php. Хотя они явно запрещены в robots.txt для всех роботов.

Теперь на выходных он начал выдавать такие запросы:

194.67.18.75 - - [09/Dec/2002:23:11:17 +0200] "GET /ubb/Forum12/HTML/000006-.html HTTP/1.0" 302 285 "-" "Aport"

И так он перебрал почти половину старого форума - около тысячи запросов.

Штука в том, что таких страниц не существует и никогда не существовало. Старый скрипт формировал страницы с именами "000006.html" или "000006-N.html", где N=2 и более. Соответственно, ссылок на запрошенные страницы нигде быть не могло. Откуда же робот их взял? Опять усечение?

Как раз только на WMW прошла дискуссия под девизом "Respect robots.txt or get 403"...

298

Григорий Селезнев

10 декабря 2002, 06:35

#1

Gray, где то все-таки ошибка ... может линк на них все-таки есть ?

482

Sergey Petrenko

10 декабря 2002, 09:11

#2

Ты думаешь, я не заметил, как поставил более тысячи ссылок? :)

298

Григорий Селезнев

10 декабря 2002, 12:27

#3

ну ты же не руками их ставил ?

482

Sergey Petrenko

10 декабря 2002, 13:15

#4

Да все равно, старый скрипт ведь тоже не дурной, чтобы давать ссылки на такие страницы.

Не считая уже того, что последние полгода он физически не способен отдать какие-либо ссылки...

257

AiK

11 декабря 2002, 00:08

#5

У Яндекса таже фигня. У меня кроме того, ссылки которые могут якобы быть битыми закрыты в robots.txt. И инктоми так же страдает. Что-то тут не чисто :)

LM

71

LiM

16 декабря 2002, 20:14

#6

Как писал AiK
У Яндекса таже фигня. У меня кроме того, ссылки которые могут якобы быть битыми закрыты в robots.txt. И инктоми так же страдает. Что-то тут не чисто :)

Думаю, все намного банальнее - некоторые фирмы почему-то в открытую держат отчеты проксей о том, куда ходили люди с этих фирм. В этих отчетах есть ссылки практически на все просмотренные страницы. Вот с них-то поисковики и узнают адреса...

С уважением, Андрей Хроленок. Загляни в FAQ по оптимизации и продвижению сайтов (http://www.seoman.ru/FAQ/) Анализатор страниц сайтов (http://www.seoman.ru/analizer/)

Сайт всё ниже в Яндекс неправильно индексирует WebP Редирект устаревших беклинков интернет-магазина:

482

Sergey Petrenko

16 декабря 2002, 20:21

#7

LiM, ты не понял. Таких страниц просто нет. И никогда не было. Ходить было невозможно просто.

M

23

misha

19 декабря 2002, 14:06

#8

Неделю назад по форуму ходил робот Апорта и брал страницы report.php. Хотя они явно запрещены в robots.txt для всех роботов.

Это какой-то глюк, причем не связанный с парсингом robots.txt (если только он на этом сайте не менялся с тех пор). К сожалению, сейчас уже сложно понять, нужных логов не осталось

GET /ubb/Forum12/HTML/000006-.html ... Штука в том, что таких страниц не существует и никогда не существовало. Старый скрипт формировал страницы с именами "000006.html" или "000006-N.html", где N=2 и более. Соответственно, ссылок на запрошенные страницы нигде быть не могло. Откуда же робот их взял?

Ты думаешь, я не заметил, как поставил более тысячи ссылок :)

Да :)

Если посмотреть source у, например, то там можно найти ссылку на с текстом nbsp;nbsp; (она перед ссылкой на первую страницу топика)

борьба с платными ссылками Трафик с яндекса: какой Google Updates - апдейты

482

Sergey Petrenko

19 декабря 2002, 14:22

#9

Хех, действительно она там есть.

Хозяйке на заметку - Апорт читает ссылки, даже если они вообще не имеют текста.

Т.е. вида

<A HREF=""></A>

482

Sergey Petrenko

19 декабря 2002, 14:23

#10

ИМХО, это баг в роботе.

Что делать, если ваша email-рассылка попала в спам

Курс биткоина превысил $50 тысяч