Загадочное поведение Scooter`а

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
1533

Сегодня посвятил некоторое время изучению логов и пришел в неописуемое изумление. Т.е. я и раньше видел в репортах около 3к хитов, сделанных роботом Альтависты, но руки не доходили посмотреть, что именно он ел. Лишь теплилась надежда, что робот нахонец одумался и пришел поесть давно ему скармливаемую старую версию форума. Совсем на заднем плане маячила мысль, что, может, он динамику поел. Действительность оказалась совсем иной, мрачной и непонятной.

Людям, знающим структуру старого скрипта форума - UBB - объяснять особо ничего не надо, остальным поясню. Скрипт форума, который здесь стоял раньше, генерирует статические html страницы для топиков. Причем делается это интересно - поскольку шаблоны и настройки могут меняться, то (а точнее, для обеспечения этого) все топики хранятся в текстовых файлах с расширением .cgi (но это не скрипты), а html строится с помощью базы данных по настройкам и шаблонам и данных файлов.

Так вот, вообразите мое изумление, когда я увидел, что все, что проиндексировал робот - это указанные .cgi-файлы. Я с полчаса просматривал лог, не в силах понять - как робот мог вообще узнать об их существовании? В природе не существует ссылок на них, их никто никогда не просматривал через веб - как же робот смог сформулировать запрос к ним? А потом я выловил запрос к директории ubb. И стало более-менее понятно. Каким-то образом робот зашел по адресу searchengines.ru/ubb, увидел там листинг директории и пошел по ссылкам. Ничуть не смущаясь кодом 206 или 302.

Остается только вопрос - а откуда взялся адрес типа /ubb? Ни разу, нигде такой ссылки не ставилось. Когда я сабмитил списки топиков (давно это было, правда), то там были четкие адреса html-страниц, содержащих ссылки на все топики форума. Каким образом робот их обрезал и обратился к "корневой" директории?

У кого-нибудь мысли есть на этот счет?

wolf
На сайте с 13.03.2001
Offline
1183
#1

Остается только вопрос - а откуда взялся адрес типа /ubb?

Такое предположение. Если какой-нибудь URL выглядел как searchengines.ru/ubb?что-там , то робот мог по какой-нибудь причине отсечь знак вопроса со всем содержимым, идущим после него. Так, например, в свое время Апорт боролся с динамикой.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#2

Нет, таких URL`ов не было никогда. Топики старого форума имели адреса типаа searchengines.ru/ubb/Forum1/HTML/000123.html

wolf
На сайте с 13.03.2001
Offline
1183
#3

Тогда предположу, что Scooter пытается сам найти главную страницу директории и сам тыкается в searchengines.ru/ubb/, а заодно, может, и в searchengines.ru/ubb/Forum1/ и в searchengines.ru/ubb/Forum1/HTML/.

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#4

В том-то и вопрос, что в searchengines.ru/ubb/Forum1/HTML/ он не тыкался вовсе.

wolf
На сайте с 13.03.2001
Offline
1183
#5
В том-то и вопрос, что в searchengines.ru/ubb/Forum1/HTML/ он не тыкался вовсе.

А, может, Scooter самостоятельно тыкаться в поддиректории четвертого уровня вложенности считает ниже своего достоинства - забирает только страницы, найденные по ссылкам. У них же раньше на сайте в хелпе было написано, что статический ранг документа зависит, в том числе, и от уровня вложенности поддиректории, в которой он лежит.

Dm
На сайте с 11.03.2002
Offline
108
Dm
#6

А тот же скутер был? Может какой-нибудь Scooter-forum-seeker? Типа сканирование сайта на предмет форума, чтобы не индексировать. Просто как мысль.

Я за ДСДЛ (/ru/forum/135358)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий