Как узнать, какие роботы и когда посещали сайт

12
I
На сайте с 13.09.2001
Offline
79
Iva
10623

Здравствуйте!

А как можно поределить заход робота поисковой машины? Можно по IP или нужен обязательно User-Agent?

Удачи! Iva feel the power
VT
На сайте с 27.01.2001
Offline
130
#1

<font face="Verdana" size="2">Originally posted by Iva3000:
Здравствуйте!
А как можно поределить заход робота поисковой машины? Можно по IP или нужен обязательно User-Agent?
</font>

А можно и без IP, и без User-Agent

"Воспитанный", как говорит Яндекс, робот, сначала запрашивает с корня robots.txt, а уже потом сами документы. Вот по нему роботов и ловите.

I
На сайте с 13.09.2001
Offline
79
Iva
#2

Прикольно!

У этих роботов вообще есть что-нибудь постоянное? Или имя, или IP? А то я пошла логи смотреть, и отловила Яндексовых роботов, именуемых Scooter и ia_archiver - кто-нть знает, чем они отличаются? А как звать Рамблеровских роботов? А то кого только не было - и Гугл, и Инктоми, и Аскдживс (никуда не сабмитились), а вот Рамблера не нашла

wolf
На сайте с 13.03.2001
Offline
1183
#3

<font face="Verdana" size="2">Originally posted by Iva3000:
Прикольно!
А то я пошла логи смотреть, и отловила Яндексовых роботов, именуемых Scooter и ia_archiver - кто-нть знает, чем они отличаются?
</font>

Насколько мне известно, Scooter - это user-agent альтавистовского робота.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
V
На сайте с 20.06.2001
Offline
24
vs
#4

<font face="Verdana" size="2">Originally posted by Iva3000:
А как звать Рамблеровских роботов? А то кого только не было - и Гугл, и Инктоми, и Аскдживс (никуда не сабмитились), а вот Рамблера не нашла </font>

Тут написано:

http://www.rambler.ru/doc/faq.shtml#11

С уважением,

Влад

[This message has been edited by vs (edited 19-11-2001).]

С уважением, Влад Шабанов vs@rambler-co.ru
I
На сайте с 13.09.2001
Offline
79
Iva
#5

Ой, да, sorry...

У яндекса другой робот. Кстати, у меня сложилось впечатление, что вот он НЕ ЗАПРАШИВАЕТ robots.txt, а сразу по какому-то непонятному критерию идет вглубь каталога. Может, я чего-то не понимаю?

AiK
На сайте с 27.10.2000
Offline
257
AiK
#6

У Яндекса несколько роботов. Один занимается проверкой URL, другой их сбором, третий - уже индексацией (примерно так, я не нужную информацию в голове не держу больше дня ).

Один из них robots.txt точно запрашивает, другой - вроде бы не всегда (хотя по идее должен, может впечатление складывается из-за невнимательного анализа лога). Соответственно тот, который идёт вглубь - просто обрабатывает URL стоящие в очереди, которую наполняют другие яндексовские роботы.

wolf
На сайте с 13.03.2001
Offline
1183
#7

<font face="Verdana" size="2">Originally posted by AiK:
У Яндекса несколько роботов. Один занимается проверкой URL, другой их сбором, третий - уже индексацией (примерно так, я не нужную информацию в голове не держу больше дня ).
Один из них robots.txt точно запрашивает, другой - вроде бы не всегда (хотя по идее должен, может впечатление складывается из-за невнимательного анализа лога). Соответственно тот, который идёт вглубь - просто обрабатывает URL стоящие в очереди, которую наполняют другие яндексовские роботы.
</font>

Что значит, не всегда запрашивает? Тут яндексоиды рубахи на груди рвали, наезжая на "невежливых" роботов, один из которых был запущен на Яндекс Вячеславом Тихоновым... А сами, стало быть, не всегда robots.txt запрашивают... Хе-хе, двойные стандарты, так сказать...

I
На сайте с 13.09.2001
Offline
79
Iva
#8

Во всяком случае, в нашем логе я нашла некоего "Yandex/1.03.000", который ходит с IP яндекса, сразу вглубь базы, и никакого запроса robots.txt я не нашла. Насколько я понимаю, он его должен запрашивать непосредственно перед проходом по сайту? Не запрашивает. Заранее - тоже не нашла (смотрели логи примерно за неделю). Будем искать дальше(уже интересно становится).

Может, этот Yandex/1.03 не есть робот Яндекса? А тогда как его зовут?

wolf
На сайте с 13.03.2001
Offline
1183
#9

<font face="Verdana" size="2">Originally posted by Iva3000:

Может, этот Yandex/1.03 не есть робот Яндекса? А тогда как его зовут?
</font>

Да нет, яндексовского робота Yandex'ом и зовут. Некрасиво как-то получается, особенно в плане наездов на чужих роботов. Что на это господа из Яндекса скажут?

NW
На сайте с 10.07.2001
Offline
69
#10

Позволю себе запостить скромный сырец с сигнатурами. Имеющий руки да портирует!

SESP : Array [1..SEPCount] of TSpider =

(

(SpiderName:'Altavista'; SpiderAgent:'Mercator-'),

(SpiderName:'Altavista'; SpiderAgent:'Scooter'),

(SpiderName:'AskJeeves'; SpiderAgent:'ask jeeves'),

(SpiderName:'Direct Hit'; SpiderAgent:'(Direct Hit Grabber)'),

(SpiderName:'Excite'; SpiderAgent:'ArchitextSpider'),

(SpiderName:'Excite'; SpiderAgent:'libwww-perl/5.33'),

(SpiderName:'FAST'; SpiderAgent:'fastlwspider'),

(SpiderName:'FAST'; SpiderAgent:'FAST-WebCrawler'),

(SpiderName:'Google'; SpiderAgent:'Googlebot/'),

(SpiderName:'IBM/Almaden'; SpiderAgent:'http://www.almaden.ibm.com/cs/crawler'),

(SpiderName:'IncyWincy'; SpiderAgent:'http://www.loopimprovements.com/robot.html'),

(SpiderName:'Infoseek'; SpiderAgent:'Infoseek Sidewinder/'),

(SpiderName:'Inktomi'; SpiderAgent:'Slurp.'),

(SpiderName:'Inktomi'; SpiderAgent:'Slurp/'),

(SpiderName:'Lycos'; SpiderAgent:'Lycos_Spider_'),

(SpiderName:'NorthenLight'; SpiderAgent:'Gulliver/1.3'),

(SpiderName:'NationalDirectory'; SpiderAgent:'nationaldirectory-webspider/'),

(SpiderName:'PicSearch'; SpiderAgent:'http://www.picsearch.com/bot.html'),

//Japan

(SpiderName:'Moget'; SpiderAgent:'moget@goo.ne.jp'),

//Poland

(SpiderName:'Szukacz'; SpiderAgent:'www.szukacz.pl/jakdzialarobot.html'),

// Russian SE's

(SpiderName:'Aport (RUSSIA)'; SpiderAgent:'Aport'),

(SpiderName:'Rambler (RUSSIA)'; SpiderAgent:'Rambler'),

(SpiderName:'Yandex (RUSSIA)'; SpiderAgent:'Yandex'),

// TAIWAN

(SpiderName:'OpenFind'; SpiderAgent:'Openfind data gatherer, Openbot'),

// Freely distributed

(SpiderName:'AspSeek (aspseek.org)'; SpiderAgent:'aspseek/')

);

Maxim A. Ralnikovhttp://ralnikov.com
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий