- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Здравствуйте!
А как можно поределить заход робота поисковой машины? Можно по IP или нужен обязательно User-Agent?
Здравствуйте!
А как можно поределить заход робота поисковой машины? Можно по IP или нужен обязательно User-Agent?</font>
А можно и без IP, и без User-Agent
"Воспитанный", как говорит Яндекс, робот, сначала запрашивает с корня robots.txt, а уже потом сами документы. Вот по нему роботов и ловите.
Прикольно!
У этих роботов вообще есть что-нибудь постоянное? Или имя, или IP? А то я пошла логи смотреть, и отловила Яндексовых роботов, именуемых Scooter и ia_archiver - кто-нть знает, чем они отличаются? А как звать Рамблеровских роботов? А то кого только не было - и Гугл, и Инктоми, и Аскдживс (никуда не сабмитились), а вот Рамблера не нашла
Прикольно!
А то я пошла логи смотреть, и отловила Яндексовых роботов, именуемых Scooter и ia_archiver - кто-нть знает, чем они отличаются? </font>
Насколько мне известно, Scooter - это user-agent альтавистовского робота.
А как звать Рамблеровских роботов? А то кого только не было - и Гугл, и Инктоми, и Аскдживс (никуда не сабмитились), а вот Рамблера не нашла </font>
Тут написано:
http://www.rambler.ru/doc/faq.shtml#11
С уважением,
Влад
[This message has been edited by vs (edited 19-11-2001).]
Ой, да, sorry...
У яндекса другой робот. Кстати, у меня сложилось впечатление, что вот он НЕ ЗАПРАШИВАЕТ robots.txt, а сразу по какому-то непонятному критерию идет вглубь каталога. Может, я чего-то не понимаю?
У Яндекса несколько роботов. Один занимается проверкой URL, другой их сбором, третий - уже индексацией (примерно так, я не нужную информацию в голове не держу больше дня
).
Один из них robots.txt точно запрашивает, другой - вроде бы не всегда (хотя по идее должен, может впечатление складывается из-за невнимательного анализа лога). Соответственно тот, который идёт вглубь - просто обрабатывает URL стоящие в очереди, которую наполняют другие яндексовские роботы.
У Яндекса несколько роботов. Один занимается проверкой URL, другой их сбором, третий - уже индексацией (примерно так, я не нужную информацию в голове не держу больше дня
Один из них robots.txt точно запрашивает, другой - вроде бы не всегда (хотя по идее должен, может впечатление складывается из-за невнимательного анализа лога). Соответственно тот, который идёт вглубь - просто обрабатывает URL стоящие в очереди, которую наполняют другие яндексовские роботы.</font>
Что значит, не всегда запрашивает? Тут яндексоиды рубахи на груди рвали, наезжая на "невежливых" роботов, один из которых был запущен на Яндекс Вячеславом Тихоновым... А сами, стало быть, не всегда robots.txt запрашивают... Хе-хе, двойные стандарты, так сказать...
Во всяком случае, в нашем логе я нашла некоего "Yandex/1.03.000", который ходит с IP яндекса, сразу вглубь базы, и никакого запроса robots.txt я не нашла. Насколько я понимаю, он его должен запрашивать непосредственно перед проходом по сайту? Не запрашивает. Заранее - тоже не нашла (смотрели логи примерно за неделю). Будем искать дальше(уже интересно становится).
Может, этот Yandex/1.03 не есть робот Яндекса? А тогда как его зовут?
Может, этот Yandex/1.03 не есть робот Яндекса? А тогда как его зовут?</font>
Да нет, яндексовского робота Yandex'ом и зовут. Некрасиво как-то получается, особенно в плане наездов на чужих роботов. Что на это господа из Яндекса скажут?
Позволю себе запостить скромный сырец с сигнатурами. Имеющий руки да портирует!
SESP : Array [1..SEPCount] of TSpider =
(
(SpiderName:'Altavista'; SpiderAgent:'Mercator-'),
(SpiderName:'Altavista'; SpiderAgent:'Scooter'),
(SpiderName:'AskJeeves'; SpiderAgent:'ask jeeves'),
(SpiderName:'Direct Hit'; SpiderAgent:'(Direct Hit Grabber)'),
(SpiderName:'Excite'; SpiderAgent:'ArchitextSpider'),
(SpiderName:'Excite'; SpiderAgent:'libwww-perl/5.33'),
(SpiderName:'FAST'; SpiderAgent:'fastlwspider'),
(SpiderName:'FAST'; SpiderAgent:'FAST-WebCrawler'),
(SpiderName:'Google'; SpiderAgent:'Googlebot/'),
(SpiderName:'IBM/Almaden'; SpiderAgent:'http://www.almaden.ibm.com/cs/crawler'),
(SpiderName:'IncyWincy'; SpiderAgent:'http://www.loopimprovements.com/robot.html'),
(SpiderName:'Infoseek'; SpiderAgent:'Infoseek Sidewinder/'),
(SpiderName:'Inktomi'; SpiderAgent:'Slurp.'),
(SpiderName:'Inktomi'; SpiderAgent:'Slurp/'),
(SpiderName:'Lycos'; SpiderAgent:'Lycos_Spider_'),
(SpiderName:'NorthenLight'; SpiderAgent:'Gulliver/1.3'),
(SpiderName:'NationalDirectory'; SpiderAgent:'nationaldirectory-webspider/'),
(SpiderName:'PicSearch'; SpiderAgent:'http://www.picsearch.com/bot.html'),
//Japan
(SpiderName:'Moget'; SpiderAgent:'moget@goo.ne.jp'),
//Poland
(SpiderName:'Szukacz'; SpiderAgent:'www.szukacz.pl/jakdzialarobot.html'),
// Russian SE's
(SpiderName:'Aport (RUSSIA)'; SpiderAgent:'Aport'),
(SpiderName:'Rambler (RUSSIA)'; SpiderAgent:'Rambler'),
(SpiderName:'Yandex (RUSSIA)'; SpiderAgent:'Yandex'),
// TAIWAN
(SpiderName:'OpenFind'; SpiderAgent:'Openfind data gatherer, Openbot'),
// Freely distributed
(SpiderName:'AspSeek (aspseek.org)'; SpiderAgent:'aspseek/')
);