Все ли пауки используют файл robots.txt?

O

6

onegin

28 июля 2003, 21:17

1678

Интересует данный вопрос в свете обнаружения клоакинга.

Обязаны ли поисковики во всех своих скриптах включать обращение к robots.txt или нет?

Кто-нибудь встречался с тем, что по его сайту прошелся робот и не посмотрел robots.txt?

C

120

Cherny

29 июля 2003, 06:44

#1

Никто не обязан руководствоваться правилами robots.txt, потому что это рекомендация, но все же основная масса старается их выполнять, так как могут просто закрывать доступ "некультурным" роботам.

Воспользуйтесь поиском по форуму, здесь много раз обсуждалась данная тема.

С уважением, Владимир Чернышов. (не)?путевые заметки (http://chernyshov.kiev.ua/)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

29 июля 2003, 07:28

#2

Интересует данный вопрос в свете обнаружения клоакинга.

Если я правильно понял, вы опасаетесь что паук не спросив robots.txt зайдет под видом браузера с какого-то левого ip. Легенды конечно есть, что такое существует, но по-моему это все лишь легенды и паранойя. ИМХО лучше особо не париться и работать по ip, а то и вообще по user-agent!~/Mozilla/, если речь не о супер-секретных данных ;)

257

AiK

29 июля 2003, 11:40

#3

паук не спросив robots.txt зайдет

Запросто. Один паук спрашивает robots.txt, а другой в соответствии с ним страницы обходит. IP могут быть разные, UA как правило "похожи с начала строки".

Однако, не всё то робот, что robots.txt запрашивает...

1183

wolf

29 июля 2003, 14:45

#4

а то и вообще по user-agent!~/Mozilla/, если речь не о супер-секретных данных

Леш, а вот такой User-agent тебе знаком:

Mozilla/5.0 (Slurp/cat;slurp@inktomi.com;http://www.inktomi.com/slurp.html) ? ;)

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )

O

6

onegin

30 июля 2003, 08:36

#5

Как писал AiK

Запросто. Один паук спрашивает robots.txt, а другой в соответствии с ним страницы обходит. IP могут быть разные, UA как правило "похожи с начала строки".
Однако, не всё то робот, что robots.txt запрашивает...

А кто-нибудь реально сталкивался с подобным?

Что роботы могут не смотреть robots.txt это понятно, т.к. это только рекомендации. Но, насколько я понимаю, это так же и правила хорошего тона, корректность что-ли... Кто-нибудь встречался с "некорректным" поведением роботов поисковиков? В частности, интересует Яндекс.

Страница в индексе Google, Яндекс кобласит Запрет на обход и

[Удален]

30 июля 2003, 08:41

#6

Как писал onegin
Кто-нибудь встречался с "некорректным" поведением роботов поисковиков? В частности, интересует Яндекс.

В частности, у яндекса есть такие роботы (которых они роботами упорно не считают), которые на robots.txt ложили :) По этому поводу не так давно уже был топик.

257

AiK

30 июля 2003, 11:01

#7

Но, насколько я понимаю, это так же и правила хорошего тона, корректность что-ли...

Я не то имел ввиду. У некоторых поисковиков далеко не один бот. Зачем закачивать один и тот же robots.txt несколько раз разными ботами?

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

VK приобрела 70% в структуре компании-разработчика red_mad_robot