Рамблер индексирует то что запрещено в robots.txt!

73

Мишган

9 декабря 2005, 18:14

870

Собственно, что за фигня? Сайт: www.mycv.ru

Cервис для оптимизаторов Optimizer Desktop (http://jdev.ru/od/?utm_source=forum.se.ru&utm_medium=signature): мониторинг позиций, учет ссылок. Программа для оптимизаторов и вебмастеров OptiSuit (http://optisuit.ru/?utm_source=forum.se.ru&utm_medium=signature): Optimizer Desktop на Вашем компьютере

SS

141

Seventh Son

9 декабря 2005, 18:52

#1

Приведите в пример конкретную страницу, имеющуюся в базе и нарушающую роботс. Ползать по всем документам и проверять совпадения - удовольствия мало.

«Клянусь своей жизнью и любовью к ней, что никогда не буду жить ради другого человека и никогда не попрошу и не заставлю другого человека жить ради меня» (с) Джон Галт

М

73

Мишган

9 декабря 2005, 19:15

#2

Оопс, извиняюсь, самого проглючило, забыл запятую поставить в юрлах

344

Klopopryg

9 декабря 2005, 19:59

#3

Ну раз так все быстро выяснилось и больше вопросов нет, а топи бесполезный, то просьба в модераторам: удалите этот топ, чтобы зря время на него не тратили!

Лучше выстрелить, перезарядить и еще раз выстрелить, чем светить фонариком и спрашивать - "кто тут?"

М

73

Мишган

11 декабря 2005, 10:44

#4

Обратно извиняюсь! все таки рамблер не совсем правильно пашет, как мне кажется.

например юрл: http://www.mycv.ru/Home,$JobBlock.jobSearchForm.sdirect

запрещен для индексации согласно robots.txt

однако в списке проиндексированных документов есть под 4 номером:

http://search.rambler.ru/srch?words=Stale+Link&filter=http%3A%2F%2Fwww.mycv.ru&sort=0&old_q=&btnG=%CD%E0%E9%F2%E8%21

Вот такая петрушка...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

257

AiK

11 декабря 2005, 13:50

#5

Во-первых, Гугль тоже будет игнорировать данный robots.txt

Ибо нефиг пихать яндексовские директивы в секцию для всех ботов.

Во-вторых, на сколько я помню, RFC позволяет иметь в URI только латинские алфавитно-цифровые последовательности + несколько спецсимволов. Соответственно и запятая, и бакс должны кодироваться как %2С и %24. Так что нечего на Рамблер бочку катить :)

Проблема с Директ Коммандер. Google: заголовки H1 полезны, Яндекс.Директ о сертификации рекламных

М

73

Мишган

11 декабря 2005, 17:14

#6

AiK:
Во-первых, Гугль тоже будет игнорировать данный robots.txt
Ибо нефиг пихать яндексовские директивы в секцию для всех ботов.

самое интересное то что рамблер не игнорирует всю секцию а игнорирует только параметр host

AiK:

Во-вторых, на сколько я помню, RFC позволяет иметь в URI только латинские алфавитно-цифровые последовательности + несколько спецсимволов. Соответственно и запятая, и бакс должны кодироваться как %2С и %24. Так что нечего на Рамблер бочку катить :)

Почему тогда Яндекс понимает? насчет бакса и запятой мне все таки кажется что эти символы разрешены (иначе почему гугл и яндекс их не индексирует)

257

AiK

11 декабря 2005, 18:33

#7

Мишган,

1. основные боты больших поисковиков соблюдают robots.txt, составленные в соответствии с правилами. Это аксиома, проверенная годами.

2. изменения в robots.txt не начинают действовать мгновенно. Пока не закончится обход очереди ссылок, полученной на предыдущем заходе с учётом правил предыдущей версии robots.txt, могут возникать коллизии.

Вопрос "а почему другие понимают" тут не уместен. Так парсер реализован. Гугль, например wildcards понимает. Это не значит, что все остальные боты обязаны их тоже понимать.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Что делать, чтобы попасть в ответы Google Bard

Open AI тестирует память для ChatGPT