Предлагаемое расширение стандарта robots.txt

wolf
На сайте с 13.03.2001
Offline
1183
#61
Думаю, Вы преувеличиваете масштабы трагедии. Пока что эта проблема не вышла за пределы обсуждения на этом форуме.

А Вы что, хотите, чтобы вышла? Чтоб Вам почесаться, нужен аршинный заголовок в "Компьютерре" "Робот Яндекса не соблюдает robots.txt"? А вообще, euhenio, прав, дело не в 10-15 страницах, дело в двойном стандарте. Яндекс позволяет себе делать то, за что наказывает других. И оправдания о благородных целях и небольших масштабах содеянного выглядят смехотворно и неубедительно.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
Polite Moose
На сайте с 22.04.2002
Offline
85
#62

euhenio, я так понял, что зеркальщик ходит толко на страницы, которые были (или могли быть) проиндексированы основным роботом. Поскольку основной соблюдает robots.txt то и у зеркальщика проблем не будет.

Удачи, доброго пива (http://www.fifth-ocean.ru/) и настроения! Релевантность определяется не тИЦ, не ВИЦ, не количеством ссылок, не частотой ключевого слова, а соответствием запросу!
wolf
На сайте с 13.03.2001
Offline
1183
#63
euhenio, я так понял, что зеркальщик ходит толко на страницы, которые были (или могли быть) проиндексированы основным роботом. Поскольку основной соблюдает robots.txt то и у зеркальщика проблем не будет.

Нет. Имеется в виду, что зеркальщик может ходит на страницы второстепенного зеркала даже если после склейки его закрыть для индексации файлом robots.txt. То есть, строго говоря, зеркальщик будет игнорировать директивы robots.txt для второстепенного зеркала

M
На сайте с 29.03.2003
Offline
65
#64
Как писал iseg
2. Как писал Саша, поисковая система не в состоянии в общем случае понять какое имя владелец сайт хочет видеть в качестве основного. То есть автоматический процесс каноникализации имени хоста всегда происходит с ошибками.

Мы пытались "научить" мастеров выдавать разный robots.txt для разных имен хостов и рекомендовали в неканонических случаях запрещать весь сайт от корня.

Однако по самым разным причинам это принесло больше вреда, чем пользы.

Отсюда предложение: использовать нестандартное расширения формата с целью указания канонического имени хоста.

3. Очевидно, директива Host в контексте термина Disallow (сразу после него) и, вообще, в контексте "запретительного" файла robots.txt не очень понятна.

Возможно нужно переименовать эту директиву в AllowHost или AllowOnlyHost или в CanonicalHostName или еще как-то.

Илья

Тогда намного логичнее директивой Host указывать каноническое имя веб сервера, в том виде, как его хочет видеть вебмастер. Это решит проблемы 2 и 3, да и позволит роботу автоматом конвертировать все линки в кононическое представление и сразу определять дупликаты.

Проверь свои запросы: Вершки Рунета (http://www.43n39e.ru/)
M
На сайте с 25.01.2001
Offline
57
#65

Maxime, тут есть одна небольшая проблемка:

если робот будет определять зеркальность, основываясь только на директива host в robots.txt, без проверки, то это будет еще один способ для вебмастера обманывать робота.

К сожалению, как этого избежать, пока не понятно.

M
На сайте с 29.03.2003
Offline
65
#66
Как писал melkov
Maxime, тут есть одна небольшая проблемка:

...

К сожалению, как этого избежать, пока не понятно.

Ровно так же как с meta keywords, meta description и прочая, куда всякий пишет кто во что горазд. Поэтому усилия надо направить на правку мозгов роботу, а не вебмастерам :) - сдаётся мне что эта идея с Host: мертворождённая...

Более-менее какую-либо защиту можно обеспечить только введя отдельный mirrors.txt (по аналогии с robots.txt), в котором описывать все возможные зеркала и требованием его идентичности на всех зеркалах.

Кстати, а с чего решено, что именно без проверки ? У меня об это ни гу-гу...

Polite Moose
На сайте с 22.04.2002
Offline
85
#67

wolf,

Нет. Имеется в виду, что зеркальщик может ходит на страницы второстепенного зеркала даже если после склейки его закрыть для индексации файлом robots.txt.

Дык я это и имел в виду написав "которые были (или могли быть) проиндексированы основным роботом. Хотя не факт, что зеркальщик полезет на домен, закрытый robots.txt отличным от того, что расположен на главном зеркале.

Например, создаем новое зеркало. Закрываем его полностью в robots.txt Спрашивается, с какого туда попрется хоть какой ни будь робот, если он об этом домене ничего не знает.

Ладно, положим индексатор нашел ссылку на наше новое зеркало. Он идет по ней (именно индексатор) но встречает запрет и сруливает. С какого перепою туда попрется зеркальщик? Просто посмотреть? Это ведь просто некий сайт закрытый через robots.txt И всё.

Другое дело, если robots.txt на данном сайте имеет дерективу host. В этом случае, зеркальщик действительно может пойти на сайт, но только на те страницы, которые индексатор брал с главного зеркала руководствуясь robots.txt То есть получается, что зеркальщик не попадет в разделы закрытые через robots.txt на главном зеркале.

То есть, строго говоря, зеркальщик будет игнорировать директивы robots.txt для второстепенного зеркала

В общем да, но с оговоркой. Либо он может проверить страницы которые были доступны раньше, до создания запрета (в этом уверенности нет), либо зеркальщик будет игнорировать запреты создаваемые нестандартным расширением host.

Полагаю, что если на неглавном зеркале robots.txt отличается полным запретом на индексацию от robots.txt на главном и не содержит дерективы host, то никакой робот (включая зеркальщика) туда не полезет. Господин melkov, прокомментируйте, пожалуйста.

LM
На сайте с 30.11.2001
Offline
71
LiM
#68

Зеркальщик не только ходит на страницы сайта, когда эти страницы закрыты через robots.txt. Более того, зеркальщик пытается получить содержимое страниц, которых вообще не существует на одном из сайтов (если сайты не являются зеркалами), но страницы с такими путями есть на другом сайте. Т.е. зеркальщик тыкается туда, куда ему хочется и по результатам таких тычков решает, что делать с сайтами...

С уважением, Андрей Хроленок. Загляни в FAQ по оптимизации и продвижению сайтов (http://www.seoman.ru/FAQ/) Анализатор страниц сайтов (http://www.seoman.ru/analizer/)
M
На сайте с 25.01.2001
Offline
57
#69

Polite Moose, хотя я и пообещал не давать комментариев, я их дам.

Количество вариантов поведения зеркальщика большое, оно зависит от разных обстоятельств.

Скажем, то, о чем написал LiM, тоже иногда бывает, но относительно редко.

Andreyka
На сайте с 19.02.2005
Offline
822
#70

Мой сайт яндекс почему-то считает зеркалом другого, мне не пренадлежащего и отказывается его проиндексировать.

Подскажите как исправить? Как разбить зеркало?

Не стоит плодить сущности без необходимости

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий