- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
А Вы что, хотите, чтобы вышла? Чтоб Вам почесаться, нужен аршинный заголовок в "Компьютерре" "Робот Яндекса не соблюдает robots.txt"? А вообще, euhenio, прав, дело не в 10-15 страницах, дело в двойном стандарте. Яндекс позволяет себе делать то, за что наказывает других. И оправдания о благородных целях и небольших масштабах содеянного выглядят смехотворно и неубедительно.
euhenio, я так понял, что зеркальщик ходит толко на страницы, которые были (или могли быть) проиндексированы основным роботом. Поскольку основной соблюдает robots.txt то и у зеркальщика проблем не будет.
Нет. Имеется в виду, что зеркальщик может ходит на страницы второстепенного зеркала даже если после склейки его закрыть для индексации файлом robots.txt. То есть, строго говоря, зеркальщик будет игнорировать директивы robots.txt для второстепенного зеркала
2. Как писал Саша, поисковая система не в состоянии в общем случае понять какое имя владелец сайт хочет видеть в качестве основного. То есть автоматический процесс каноникализации имени хоста всегда происходит с ошибками.
Мы пытались "научить" мастеров выдавать разный robots.txt для разных имен хостов и рекомендовали в неканонических случаях запрещать весь сайт от корня.
Однако по самым разным причинам это принесло больше вреда, чем пользы.
Отсюда предложение: использовать нестандартное расширения формата с целью указания канонического имени хоста.
3. Очевидно, директива Host в контексте термина Disallow (сразу после него) и, вообще, в контексте "запретительного" файла robots.txt не очень понятна.
Возможно нужно переименовать эту директиву в AllowHost или AllowOnlyHost или в CanonicalHostName или еще как-то.
Илья
Тогда намного логичнее директивой Host указывать каноническое имя веб сервера, в том виде, как его хочет видеть вебмастер. Это решит проблемы 2 и 3, да и позволит роботу автоматом конвертировать все линки в кононическое представление и сразу определять дупликаты.
Maxime, тут есть одна небольшая проблемка:
если робот будет определять зеркальность, основываясь только на директива host в robots.txt, без проверки, то это будет еще один способ для вебмастера обманывать робота.
К сожалению, как этого избежать, пока не понятно.
Maxime, тут есть одна небольшая проблемка:
...
К сожалению, как этого избежать, пока не понятно.
Ровно так же как с meta keywords, meta description и прочая, куда всякий пишет кто во что горазд. Поэтому усилия надо направить на правку мозгов роботу, а не вебмастерам :) - сдаётся мне что эта идея с Host: мертворождённая...
Более-менее какую-либо защиту можно обеспечить только введя отдельный mirrors.txt (по аналогии с robots.txt), в котором описывать все возможные зеркала и требованием его идентичности на всех зеркалах.
Кстати, а с чего решено, что именно без проверки ? У меня об это ни гу-гу...
wolf,
Дык я это и имел в виду написав "которые были (или могли быть) проиндексированы основным роботом. Хотя не факт, что зеркальщик полезет на домен, закрытый robots.txt отличным от того, что расположен на главном зеркале.
Например, создаем новое зеркало. Закрываем его полностью в robots.txt Спрашивается, с какого туда попрется хоть какой ни будь робот, если он об этом домене ничего не знает.
Ладно, положим индексатор нашел ссылку на наше новое зеркало. Он идет по ней (именно индексатор) но встречает запрет и сруливает. С какого перепою туда попрется зеркальщик? Просто посмотреть? Это ведь просто некий сайт закрытый через robots.txt И всё.
Другое дело, если robots.txt на данном сайте имеет дерективу host. В этом случае, зеркальщик действительно может пойти на сайт, но только на те страницы, которые индексатор брал с главного зеркала руководствуясь robots.txt То есть получается, что зеркальщик не попадет в разделы закрытые через robots.txt на главном зеркале.
В общем да, но с оговоркой. Либо он может проверить страницы которые были доступны раньше, до создания запрета (в этом уверенности нет), либо зеркальщик будет игнорировать запреты создаваемые нестандартным расширением host.
Полагаю, что если на неглавном зеркале robots.txt отличается полным запретом на индексацию от robots.txt на главном и не содержит дерективы host, то никакой робот (включая зеркальщика) туда не полезет. Господин melkov, прокомментируйте, пожалуйста.
Зеркальщик не только ходит на страницы сайта, когда эти страницы закрыты через robots.txt. Более того, зеркальщик пытается получить содержимое страниц, которых вообще не существует на одном из сайтов (если сайты не являются зеркалами), но страницы с такими путями есть на другом сайте. Т.е. зеркальщик тыкается туда, куда ему хочется и по результатам таких тычков решает, что делать с сайтами...
Polite Moose, хотя я и пообещал не давать комментариев, я их дам.
Количество вариантов поведения зеркальщика большое, оно зависит от разных обстоятельств.
Скажем, то, о чем написал LiM, тоже иногда бывает, но относительно редко.
Мой сайт яндекс почему-то считает зеркалом другого, мне не пренадлежащего и отказывается его проиндексировать.
Подскажите как исправить? Как разбить зеркало?