- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков
Видим в помощи Яндекса http://www.yandex.ru/info/webmaster2.html такой текст:
Таким образом, файлы robots.txt вида
User-Agent: *
Host: www.myhost.ru
и
User-Agent: *
Host: www.myhost.ru:80
эквивалентны и запрещают индексирование как www.otherhost.ru, так и www.myhost.ru:8080.
Однако, в стандарте файла robots.txt http://www.robotstxt.org/wc/norobots.html сказано:
At least one Disallow field needs to be present in a record
Т.е. запись без директивы Disallow некорректна и должна игнорироваться и, следовательно, запись
User-Agent: *
Host: www.myhost.ru
ничего не должна запрещать.
На днях столнулись с любопытным случаем. На сайте файл robots.txt имел вид:
User-Agent: *
Host: www.site.ru
Похоже, разные программы в Яндексе интерпретируют такой некорректный robots.txt по-разному. Так, например, сервис Яндекса по проверке robots.txt http://www.yandex.ru/cgi-bin/test-robots считает, что файл корректный и запрещает к индексации все зеркала, кроме www.site.ru
Робот-зеркальщик, считает, видимо, по-другому (разные люди писали?) и главным назначил второстепенное зеркало www.othersite.ru, о чем и говорится при попытке добавить в индекс домен www.site.ru через форму http://webmaster.yandex.ru/
Индексатор, видимо, как и сервис Яндекса по проверке robots.txt, считает, что файл корректный и выкинул сайт www.othersite.ru из индекса, а добавить www.site.ru нельзя, т.к. он считается второстепенным зеркалом сайта www.othersite.ru
Вот такой бардачок получился. robots.txt на фиг снесли. Ждём.
wolf, может, проще все-таки добавить
Disallow:
?
А вообще, бардак, конечно.
У меня похожая проблема. Два разных сайта показывались без www.
Решили переделать их что бы в выдаче показывались с www
Сделали robotsы.
НА один сайт положили
User-Agent: *
Host: www.site1.ru
на второй
User-Agent: *
Disallow:
Host: www.site2.ru
через месяц оба сайта пропали из яндекса
написали в addurl@yandex-team.ru
нам ответили что оба варианта верны и надо ждать когда эти сайты отзеркалируются :)
Disallow:
?
Может.
Но обжегшись на молоке, дуешь на воду. :)
нам ответили что оба варианта верны и надо ждать когда эти сайты отзеркалируются :)
Я тоже считаю, что оба варианта верны. Disallow переводится как "запрещать, не позволять". Если я все позволяю роботу, зачем прописывать эту лишнюю директиву?;-)
Но стандарт, тем не менее, считает по-другому. Раз он есть, его надо соблюдать, а иначе, каждый будет считать по-своему и будет бардак :)
Host: www.myhost.ru
у меня всегда срабатывал.
Аналогично. Но вот случилась первая осечка.
Использование секции для всех роботов, которая User-agent: *, в сочетании со всевозможными расширениями от разных поисковых систем, вроде Host: от Яндекса или Crawl-delay: от Yahoo, может приводить к непредсказуемым результатам.
Известно ведь, что Googlebot полагает секцию с директивой Host: неправильно оформленной и игнорирует ее.
P.S. А раздел помощи на Яндексе давно нуждается в ревизии, ИМХО.
Индексатор, видимо, как и сервис Яндекса по проверке robots.txt, считает, что файл корректный и выкинул сайт www.othersite.ru из индекса, а добавить www.site.ru нельзя, т.к. он считается второстепенным зеркалом сайта www.othersite.ru
У меня такая фигня с пол года назад случилась, из-за того что в индексе было зеркало, а потом на нем полностью поменялся контент.
Пробовал разные варианты роботса, но расклеилось только недавно и после того как и на сайт и на бывшее зеркало поставили:
User-agent: *
Host: www.site.ru
Прошу прощения, не сликом в тему, но... Не врублюсь вот во что:
Мой robots.txt:
User-Agent: *
Disallow: /index
Disallow: /all
Disallow: /userarea
Disallow: /cnstats
Disallow: /icc
Disallow: /rip
Disallow: /go.php
Disallow: /banner.php
User-Agent: Yandex
Disallow: /sp3
Disallow: /efir
User-Agent: Rambler
Disallow: /sp3
Disallow: /efir
При таком вот роботсе роботы Яндекса продолжают ходить по запрещенным для всех страницам.
В частности - есть у меня такой /icc_list.php, запись "Disallow: /icc" в блоке "для всех" игнорируется... Получается, что директива "User-Agent: Yandex" отменяет полностью то, что "для всех"...
В чем мой косяк? Или это не мой?... (к стати, сайт в "бане", но это на роботов, как выяснилось совсем не влияет...)