- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
Скажите, я правильно понимаю, что вот такой robots.txt
User-Agent: *
Allow: /learn/prestuplenie-protiv-sobstvennoy-zhizni/
Allow: /learn/5-prichin-pochemu-ty-ne-otlichnik/
Disallow: /
Host: www.домен.ru
запретит индексировать весь сайт, но даст проиндексировать две страницы:
www.домен.ru/learn/prestuplenie-protiv-sobstvennoy-zhizni/ и
www.домен.ru/learn/5-prichin-pochemu-ty-ne-otlichnik/
????
Или так делать нельзя - закрыть от индексации ВЕСЬ сайт и инструкциями allow открывать только некоторые страницы?
Заранее спасибо за ответы.
Для уверенности лучше поменять местами Disallow и Allow.
Т.е. сначала запретить все, а потом указать исключения.
Инструмент в Я.Вебмастер и Google Search Console проверки robots.txt дает возможность проверить ваш роботс, введя интересующий урл сайта, попробуйте, уж они точно не обманят.
В том-то и дело, что я проверил этот роботс.тхт в Я.Вебмастере и он мне радостно написал "ноль ошибок". Я также проверил отдельные ссылки на открытость - и Я.Вебмастер показал, что те две, которые мне нужно открыть - открыты, а все остальные - закрыты. То есть все должно работать. Но не работает! Среди ошибок сайта по-прежнему висит фатальная ошибка:
При последнем обращении к файлу robots.txt было обнаружено, что сайт закрыт для индексации. Убедитесь в корректности файла robots.txt, иначе сайт может полностью пропасть из поиска.
Проверьте robots.txt и снимите установленный запрет.
И в статистике страниц в индексе - 0.
Причем это не старые данные - я после изменения в роботс.тхт запустил проверку этой фатальной ошибки - и он опять ее нашел. :(
Не могу понять, что за ерунда... Поэтому и спрашиваю - это вообще нормальная идея: закрыть весь сайт полностью, но открыть несколько конкретных страниц? Или это некорректно и так делать нельзя в принципе?
---------- Добавлено 17.02.2017 в 14:21 ----------
Для уверенности лучше поменять местами Disallow и Allow.
Т.е. сначала запретить все, а потом указать исключения.
Хм... Но ведь в инструкции по роботс.тхт от яндекса написано, что порядок директив не важен, а кроме того - приоритет директив аллоу, выше чем у дизаллоу.
Цитата:
Совместное использование директив
Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то робот выбирает последнюю в порядке появления в сортированном списке. Таким образом, порядок следования директив в файле robots.txt не влияет на использование их роботом.
Примечание. При конфликте между двумя директивами с префиксами одинаковой длины приоритет отдается директиве Allow.
Так что по идее в этом проблемы быть не должно.
Ну я на всякий случай последовал вашему совету и поменял. А то мало ли, с яндексом всякое бывает... :)
А вообще сама идея такого роботс.тхт нормальна - запретить весь сайт, но открыть только пару ссылок? Это в принципе может работать?
Добрый вечер.
Подскажите как запретить поисковикам индексацию такого вида страниц в Robots.txt?
/complete-works/%3Cspan%20class=?field_auto_brand_tid=All&field_work_type_tid=All&field_city_tid=All&page=27
Disallow: /*span
Спасибо. И такого вида
/complete-works?field_auto_brand_tid=All&field_work_type_tid=All&field_city_tid=All&page=1
Disallow: /*field_
Добрый день!
Подскажите, пожалуйста правильный и самый современный файл robots.txt для WP на 2017. На сайтах все авторы приводят разные примеры.
1) Нужно ли в robots в карте сайта использовать 2 варианта (или сейчас достаточно sitemap.xml ?)
Host: site.ru
Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap.xml.gz
2) Правильно ли, что требования Google и Yandex к robots различаются? Не все поисковые роботы одинаково следуют правилам в robots ?
3) Составленный файл сначала нужно загружать в Яндекс Вебмастер, а затем в Google Вебмастер ?
4) Для сайта нужно закрыть раздел авторизации wp-admin / wp-login, (понятно, что это нужно сделать disallow:/wp-login.php), но для безопасности в настройке WP страница авторизации имеет собственный URL, (например site.ru/*****), где -***** - название для авторизации на сайте. Что следует указывать в robots.txt, чтобы эта страница не индексировалась роботами.
5) Где можно посмотреть названия всех роботов, чтобы некоторым запретить доступ к сайту через disallow.
C ув. Spektrof
По порядку, о том что знаю:
1 - достаточно одного варианта xml
2 - нет, должна быть секция для ботов поисковиков и секция для всех остальных - этого чаще всего достаточно.
3- не имеет абсолютно никакого значения
Если у меня сайт на https, как мне прописывать директиву host???
Host: https://mysite.com
или
Host: mysite.com
Спасибо
Если у меня сайт на https, как мне прописывать директиву host???
Host: https://mysite.com
или
Host: mysite.com
Спасибо
Первый вариант.
Указание на протокол HTTPS, если зеркало доступно только по защищенному каналу (Host: https://myhost.ru).
https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml#host