- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Здраствуйте!
Есть такая проблема - в поисковики все время попадают ложные адреса типа wwww.site.ru, ww.site.ru, news.site.ru, pda.site.ru и т.п. Таких субдоменов на сайте нет. Как появляются эти ссылки ясно - кто-то где-то где-то дает ошибочную ссылку с таким префиксом, поисковик идет по ней... и видит то, что и нужно, но только в URL вместо www подставляется ложный субдомен. А дальше разрастается куст ложных ссылок, причем оригинальные склеиваются с ложными в пользу последних.
Сервер, увы, так настроен, что URL с несуществующим субдоменом воспринимается как нормальный корневой. Это все конечно не очень полезно с точки зрения оптимизации. Как наиболее простым способом запретить индексацию выявленных ложных субдоменов?
Спасибо!
Если файл виден так:
news.site.ru/robots.txt
то он будет закрывать папку:
news.site.ru/include/
если она прописана в роботе:
User-agent: *
Disallow: /include/
antono, тут речь о другом: этих сабдоменов не существует. Просто надо с сервером разбираться.
У меня так же сервер настроен. А поисковику все равно как там настроено, он что видит, то и обрабатывает. В данном случае он будет видеть news.site.ru/robots.txt и соответственно применит все что в роботе
А зачем вам это надо? Это дает какую-то пользу???
Конечно дает - очень неудобно работать с доменами, жестко привязанными к папке. Даже include не работает в таком случае. А если поддоменов десятки, то просто ужас. А автоподдомены позволяют легко добавить поддомен не прописывая ничего в апаче - а только отредактировать диспетчерский скрипт.
А если "смотреть" запрос, и вслучае "бока", выдавать 301+нужную страницу?
1.
Если у вас сервер Apache, то можно вместо использования директивы Host (которая работает только для Яндекса) задать robots.txt с использованием директив SSI:
<!--#if expr=" \"${HTTP_HOST}\" != \"www.ebanners.ru\" " -->User-Agent: *
Disallow: /
<!--#endif -->
В этом файле роботу запрещен обход всех хостов, кроме
www.ebanners.ru.
Как включать SSI, можно прочесть в документации по вашему серверу или обратиться к вашему системному администратору. Проверить результат можно, просто запросив страницы:
http://www.ebanners.ru/robots.txt
http://другое_имя.ru/robots.txt
и т.д. Результаты должны быть разные.
2. Только для Яндекса
Для того, чтобы индексировалось выбранное вами зеркало, достаточно запретить индексацию всех остальных зеркал при помощи файла robots.txt. Это можно сделать, используя нестандартное расширение стандарта robots.txt — директиву Host, в качестве ее параметра указав имя основного зеркала. Если www.reklama.su — основное зеркало, то robots.txt должен выглядеть примерно так:
В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву Host необходимо добавлять в группе, начинающейся с записи User-Agent, непосредственно после записей Disallow.
Аргументом директивы Host является доменное имя с номером порта (80 по умолчанию), отделенным двоеточием. Если какой-либо сайт не указан в качестве аргумента для Host, для него подразумевается наличие директивы Disallow: /, т.е. полный запрет индексации (при наличии в группе хотя бы одной корректной директивы Host). Таким образом, файлы robots.txt вида
и
эквивалентны и запрещают индексирование как www.volchat.ru , так и www.reklama.su:8080 и news.reklama.su
подробнее здесь:
Зеркало сайта - как выбрать главный виртуальный хост из нескольких зеркал сайта
Спасибо большое всем, идеи понятны!
Да, забыл уточнить.. Уважаемый Nikolai Popkov, а вы не могли бы подсказать формат такого же кода SSI для robots.txt, разрешающего обход помимо основного домена еще и нескольких субдоменов. Дело в том, что помимо ложных субдоменов на сайте вполне хватает и настоящих.