- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
"Не было у бабки печали, купила бабка порося."
Так вот, сделал я недавно на своем сайте пресловутый robots.txt, дабы яндекс основным миррором выбирал то что нужно мне а не то что хочется ему...
Но вскоре после этого куда-то пропал народ с рамблера! Из топа идут, а с поисковика тоооненький ручеек. Стал разбираться и наткнулся вот на что.
В апаче стоит редирект с www.domain.net/page на domain.net/page для всех страниц сайта (ну вот так хочется) и robots.txt не исключение. И вот получается хто rambler наткнувшись на код 302 не следует по редиректу, а обижается и отваливает на несколько часов. Потом снова приходит и снова обламывается... И так вот уже несколько недель.
Ну и естественно ничего не индексируется.
На остальных роботов это (вроде как) не распространяется, хотя внимательно этот вопрос я пока не изучал.
Ну и вопросы -
- это действительно так?
- это так и должно быть?
- неужели никто раньше не наступал на это?
Пока что я поправил конфиг апача так чтобы robots.txt отдавался всегда, жду теперь пока рамблер вернется... :-)
./denisd&
Вообще-то да. robots.txt должен находится по тому же адресу, что и
индексируемые страницы. www.domain.net/ и doman.net/ два _разных_ адреса и
файлы robots.txt могут быть разными.
Далее - роботы, собирающие информацию довольно примитивны.
Обрабатывать или нет редиректы - сугубо добровольное дело каждого робота.
И напоследок: в апаче не так уж и сложно настроить редирект на нужный файл
без смены url этого файла.
Это все понятно... Удивила логика рамблера.
1. Правильнее (наверное) было бы сходить по редиректу и взять то, что там предлагают. Яндекс ходит.
2. Если получаешь 302 в лоб, а что с ним делать не знаешь - проигнорируй. Ведь по-умолчанию разрешено все что не запрещено... А 302 ничего не запрещает.
3. Ну и уж тупо ломиться а одним и тем же robots.txt две недели подряд как-то вообще неприлично. :-)
Хотя, конечно же, вызвано все это моей ошибкой, вернее недостаточным продумыванией последствий моих действий. О. :-)
deniss
Яндекс вроде бы не ходит по редиректам с robots.txt. Не совсем понятно, зачем это делать? Более того, это, вроде бы, идеологически неверно.
http://www.robotstxt.org/wc/norobots.html :
The method used to exclude robots from a server is to create a file on the server which specifies an access policy for robots. This file must be accessible via HTTP on the local URL "/robots.txt".
Далее, а зачем вообще запрещать /robots.txt сайт, с которого идет полный редирект? Совершенно логично, что такие сайты не выбираются главным зеркалом по той же причине, что и запрещенные /robots.txt: они не могут быть проиндексированы.
Как ни странно, но похоже на то что Яндекс ходит.
Сейчас меня это тоже удивляет, но тем не менее это факт.
Я, похоже всех тут запутал относительно того что и зачем я пытался сделать... Сейчас поясню немного на реальном примере.
Есть сайт http://kuking.net у которого кучка алиасов (kuking.ru, recipes.spb.ru и т.п.), редирект с остальных доменов на главный. Затем у нас появился новый домен taste.ru (под другой проект, но пока и его сделали миррором). Так вот лапочка яндекс его проиндексил и... неожиданно назначил главным миррором, что неправильно с идеологической точки зрения (brand-то kuking.net).
После раздумий, чесаний репы, rtfm'a и разговора с яндексоидами сделали robots.txt в котором сказано что индексить можно только kuking.net а остальное - ни-ни. Сработало. Разобрался яндекс, какой миррор главный. Даже при том что из-за изначальных настроек апача (ну тормоз я, тормоз!) при запросе (например) www.kuking.net/robots.txt роботы получали 302 и предложение пойти за этим файлом на kuking.net/robots.txt.
Яндекс вот во всем (в том числе и моих глупостях) разобрался, а рамблера это сильно смутило. Как я уже писал, уже около двух недель этот бедняга стучится головой о мое 302. ;-)
Опять же, как я уже писал - конфиги я поправил, никаких редиректов роботы больше не получат, но тем не менее факт их поведения в нестандартной ситуации любопытен.
Согласно цитате, приведенной melkov :-
The method used to exclude robots from a server is to create a file on the server which specifies an access policy for robots. This file must be accessible via HTTP on the local URL "/robots.txt".
Логично, но не описывает (желаемое) поведение роботов в случае если файла robots.txt нет. Вернее если его нет, все просто - можно индексить все подряд. А если вот такая фигня как у меня? Что делать несчастным роботам?
Согласиться на то, что дают взамен, как яндекс?
Долбиться головой об стену и ничего при этом не индексить, как это делает рамблер?
Или просто приравнять этот случай к отсутствию файла и дальше действовать по обычному сценарию?
Мне нравится последнее. В крайнем случае первое. Но никак не второе.
Яндекс точно не ходит по редиректам с robots.txt, любой http-код, кроме 200, интерпретируется как отсутствие этого файла. Я сейчас это еще раз проверил .
Фраза "file must be accessible" как раз и означает, что должен быть http-код 200 (в крайнем случае 304, если было спрошено if-modified-since).
Что касается kuking.*, то там вот какая картина с зеркалами:
Основной адрес:
kuking.net
Редиректы: www.kuking.ru www.taste.ru www.kuking.net
kuking.spb.ru
w3.spb.ru
recipes.spb.ru www.kuking.spb.ru
kuking.ru
robots.txt:
taste.ru
А еще в середине февраля все зеркала, кроме kuking.net, действительно были успешно запрещены robots.txt.
Что касается Рамблера, IMHO, kuking.net просто не походил там ручную проверку (доменная зона-то .net). Советую почитать их раздел помощи, в крайнем случае написать в лужбу техподдержки.
Спорить не буду, так как чуствую что получил ответ от человека из яндекса. :-)
Сдаюсь, яндекс не ходит по редиректам.
Что же касается рамблера, то не верится что сайт не прошел доменную проверку. Все прекрасно индексилось до того самого момента пока я не начал баловаться с robots.txt. Согласно логам, рамблер постоянно индексил то одно, то другое... А когда начал получать 302 на robots.txt, индексация тут же прекратилась. И в поиске по тем словам по которым сайт был на 1-м месте, теперь его вообще нету.
Очень похоже на то что редирект отработался как Disallow: /
Может я делаю и неправильный вывод из того что я вижу, но уж очень странное совпадение.
Самое обидное, что рамблер так со вчерашнего дня больше ни разу и не заходил.
217.73.192.8 - - [04/Mar/2002:00:48:02 +0000] "GET /robots.txt HTTP/1.0" 302 275 "-" "StackRambler/1.4"
217.73.192.8 - - [04/Mar/2002:01:58:00 +0000] "GET /robots.txt HTTP/1.0" 302 275 "-" "StackRambler/1.4"
217.73.192.8 - - [04/Mar/2002:02:25:17 +0000] "GET /robots.txt HTTP/1.0" 302 275 "-" "StackRambler/1.4"
217.73.192.8 - - [04/Mar/2002:02:48:10 +0000] "GET /robots.txt HTTP/1.0" 302 273 "-" "StackRambler/1.4"
217.73.192.8 - - [04/Mar/2002:14:22:32 +0000] "GET /robots.txt HTTP/1.0" 302 275 "-" "StackRambler/1.4"
217.73.192.8 - - [04/Mar/2002:15:10:58 +0000] "GET /robots.txt HTTP/1.0" 302 275 "-" "StackRambler/1.4"
217.73.192.8 - - [04/Mar/2002:15:24:51 +0000] "GET /robots.txt HTTP/1.0" 302 275 "-" "StackRambler/1.4"
217.73.192.8 - - [04/Mar/2002:16:46:38 +0000] "GET /robots.txt HTTP/1.0" 302 273 "-" "StackRambler/1.4"
217.73.192.8 - - [05/Mar/2002:10:22:03 +0000] "GET /robots.txt HTTP/1.0" 302 275 "-" "StackRambler/1.4"
217.73.192.8 - - [05/Mar/2002:10:42:30 +0000] "GET /robots.txt HTTP/1.0" 302 275 "-" "StackRambler/1.4"
217.73.192.8 - - [05/Mar/2002:10:53:41 +0000] "GET /robots.txt HTTP/1.0" 302 275 "-" "StackRambler/1.4"
217.73.192.8 - - [05/Mar/2002:11:38:09 +0000] "GET /robots.txt HTTP/1.0" 302 273 "-" "StackRambler/1.4"
Ждем-с...