robots.txt с разными правилами для разных поисковиков

12
Continental
На сайте с 23.07.2005
Offline
48
2087

Подскажите, как с помощью файла robots.txt сделать так, что бы:

для одной части поисовых систем (2-3) сайт полностью закрыть?

для другой части (1-2, и далее больше) сайт открыть?

Я не понимаю последовательности записей в robots.txt. Меня интересует сколько должно быть строчек UserAgent, как перечислять поисковики, и т.д, поэтому лучше напиши мне пример, где Яндексу разрешено все, Рамблеру запрещено все, а остальным системам тоже запрещено ВСЕ.

Моя цель постепенно открыть для индексации сайт разным поисковикам. Начну с Апорта, потом другие наши, Рамблер в конце и т.д. Мне необходимо посмотреть как это все будет индексироваться (тренироваться буду, как вы понимаете, на Апорте).

Спасибо.

Continental.
FlyAway
На сайте с 01.06.2005
Offline
439
#1

User-agent: Yandex

Host: ввв.название.домена

User-agent: StackRambler

Disallow: /

User-agent: msnbot

Disallow: /

User-agent: Googlebot

Disallow: /

и так далее закрываешь - что не нужно, открываешь - что нужно

непонятны цели этого эксперимента.

Сердюченко Андрей (http://www.serdyuchenko.ru/) Масонская ложа — SЕ-Team.ru (http://goo.gl/YIjV6h) :)
Continental
На сайте с 23.07.2005
Offline
48
#2

спасибо,

цели - сложная структура сайта с кучей внутренних ссылок туда-сюда на пока не очень понятном мне движке, много страниц, и боюсь, что-нибудь упустить. Часть сайта закрываю от роботок (всякие комментарии т.д.), хочу посмотреть как это будет все проиндексирована.

Обычно у меня всегда в поиск попадают (даже на простом html-сайте) всякие гадости вроде форм, pdf и т.д. А знаете, как потом их оттуда (из Рамблера, например) сложно обратно РАЗиднексировать. И вот висит вместо морды на нужному ключивику не та страница, однажды висела с предложением по кнопкам. -))) та стока много раз ключик встречался... вот и вылезла. зазаря.

Continental
На сайте с 23.07.2005
Offline
48
#3

А как закрыть ДЛЯ всех остальных (которые не вошли в наш список известных)? Ведь роботов около 50 штук.

FlyAway
На сайте с 01.06.2005
Offline
439
#4
Continental:
А как закрыть ДЛЯ всех остальных (которые не вошли в наш список известных)? Ведь роботов около 50 штук.

Тогда Вам сюда, почитайте документацию: http://www.robotstxt.org/wc/norobots.html

Continental
На сайте с 23.07.2005
Offline
48
#5

Возможно, кто-нибудь подскажет, т.е. нигде в источниках по robots.txt, я так и не сумел этого найти.

Мне надо запретить пусть:

/node/34/print,

но оставить путь node/64

Я так понимаю, что написать:

Disallow: *print

будет некорректным.

Как же тогда запретить адреса, ЗАКАНЧИВАЮЩИЕСЯ на что-либо, остальное по маске.

SS
На сайте с 03.09.2004
Offline
141
#6

Средствами роботс.тхт маску вида

Disallow: /some_mask/print

настроить по-моему нельзя.

Можно просто перечислить все возможные урла такого вида (заставить скрипт по шаблону наклепать кучу строчек запрета и записать в файл), но файл роботс.тхт может разростись до огромных размеров. Способ два - на print страничках просто прописать noindex в мете. Должно сработать для определенных поисковиков.

«Клянусь своей жизнью и любовью к ней, что никогда не буду жить ради другого человека и никогда не попрошу и не заставлю другого человека жить ради меня» (с) Джон Галт
wolf
На сайте с 13.03.2001
Offline
1183
#7
Continental:
А как закрыть ДЛЯ всех остальных (которые не вошли в наш список известных)? Ведь роботов около 50 штук.

Если у робота нет отдельной секции в robots.txt, то он должен выполнять директивы общей секции, т.е. начинающейся директивой

User-agent: *

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
Liar
На сайте с 16.01.2006
Offline
0
#8
FlyAway:
User-agent: Yandex
Host: ввв.название.домена

User-agent: StackRambler
Disallow: /

так то оно так...

только вот у меня уже с неделю лежит вот такой robots

заявку на удаление сайта аналогично - неделю назад добавил...

***

User-Agent: StackRambler

Disallow: /

User-Agent: *

Disallow: /bin/

***

дня три назад добавил:

***

User-Agent: StackRambler/2.0

Disallow: /

***

а рамблеру походу глубоко наплевать...

сегодня захожу на рамблер и умиляюсь :) --> Обновлено: 19.01.2006 07:26 мск

как проверить рамблер на robots?

типа Яндекса?

http://www.yandex.ru/cgi-bin/test-robots?host=

imho

надо колдовать с .htaccess

L
На сайте с 24.10.2005
Offline
24
#9

К сожалению, недавно был поставлен (чисто случайно) такой эксперимент. На крупном сайте (4000 в день с поисковиков) нормальный robot.txt был случайно заменен на

User-agent: *

Disallow: /

и заметили это через две недели.

Результат "эксперимента":

Яндекс выкинул из базы через день.

Трафик с других поисковиков (Гугль, Рамблер, Апорт, Нигма, msn, Мейл) не сократился вообще.

Liar
На сайте с 16.01.2006
Offline
0
#10
lika:

Результат "эксперимента":
Яндекс выкинул из базы через день.
Трафик с других поисковиков (Гугль, Рамблер, Апорт, Нигма, msn, Мейл) не сократился вообще.

факт

только у меня чуть по другому

я перелопачивал сайт начисто

ну и по дремучести своей аналогично запретил роботам работать...

Яндекс тут же меня выщелкнул

остальным по барабану

:)

Liar:

а рамблеру походу глубоко наплевать...
сегодня захожу на рамблер и умиляюсь :) --> Обновлено: 19.01.2006 07:26 мск

к слову сказать

логи посмотрел

простукивалка приходит - robots стукнет и уходит :)

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий