вид для печати

11

bk_man

23 декабря 2002, 08:39

3380

Всем доброго дня!

Как бы заставить Рамблер выкинуть из индекса наш вид для печати?

Потому как мешает оно (даже не спрашивайте, почему). Когда это заметили (и поставили все ссылки на такие страницы в тег noindex), было уже поздно. Теперь робот-бедняга Рамблера каждый раз проверяет все такие страницы, в мета которой написано черным-по-белому - NOINDEX. Но он все равно продолжает проверять их, не выкидывая из очереди.

Идея следующая: предлагается выдавать на определенные URL'ы (=~ /prn=1$/) 404 Not Found при попадании User Agent'а в особый список.

Противоречит ли это правилам Рамблера?

Иного пути заставить его этого не делать я не вижу.

P.S. Ссылки на вид для печати были обрамлены тегом noindex как минимум в начале июня, сайт уже раза два прошел полную переиндексацию, а прогресса (уменьшения количества запрашиваемых урлов, оканчивающихся на "prn=1") всё не видно.

WBR, Andrey.

[Удален]

23 декабря 2002, 08:45

#1

Идея следующая: предлагается выдавать на определенные URL'ы (=~ /prn=1$/) 404 Not Found при попадании User Agent'а в особый список.

Противоречит ли это правилам Рамблера?

Не противоречит. Вполне нормальный способ.

Ещё есть способ запретить такие URL в robots.txt.

1183

wolf

23 декабря 2002, 08:46

#2

Как бы заставить Рамблер выкинуть из индекса наш вид для печати?

Запретить роботу Рамблера нужные страницы для индексации файлом robots.txt

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )

298

Григорий Селезнев

23 декабря 2002, 09:12

#3

в отношении рамблера это практически единственный способ ... можно еще в meta прописать ... мне интересно, сколько на это времени уходит?

BM

11

bk_man

23 декабря 2002, 09:22

#4

Как писал Interitus

Не противоречит. Вполне нормальный способ.
Ещё есть способ запретить такие URL в robots.txt.

AFAIK robots.txt не позволяет запретить индексацию URL'ов по regex'у. Идея выдавать 404 Not Found для плохих роботов мне представляется менее трудоёмкой для программирования, чем генерация robots.txt в условиях моего сайта.

BM

11

bk_man

23 декабря 2002, 09:29

#5

Как писал Professor
в отношении рамблера это практически единственный способ ... можно еще в meta прописать ... мне интересно, сколько на это времени уходит?

http://www.tool.ru/cgi/view?type=fc&id=2415&prn=1

Висит с момента открытия сайта (02.04.2002) - в отличие от конструкции <noindex><a href="...&prn=1">...</a></noindex> я догадался проставить meta сразу.

Как видим, фиолетово. :-(

P.S. Каждую неделю мне приходит отчет о посещении этого сайта роботами. Робот StackRambler запрашивал вышеуказанный URL не единожды, из чего можно сделать вывод о том, что на meta Рамблеру (пока?) начхать.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

23 декабря 2002, 09:47

#6

AFAIK robots.txt не позволяет запретить индексацию URL'ов по regex'у.

Точно, не позволяет.

Идея выдавать 404 Not Found для плохих роботов мне представляется менее трудоёмкой для программирования

Да какое тут программирование :)

RewriteEngine on

Options +FollowSymlinks

RewriteBase /

RewriteCond %{HTTP_USER_AGENT} ^Stack

RewriteRule ^regex$ error.html [R=404]

257

AiK

23 декабря 2002, 11:56

#7

Полагаю, что безопаснее будет сделать псевдостатику и запретить к индексации какой-нибудь print.html.

298

Григорий Селезнев

23 декабря 2002, 12:48

#8

Как писал bk_man P.S. Каждую неделю мне приходит отчет о посещении этого сайта роботами. Робот StackRambler запрашивал вышеуказанный URL не единожды, из чего можно сделать вывод о том, что на meta Рамблеру (пока?) начхать.

некорректный вывод ... он может быть в результатах поиска и отсутствует, но вот если линк есть, то почему бы и не прийти роботу за документом?

257

AiK

25 декабря 2002, 00:23

#9

AFAIK robots.txt не позволяет запретить индексацию URL'ов по regex'у.

BTW, Гугль * понимает

V

24

vs

25 декабря 2002, 14:01

#10

1) Была ошибка - индексировался кусок текста, который идет ДО тэга <META ...>. Получилось, что <TITLE> мы индексировали (он раньше идет по тексту), а остальной текст - нет. Ошибку исправим.

2) NOINDEX означает, что страницу не надо класть в индекс. А скачивать ее и извлекать из нее ссылки - не запрещает. Поэтому робот туда ходить должен.

С уважением, Влад Шабанов vs@rambler-co.ru

Дзен реализовал для авторов возможность вывода денег через СПБ

Маркетинг для шоколадной фабрики. На 34% выше средний чек