вид для печати

12
BM
На сайте с 15.06.2002
Offline
11
3374

Всем доброго дня!

Как бы заставить Рамблер выкинуть из индекса наш вид для печати?

Потому как мешает оно (даже не спрашивайте, почему). Когда это заметили (и поставили все ссылки на такие страницы в тег noindex), было уже поздно. Теперь робот-бедняга Рамблера каждый раз проверяет все такие страницы, в мета которой написано черным-по-белому - NOINDEX. Но он все равно продолжает проверять их, не выкидывая из очереди.

Идея следующая: предлагается выдавать на определенные URL'ы (=~ /prn=1$/) 404 Not Found при попадании User Agent'а в особый список.

Противоречит ли это правилам Рамблера?

Иного пути заставить его этого не делать я не вижу.

P.S. Ссылки на вид для печати были обрамлены тегом noindex как минимум в начале июня, сайт уже раза два прошел полную переиндексацию, а прогресса (уменьшения количества запрашиваемых урлов, оканчивающихся на "prn=1") всё не видно.

WBR, Andrey.
[Удален]
#1
Идея следующая: предлагается выдавать на определенные URL'ы (=~ /prn=1$/) 404 Not Found при попадании User Agent'а в особый список.

Противоречит ли это правилам Рамблера?

Не противоречит. Вполне нормальный способ.

Ещё есть способ запретить такие URL в robots.txt.

wolf
На сайте с 13.03.2001
Offline
1183
#2
Как бы заставить Рамблер выкинуть из индекса наш вид для печати?

Запретить роботу Рамблера нужные страницы для индексации файлом robots.txt

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
Григорий Селезнев
На сайте с 25.09.2001
Offline
298
#3

в отношении рамблера это практически единственный способ ... можно еще в meta прописать ... мне интересно, сколько на это времени уходит?

BM
На сайте с 15.06.2002
Offline
11
#4
Как писал Interitus

Не противоречит. Вполне нормальный способ.
Ещё есть способ запретить такие URL в robots.txt.

AFAIK robots.txt не позволяет запретить индексацию URL'ов по regex'у. Идея выдавать 404 Not Found для плохих роботов мне представляется менее трудоёмкой для программирования, чем генерация robots.txt в условиях моего сайта.

BM
На сайте с 15.06.2002
Offline
11
#5
Как писал Professor
в отношении рамблера это практически единственный способ ... можно еще в meta прописать ... мне интересно, сколько на это времени уходит?

http://www.tool.ru/cgi/view?type=fc&id=2415&prn=1

Висит с момента открытия сайта (02.04.2002) - в отличие от конструкции <noindex><a href="...&prn=1">...</a></noindex> я догадался проставить meta сразу.

Как видим, фиолетово. :-(

P.S. Каждую неделю мне приходит отчет о посещении этого сайта роботами. Робот StackRambler запрашивал вышеуказанный URL не единожды, из чего можно сделать вывод о том, что на meta Рамблеру (пока?) начхать.

[Удален]
#6
AFAIK robots.txt не позволяет запретить индексацию URL'ов по regex'у.

Точно, не позволяет.

Идея выдавать 404 Not Found для плохих роботов мне представляется менее трудоёмкой для программирования

Да какое тут программирование :)

RewriteEngine on

Options +FollowSymlinks
RewriteBase /
RewriteCond %{HTTP_USER_AGENT} ^Stack
RewriteRule ^regex$ error.html [R=404]
AiK
На сайте с 27.10.2000
Offline
257
AiK
#7

Полагаю, что безопаснее будет сделать псевдостатику и запретить к индексации какой-нибудь print.html.

Григорий Селезнев
На сайте с 25.09.2001
Offline
298
#8
Как писал bk_man P.S. Каждую неделю мне приходит отчет о посещении этого сайта роботами. Робот StackRambler запрашивал вышеуказанный URL не единожды, из чего можно сделать вывод о том, что на meta Рамблеру (пока?) начхать.

некорректный вывод ... он может быть в результатах поиска и отсутствует, но вот если линк есть, то почему бы и не прийти роботу за документом?

AiK
На сайте с 27.10.2000
Offline
257
AiK
#9
AFAIK robots.txt не позволяет запретить индексацию URL'ов по regex'у.

BTW, Гугль * понимает

V
На сайте с 20.06.2001
Offline
24
vs
#10

1) Была ошибка - индексировался кусок текста, который идет ДО тэга <META ...>. Получилось, что <TITLE> мы индексировали (он раньше идет по тексту), а остальной текст - нет. Ошибку исправим.

2) NOINDEX означает, что страницу не надо класть в индекс. А скачивать ее и извлекать из нее ссылки - не запрещает. Поэтому робот туда ходить должен.

С уважением, Влад Шабанов vs@rambler-co.ru
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий