Как верно написать в robots.txt

K

20

kewlman

23 марта 2008, 08:47

904

Как верно запретить ссылки с сортировкой в robots.txt

http://www.xxx.ru/nobe.html?sort=products_sort_order&filter_id=43

Disallow: ?sort=products_sort_order&filter_id=*

и обязательно ли указывать User-agent: Yandex или можно так User-agent: *

Многие просто пишут что для каждого робота теперь надо отдельно в robots прописывать.

Заранее спасибо.

20

NickPro

23 марта 2008, 09:04

#1

Если я правильно понял вопрос, то:

User-agent: *

Disallow: /nobe.html?sort=products_sort_order&filter_id=

370

kimberlit

23 марта 2008, 09:05

#2

Если sort только на странице nobe.html

User-agent: Yandex
Disallow: /nobe.html?sort=

Если и на других страницах, то

User-agent: Yandex
Disallow: /*?sort=

K

20

kewlman

23 марта 2008, 09:25

#3

Спасибо NickPro и kimberlit

User-agent: Yandex

Disallow: /*?sort=

Простите, но после = не надо еще раз ставить *, так как там цифры тоже разные и их очень много.

Disallow: /*?sort=*

147

DyaDya

23 марта 2008, 09:30

#4

kewlman:
Простите, но после = не надо еще раз ставить *, так как там цифры тоже разные и их очень много.
Disallow: /*?sort=*

* в конце шаблона необязательно (я бы сказал даже, ненужно указывать). Ибо главное, чтобы шаблон совпал с началом адреса и этого уже достаточно.

Выбирайте качественный хостинг (http://vashmaster.ru/informaciya/o_poleznyh_programmah/news83.php) и продвигайте сайты в СЕОПУЛЬТ (http://seopult.ru/ref.php?ref=72b5ed9561fe66a1). А на «SAPE» я в обиде :) Не упрекайте за очепятки, пишу вслепую (http://ergosolo.ru/) и также делаю сайты (http://www.vashmaster.ru/) ;)

K

20

kewlman

23 марта 2008, 09:34

#5

DyaDya:
* в конце шаблона необязательно (я бы сказал даже, ненужно указывать). Ибо главное, чтобы шаблон совпал с началом адреса и этого уже достаточно.

DyaDya, как теперь в _webmaster.yandex.ru/delurl.xml , удалить весь подкаталог (все URL, начинающиеся с данной строки)

Как там теперь написать?

http://www.xxx.ru/*?sort=

291

Nikolai Popkov

23 марта 2008, 09:45

#6

1. указывайте правильный путь, включая слэш

Disallow: /nobe.html?sort=products_sort_order&filter_id=

- спецсимвол * учитывает Яндекс и его использование имеет смысл, если после звездочки что-то нужно ставить (По умолчанию к концу каждого правила, описанного в robots.txt, приписывается '*'):

При указании путей директив Allow-Disallow можно использовать спецсимволы '*' и '$', задавая, таким образом, определенные регулярные выражения. Спецсимвол '*' означает любую (в том числе пустую) последовательность символов. Примеры:

User-agent: Yandex

Disallow: /cgi-bin/*.aspx # запрещает '/cgi-bin/example.aspx' и '/cgi-bin/private/test.aspx'

Disallow: /*private # запрещает не только '/private', но и '/cgi-bin/private'

По умолчанию к концу каждого правила, описанного в robots.txt, приписывается '*', например:

User-agent: Yandex

Disallow: /cgi-bin* # блокирует доступ к страницам начинающимся с '/cgi-bin'

Disallow: /cgi-bin # то же самое

2. отдельно User-agent: имя_робота - не надо, если нет особых пожеланий к конкретному роботу.

Яндекс использует расширенный стандарт robots.txt и если вы используете эти расширения, то иногда лучше сделать отдельный блок User-agent. В общем случае эти расширения игнорируются остальными роботами.

партнерские программы (http://www.ebanners.ru/viewforum.php?f=7), словарь термины SEO (http://www.ebanners.ru/viewtopic.php?t=548) Форум маркетинг (http://www.reclama.su/) Reclama.Su, обмен ссылками (http://www.ebanners.ru/viewforum.php?f=13), Reklama.SU: контекстная реклама (http://www.reklama.su/) по цене Яндекса+продвижение за результат

K

20

kewlman

23 марта 2008, 10:09

#7

Удаление URLа

Документ http://www.xxx.ru/*?sort= не может быть удален из базы Яндекса, так как он не был проиндексирован.

Подскажите как верно прописать в delurl.xml ?

В вмконсоли обнаружил кучу ссылок более 200

http://www.xxx.ru/sofe.html?sort=products_sort_order&filter_id=137

http://www.xxx.ru/norrt.html?sort=products_sort_order&filter_id=12

Вручную прописывать в robots каждую ссылку? Как удалить весь все ?

*?sort=products_sort_order&filter_id=* ( что бы больше не индексировалось..) В коде сайте вабще все в <noindex> не понятно почему яндекс прошелся и все эти ссылки добавил, похоже ему наплевать теперь на noindex.

Спасибо всем кто подскажет верное решение. Так как понимаю одно, если delurl "ответит" , удалиться весь подкаталог с "*sort*" - это и есть верное решение.

147

DyaDya

23 марта 2008, 11:38

#8

kewlman:
как теперь в _webmaster.yandex.ru/delurl.xml , удалить весь подкаталог (все URL, начинающиеся с данной строки)
Как там теперь написать?

http://www.xxx.ru/*?sort=

Хорошо бы если яшка дал возможность использовать шаблоны при удалении... Но пока такой возможности нет.

Поэтому удалять либо ручками по одному URLу, либо специальным скриптиком (но его нужно еще найти или написать). Ну и третий вариант, дождаться, когда яшка сам выкинет запрещенные к индексации страницы из индекса.

Яндекс кобласит Учет canonical в Яндекс Джон Мюллер о восстановлении

S

46

staffer

23 марта 2008, 19:38

#9

kewlman, предлагаю почитать сайт http://robotstxt.org.ru/. На нем много полезной информации о robots.txt.

Также следует учитывать, что большинство поисковиков работают с утвержденным стандартом, поэтому инструкции типа "Disallow: /nobe.html?sort=products_sort_order&filter_id=" не будут учитываться, так как стандарт поддерживает только названия файлов и папок, а все параметры не включены в стандарт.

На сколько я знаю, расширенный формат поддерживает Гугл, Яндек, Яху и частично MSN. Остальные поисковики работают по стандарту.

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Зачем быть уникальным в мире, где все можно скопировать