Правила написания атрибутов в robots.txt

12
Jason_B
На сайте с 31.03.2009
Offline
35
925

В силу особенностей CMS, возникла трудность с индексированием страниц, в частности Яндексом.

Страница выглядит следующим образом:

/ShowArticle.aspx?ID=1024

Но на эту страницу, также можно попасть через адрес:

/ShowArticle.aspx?ID=1024&AspxAutoDetectCookieSupport=1

/(X(1)A(w3vqtHcMygEkAAAAMDYzYjc5MjEtYjJkNS00MTcxLWIwZjMtNTFkOThlYzYwM2M5TvPdeej8RmnD5UGQrxZXcGpdLtc1))/ShowArticle.aspx?ID=1024&AspxAutoDetectCookieSupport=1

В итоге, после просмотра данных в панели ВМ, часто встречается 302 ошибка (ресурс временно перемещен). Робот индексирует страницу, на которую установлено перенаправление, а основной адрес страницы игнорирует.

Подскажите, как прописать в robots.txt следующий атрибут:

Не индексировать вышеупомянутые страницы с бредовым набором непонятных букв, а в ключать в индекс только те, которые соответствуют этому формату:

/ShowArticle.aspx?ID=1024

/ShowArticle.aspx?ID=1025 и т.д.

Bdiang
На сайте с 19.07.2006
Offline
102
#1

Поскольку в обоих вариантах присутствует параметр AspxAutoDetectCookieSupport, то проще всего так

Disallow: *AspxAutoDetectCookieSupport*

BrokenBrake
На сайте с 03.03.2007
Offline
194
#2

Это серьезная проблема, т. к. идентификатор страницы идёт до абракадабры. Символы подстановки в стандарт robots.txt не входят, их понимает только Google. Вам можно попробовать в движке как-то определять, будет ли абракадабра в URL, и если будет, выводить метатег, запрещающий индексацию. Других вариантов пока не знаю.

Bdiang, хуже всего, когда люди начинают давать безграмотные советы.

Стыдитесь и больше так не делайте.

BrokenBrake добавил 03.06.2009 в 08:24

Кстати, что за говнодвижок? Разработчикам этой чудо-CMS нужно руки оторвать и засунуть в то место, которым они думают.

oleg1251
На сайте с 11.05.2009
Offline
45
#3

Привести все урлы мод реврайтом к какому-то определенному виду.

И уже конкретные адреса закрыть от индексации.

Bdiang
На сайте с 19.07.2006
Offline
102
#4
BrokenBrake:
хуже всего, когда люди начинают давать безграмотные советы.
Стыдитесь и больше так не делайте.

Не нужно переходить на личности и застыживать меня. Вопрос был задан конкретный:

Jason_B:
Подскажите, как прописать в robots.txt следующий атрибут:
Не индексировать вышеупомянутые страницы с бредовым набором непонятных букв, а в ключать в индекс только те, которые соответствуют этому формату:

На что был дан, конкретный ответ.

BrokenBrake:
Символы подстановки в стандарт robots.txt не входят, их понимает только Google.

Кстати спецсимвол "*" понимает не только Гугл, а еще и Яндекс, если Вы не знали.

BrokenBrake:
Вам можно попробовать в движке как-то определять, будет ли абракадабра в URL, и если будет, выводить метатег, запрещающий индексацию.
BrokenBrake:
Кстати, что за говнодвижок? Разработчикам этой чудо-CMS нужно руки оторвать и засунуть в то место, которым они думают.

Метатег, запрещающий индексацию - идеальный вариант, но вопрос был задан про robots.txt. Кроме того, бывают ситуации когда оптимизатор не имеет возможность что либо менять в движке. Может сначала стоит поинтересоваться у ТС, что да как, вместо того, чтобы судить и делать выводы?

Futurman
На сайте с 12.11.2007
Offline
40
#5
BrokenBrake:

Bdiang, хуже всего, когда люди начинают давать безграмотные советы.
Стыдитесь и больше так не делайте.

Вы хоть бы объяснили почему так нельзя... закрывают же версию для печати с помощью Disallow: /*print*, какая в данном случае разница?

BrokenBrake
На сайте с 03.03.2007
Offline
194
#6

Bdiang, Futurman, да, я не знал про Яндекс, извините.

Тем не менее, конкретные причуды всех роботов поисковых систем изучать врядли целесообразно, ведь есть один общепринятый стандарт. В котором про звёздочки ничего не сказано.

Б
На сайте с 30.06.2008
Offline
200
#7

Jason_B, директива Clean-param Вам в помощь. :)

Будь мудрее. Выгляди глупее.
Bdiang
На сайте с 19.07.2006
Offline
102
#8
Беобахтер:
директива Clean-param Вам в помощь.

Не поможет в этом случае:

Jason_B:
/(X(1)A(w3vqtHcMygEkAAAAMDYzYjc5MjEtYjJkNS00MTcxLWIwZjMtNTFkOThlYzYwM2M5TvPdeej8RmnD5UGQrxZXcGpdLtc1))/ShowArticle.aspx?ID=1024&AspxAutoDetectCookieSupport=1

да и Гугл Clean-param не понимает

Б
На сайте с 30.06.2008
Offline
200
#9

Bdiang, я вот думаю - а на последний вариант урла есть ссылки, или его принуждают в карту сайта включать? Если у робота нет возможности узнать о пути, он им и не пойдёт. :)

Директива - да, нестандартная. Только Гугл почему-то и без неё разбирается. :)

Bdiang
На сайте с 19.07.2006
Offline
102
#10
Беобахтер:
а на последний вариант урла есть ссылки, или его принуждают в карту сайта включать? Если у робота нет возможности узнать о пути, он им и не пойдёт.

История ТС об этом умалчивает :) Но судя по посту ТС ненужные ссылки уже найдены как минимум одним поисковиком, так что исключение из sitemap не помешает роботу долбиться по найденным ссылкам.

Беобахтер:
Директива - да, нестандартная. Только Гугл почему-то и без неё разбирается.

Разберется или нет - зависит от "кривости" рук веб-мастеров :) Гугл не всесилен. Вообще, для гугла есть отличная штука - <link rel="canonical" href="" />

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий