Правила написания атрибутов в robots.txt

35

Jason_B

2 июня 2009, 20:45

930

В силу особенностей CMS, возникла трудность с индексированием страниц, в частности Яндексом.

Страница выглядит следующим образом:

/ShowArticle.aspx?ID=1024

Но на эту страницу, также можно попасть через адрес:

/ShowArticle.aspx?ID=1024&AspxAutoDetectCookieSupport=1

/(X(1)A(w3vqtHcMygEkAAAAMDYzYjc5MjEtYjJkNS00MTcxLWIwZjMtNTFkOThlYzYwM2M5TvPdeej8RmnD5UGQrxZXcGpdLtc1))/ShowArticle.aspx?ID=1024&AspxAutoDetectCookieSupport=1

В итоге, после просмотра данных в панели ВМ, часто встречается 302 ошибка (ресурс временно перемещен). Робот индексирует страницу, на которую установлено перенаправление, а основной адрес страницы игнорирует.

Подскажите, как прописать в robots.txt следующий атрибут:

Не индексировать вышеупомянутые страницы с бредовым набором непонятных букв, а в ключать в индекс только те, которые соответствуют этому формату:

/ShowArticle.aspx?ID=1024

/ShowArticle.aspx?ID=1025 и т.д.

102

Bdiang

3 июня 2009, 03:46

#1

Поскольку в обоих вариантах присутствует параметр AspxAutoDetectCookieSupport, то проще всего так

Disallow: *AspxAutoDetectCookieSupport*

194

BrokenBrake

3 июня 2009, 04:22

#2

Это серьезная проблема, т. к. идентификатор страницы идёт до абракадабры. Символы подстановки в стандарт robots.txt не входят, их понимает только Google. Вам можно попробовать в движке как-то определять, будет ли абракадабра в URL, и если будет, выводить метатег, запрещающий индексацию. Других вариантов пока не знаю.

Bdiang, хуже всего, когда люди начинают давать безграмотные советы.

Стыдитесь и больше так не делайте.

BrokenBrake добавил 03.06.2009 в 08:24

Кстати, что за говнодвижок? Разработчикам этой чудо-CMS нужно руки оторвать и засунуть в то место, которым они думают.

Google не делает различия Ошибки при создании сайтов, Google: длина URL не

45

oleg1251

3 июня 2009, 04:28

#3

Привести все урлы мод реврайтом к какому-то определенному виду.

И уже конкретные адреса закрыть от индексации.

102

Bdiang

3 июня 2009, 04:47

#4

BrokenBrake:
хуже всего, когда люди начинают давать безграмотные советы.
Стыдитесь и больше так не делайте.

Не нужно переходить на личности и застыживать меня. Вопрос был задан конкретный:

Jason_B:
Подскажите, как прописать в robots.txt следующий атрибут:
Не индексировать вышеупомянутые страницы с бредовым набором непонятных букв, а в ключать в индекс только те, которые соответствуют этому формату:

На что был дан, конкретный ответ.

BrokenBrake:
Символы подстановки в стандарт robots.txt не входят, их понимает только Google.

Кстати спецсимвол "*" понимает не только Гугл, а еще и Яндекс, если Вы не знали.

BrokenBrake:
Вам можно попробовать в движке как-то определять, будет ли абракадабра в URL, и если будет, выводить метатег, запрещающий индексацию.

BrokenBrake:
Кстати, что за говнодвижок? Разработчикам этой чудо-CMS нужно руки оторвать и засунуть в то место, которым они думают.

Метатег, запрещающий индексацию - идеальный вариант, но вопрос был задан про robots.txt. Кроме того, бывают ситуации когда оптимизатор не имеет возможность что либо менять в движке. Может сначала стоит поинтересоваться у ТС, что да как, вместо того, чтобы судить и делать выводы?

Google: негативные отзывы не Google запрещает перенаправлять санкции Google: использование метатега Refresh

40

Futurman

3 июня 2009, 04:47

#5

BrokenBrake:

Bdiang, хуже всего, когда люди начинают давать безграмотные советы.
Стыдитесь и больше так не делайте.

Вы хоть бы объяснили почему так нельзя... закрывают же версию для печати с помощью Disallow: /*print*, какая в данном случае разница?

194

BrokenBrake

3 июня 2009, 06:36

#6

Bdiang, Futurman, да, я не знал про Яндекс, извините.

Тем не менее, конкретные причуды всех роботов поисковых систем изучать врядли целесообразно, ведь есть один общепринятый стандарт. В котором про звёздочки ничего не сказано.

Кассир.ру пожаловался на Яндекс Ответ Яндекса на сообщение Яндекс.Поиск: почему находится все

Б

200

Беобахтер

3 июня 2009, 07:03

#7

Jason_B, директива Clean-param Вам в помощь. :)

Будь мудрее. Выгляди глупее.

102

Bdiang

3 июня 2009, 07:22

#8

Беобахтер:
директива Clean-param Вам в помощь.

Не поможет в этом случае:

Jason_B:
/(X(1)A(w3vqtHcMygEkAAAAMDYzYjc5MjEtYjJkNS00MTcxLWIwZjMtNTFkOThlYzYwM2M5TvPdeej8RmnD5UGQrxZXcGpdLtc1))/ShowArticle.aspx?ID=1024&AspxAutoDetectCookieSupport=1

да и Гугл Clean-param не понимает

Б

200

Беобахтер

3 июня 2009, 07:27

#9

Bdiang, я вот думаю - а на последний вариант урла есть ссылки, или его принуждают в карту сайта включать? Если у робота нет возможности узнать о пути, он им и не пойдёт. :)

Директива - да, нестандартная. Только Гугл почему-то и без неё разбирается. :)

Вопрос про 301 ошибку, сайт с www и Sitemapпустышка для Яндекс Вебмастер

102

Bdiang

3 июня 2009, 07:51

#10

Беобахтер:
а на последний вариант урла есть ссылки, или его принуждают в карту сайта включать? Если у робота нет возможности узнать о пути, он им и не пойдёт.

История ТС об этом умалчивает :) Но судя по посту ТС ненужные ссылки уже найдены как минимум одним поисковиком, так что исключение из sitemap не помешает роботу долбиться по найденным ссылкам.

Беобахтер:
Директива - да, нестандартная. Только Гугл почему-то и без неё разбирается.

Разберется или нет - зависит от "кривости" рук веб-мастеров :) Гугл не всесилен. Вообще, для гугла есть отличная штука - <link rel="canonical" href="" />

Яндекс.Поиск: поддержка атрибута rel=canonical Google рассказал о том, Платон Щукин об изменениях

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Что делать, если ваша email-рассылка попала в спам