Как запретить в robots.txt всю динамику с "?"

272

Евгений Иванов

21 мая 2014, 08:39

2435

Типа нужно запретить к индексации все страницы которые есть после ?

Вот такие Disallow: /?attachment_id=

и такие Disallow: /*?q=*

Страниц море, параметров тоже...

Wap.Click / Вап.Клик / Я - рядом!

139

sevan

21 мая 2014, 08:47

#1

Что касается параметров:

Для яндекса - Директива Clean-param

Для гугла - Параметры URL

Ну и Disallow: /*?

B4

94

bulatbulat48

21 мая 2014, 08:52

#2

думаю:
Типа нужно запретить к индексации все страницы которые есть после ?

Вот такие Disallow: /?attachment_id=
и такие Disallow: /*?q=*

Страниц море, параметров тоже...

запретить (чтобы и в разделах тоже):

Disallow: */?

проверьте потом, чтобы чего лишнего не закрыть:

http://webmaster.yandex.ru/robots.xml

либо использовать клин-парам и/или каноникал

146

ValD

21 мая 2014, 08:52

#3

Залейте Disallow: /*? и проверьте, не запретилось ли чего лишнего.

272

Евгений Иванов

21 мая 2014, 09:03

#4

Спасибо ) вопрос решен :) ( чего то протупил блин, аж стыдно :D )

1

765

богоносец

21 мая 2014, 13:46

#5

sevan:
Ну и Disallow: /*?

Или Disallow: *?

Но решение нельзя назвать универсальным. И хелп Гугля это напоминает... нормально ищется закрытое.

Пример http://company.yandex.ru////robots.txt?☺

Disallow: /? # но гуглится... без кэша.

А сервак согласен на индексацию с несколькими слешами ///?параметр=мат

И роботс не запрещает http://company.yandex.ru/press_releases/?брехня☠

disallow или 404 Robots.txt как правильно запретить Гугл не удаляет страницы

155

YaanGle

21 мая 2014, 14:51

#6

богоносец:
Или Disallow: *?

Но решение нельзя назвать универсальным. И хелп Гугля это напоминает... нормально ищется закрытое.

Пример http://company.yandex.ru////robots.txt?☺
Disallow: /? # но гуглится... без кэша.
А сервак согласен на индексацию с несколькими слешами ///?параметр=мат
И роботс не запрещает http://company.yandex.ru/press_releases/?брехня☠

Robots.txt запрещает доступ к урл, но не запрещает хранение в индексе, уже попавшей туда информации. Для удаления из индекса нужно либо менять ответ сервера либо использовать панель вебмастера.

При этом, ПС могут хранить в индексе сам url, а в качестве текста используются внешние ссылки (мб еще что) - это касательно примера без кэша :)

Поэтому у меня вопрос - а нет ли примера, когда таким же образом запрещенный урл ищется в поиске, но при этом еще и отдает 404 ответ? Ведь, если робот чекает на 200 ответ запрещенный урл, то формально он нарушает директиву Disallow ? 😕

Яндекс внес изменения в В Яндексе рассказали, как Новые стандарты для директивы

166

Pavel Medvedev

21 мая 2014, 14:59

#7

Чтобы из гугла удалить страницы нужно добавлять meta noindex в код.

(но при этом страницы должны быть доступны для индексации, иначе робот не сможет прочитать запрещающий код)

Чтобы еще вес сохранить ссылок я ошибочные урлы склеиваю через rel cannonical с корректными.

---------- Добавлено 21.05.2014 в 19:01 ----------

богоносец, это редкие случаи, которые почти не встречаются в реальной практике. Всегда можно обмануть любой движок - какие-нибудь параметры придумать которые будут отдавать 200. Но мало кому это надо.

Консультирую по SEO. Опыт c 2005: окна топ1,Ашан,Фишки,Спортс и др. Пишите в FB.

15 частых проблем технического Настройка индексирования нового сайта Основы внутренней оптимизации. Индексация

389

serjoo

21 мая 2014, 15:37

#8

sni:
Всегда можно обмануть любой движок - какие-нибудь параметры придумать которые будут отдавать 200.

Какие еще? кроме ? и //

Мультур..

146

ValD

21 мая 2014, 15:41

#9

serjoo:
Какие еще? кроме ? и //

Ну как же, &

Да и запятые я видел в разделителях параметров.

Смотря какой двиг на сайте, косяки есть в каждом.

389

serjoo

21 мая 2014, 15:47

#10

ValD:
Ну как же, &
Да и запятые

Ну этому 404 отдается, а такие которым отдается 200?

Что делать, чтобы попасть в ответы Google Bard

Open AI тестирует память для ChatGPT