Вы правы, как правило целевые страницы должны иметь чёткий ЧПУ URL, get параметры образуют листинги, условия сортировок и т.д., хотя конечно на форумах, например, страницы с профилями пользователей могут быть с get параметрами.
Должен выплюнуть, но процесс может затягиваться, поэтому наряду с закрытием индексации рекомендуется также вручную отправить заявку на исключение из индекса через Яндекс.Вебмастер.
У Яндекса много странностей (например, массовая индексация страниц с UTM метками) и казалось бы - Яндекса отчётливо понимает назначение этих страниц, но всё-равно может индексировать, если нет запрета на их индексацию через того же clear-param.
В общем, запрещайте через robots, ставьте canonical-ы (они вообще должны быть), отправляйте заявки на удаление ненужных страниц в индексе и ближайшую рабочую перспективу этого вполне достаточно.
Если это не мешает общей функциональности сайта, то да, вполне можно реализовать. Но тут нужно аккуратней, чтобы правило редиректа не перекрывала другие get параметры, которые могут использоваться.
А общий признак URL-а действительно можно постараться закрыть через Clean-param (правда, только для Яндекса), Гугл будет игнорировать.
А если вот так ставить, все ?input по всему сайту автоматом редиректит на изначальную страницу. На одном из сайтов висит в поиске до сих пор 8*4200 (вернее проиндексирована со 2 марта). Посмотрю удалиться ли без лишних движений.
User-agent: *Disallow:Clean-param: input
Ну да глянул получается чем disallow каждый раз для страниц включать проще простую вот такую конструкцию использовать
User-agent: *Disallow:Clean-param: input /page
Кому то может быть опасно наверное такое применять в интернет магазинах и прочем, однако для меня выход просто отличный.
https://yandex.ru/support/webmaster/robot-workings/clean-param.html
Вот тут довольно много интересного на этот счет
<link rel="canonical" href="http://site.ru">
Вобщем вот такой ответ пришел из техподдержки. От себя замечу что любые сайты открываются с такими приставками, более терять время на этот вопрос нет желания.
Я:
Здравствуйте. Обратился на форум вебмастеров с вопросом.
Вот в данный момент мой файл robots.txt
Disallow: /?feed=comments-rss2Disallow: /?p=1Disallow: /?author=1Disallow: /?cat=1Disallow: /?feed=rss2Disallow: /?m=201605Disallow: /?page=supportDisallow: /?a=support
Мне приходится создавать подобные разделы так как в webmaster яндекс добавляются эти страницы. На форуме мне подсказали, что https://site.ru/?=chto_ugodno такого не должно быть и это связано с хостингом. Должна 404 страница отображаться. Вы можете мне чем то помочь?
Ответ
Здравствуйте, прошу прощения за долгий ответ. Google не рекомендуют блокировать индексацию URL с GET-параметрами https://www.seroundtable.com/google-block-of-urls-with-parameters-no-28501.html Но несмотря на это, делать это можно. Не рекомендуется так делать просто из-за того, что подобный disallow может повлиять на поисковый рейтинг, так как с индексации выпадают все страницы, подпадающие под подобный параметр. Рекомендуем по данному вопросу обратиться к SEO специалисту, так как данный вопрос относится к SEO либо к разработчику сайта. Данный вопрос выходит за рамки нашей техподдержки.