Заметил, что Я в таких случаях выводит очень посещаемые (по кликам по ключевым), либо разделяет по возрасту домена.
Не самый лучший, но единственный способ - перечисление разрешенных ссылок:
User-agent: Googlebot
Allow: /tovari/smd-svetodiodi.html?limit=25&start=25
Allow: /tovari/smd-svetodiodi.html?limit=25&start=50
Allow: /tovari/smd-svetodiodi.html?limit=25&start=75
Allow: /tovari/smd-svetodiodi.html?limit=25&start=100
Allow: /tovari/smd-svetodiodi.html?limit=25&start=125
Allow: /tovari/smd-svetodiodi.html?limit=25&start=150
Allow: /tovari/smd-svetodiodi.html?limit=25&start=175
Allow: /tovari/smd-svetodiodi.html?limit=25&start=200
Allow: /tovari/smd-svetodiodi.html?limit=25&start=225
(... и так далее)
Disallow: /tovari/smd-svetodiodi.html?*
Либо так, но в этом случае не все ссылки попадают под правило (н-р, ссылка /tovari/smd-svetodiodi.html?limit=25&start=10 и подобные проиндексируется):
Allow: /tovari/smd-svetodiodi.html?limit=25*
Лучший вариант - исправить скрипт (по возможности).
ps. к сожалению robots.txt не понимает регулярных выражений, было бы куда проще...
Если так:
User-agent: Yandex
Allow: /catalog/tovar
Disallow: /catalog/tovar?*
При схожей проблеме с дублями, именно ускорить процесс вылета помог robots.txt
Страницы с редиректами висели несколько месяцев.