Я не точно выразился - поясняю:
Сейчас тебе показаны страницы с одним SID. Все страницы с одинаковым SID. Это соответствует одному заходу робота. Если ты эти страницы вычистишь (я для ускорения постранично удалял а не ждал следующего прихода робота - правда у меня не 500 страниц было а порядка 30). _НО_ потом появились страницы с другим SID (сайт естественно уже был без сессий), которые не показывались раньше, и соответсвующие другому заходу робота на старый движок когда ещё было с сессиями(то что это был старый заход робота я определял по title и дате документа).
Короче, не все страницы с разными SID показываются а только с одним.
Возможно это был мой уникальный случай (тогда Я сильно штормило, возможно, это лишь наложилось несколько обстоятельств), но я лишь делюсь своим опытом.
Через robots.txt не пробовал отлавливать SID а вот через mod_rewrite ловить и программно выдавать header - проверенный метод.
Сколько раз робот заходил на сайт в период времени, когда сайт был с сессиями - столько и есть в базе копий страниц, но только с разными SID. И если в Яндексе просить показать какие страницы проиндексированы, то он показывает не все страницы с SID, а только с каким-то одним определённым SID (почему так не знаю, но проверено на собственном горьком опыте - удалял постранично через их веб-интерфейс и потом после, как я понял, слияния баз появлялись страницы с новым SID).
Но потом был ещё новый фортель. Я уже обрадовался что всё вычистил, но видно у Я слетела база и они восстанавливались из бэкапа(тоже лишь предположение) и опять появились страницы с уже бывшим когда-то SID.
Так что не торопитесь убирать проверку на наличие SID в урле.
яндекс учитывает параметр Host в файле robots.txt - как раз для этих случаев когда вы хотите явно указать под каким именем ваш сайт проиндексировали(выдавали в результатах поиска).
Подробнее "Как выбрать главный виртуальный хост из нескольких зеркал?" http://www.yandex.ru/info/webmaster2.html#virtual