Почему то мне кажется более вероятным вариант переспама))
Проверьте словоформы на месте ли страница.
А сайт вообще о чем? или обо всем сразу? На фильтра проверяли? Может страницы одинаковы до сличения. Это контентный сайт или магазин? А страницы за пределами индекса относятся к какому то конкретному разделу?
Попробуйте поставить на несколько не проиндексированных страниц анкорные внутренние ссылки с проиндексированных страниц и посмотреть - поможет ли это проекту.
И кстати еще по теме - тут у товарища подняли серверные логи по крупному проекту - оказалось краулер регулярно ломился на какие то несуществующие, или малозначимые страницы, думаю подобная проверка не повредит.