как вариант - Postresql + RD-tree индекс на множествах признаков
Желаю не изобретать велосипед. Нужна иновационная фича!
Идеи навскидку:
1. Интерфейс: я не видел ни одной идеальной системы, в которой бы можно было переходить между попаданиями в оригинальном 100-мбайтном (после распознавания) PDF-файле, непосредственно в Acrobat на локальной машине. Через браузер можно, но загружая весь файл в кэш - это долго.
Вообщем производители ИПС обычно плохо интегрируют их с оригинальными форматами файлов.
2. Поиск в сообществе, т.е. давать знать людям о том кто ищет ту же самую информацию и предлагать новые результаты и контакты.
3. Защищённый поиск в распределённых системах.
4. Развитие алгоритмов, которые эффективнее работают в какой-то конкретной предметной области.