сделать сейчас в области поиска "на коленке", не привлекая много-много знаний, например, в виде огромных корпусов текстов и статистики поискового поведения - практически маловероятно
судя по словам авторов у них:
- что-то n-граммное по буквам (было уже - показывает, как ни странно, достаточно неплохие результаты, но сейчас большинство современных методов лучше)
- используются нейронные сети (сейчас все массово используют методы машинного обучения, нейронные сети - далеко не самый лучший из методов технологически - разве что один из самых простых для реализации)
- авторы предлагают задавать "длинные" и "хорошие" (осмысленные и без "лишних" слов) запросы, но все современные машины умеют работать с любыми словами
- используется некая внутренняя статистика связей - судя по всему - мая главная фишка авторов (рискну предположить, что нечто подобное было положено в первые версии Conver'ы/Excalibur'а, какая то "хитрая" функция рангового распределения)
Столкнувшись некоторое время назад с тем, что приходит МНОГО(!) команд и все говорят, что у них самый лучший поиск - поисковое сообщество придумало лекарство от такого бахвальства.
Появились TREC, CLEF и т.п., а в России - РОМИП www.romip.ru .
Верите, что ваш алгоритм лучше всех - участвуйте в РОМИП. Это потребует от вас не более тысяч 20, потраченных на независимую оценку.
Иначе - все это только болтовня про САМЫЙ ЛУЧШИЙ МЕТОД ПОИСКА.
в течение нескольких последних лет это является одной из бурно теоретически и экспериментально изучаемых тем - смотрите Learning to Rank и выступление в Яндексе Байесу-Йетса в прошлом году
точно таких исследований не припомню, но про всякий разный User Behaviour любят писать
в JASIST (Journal of the American Society for Information Science and Technology,
http://www3.interscience.wiley.com/journal/76501873/home)
http://www.natcorp.ox.ac.uk/ ?
Это несколько в сторону, но почему для MDS именно "лексические цепочки", а не "manifold ranking" или "language model" или еще что-нибудь отсюда
хм...., что так узко-то?
Лучше всего взять списки докладов последних западных конференций первого уровня - если Вы обратились в этот форум, то:
SIGIR, HLT, EMNLP, ECIR, ...
спрашивайте в Гугле "SIGIR 2007", ищите программу (или список принятых работ), отбираете несколько таких, которые Вам интересны
затем, если еще не утоните под количеством возможных тем для диссертации, можете вернуться в форум и спрашивать уже подробнее
http://yandex.ru/yandsearch?text=%D0%90%D0%BD%D0%B4%D1%80%D0%B5%D1%8F+%D0%9A%D0%BE%D0%B2%D0%B0%D0%BB%D0%B5%D0%BD%D0%BA%D0%BE+%D0%BC%D0%BE%D1%80%D1%84%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F
Морфологии бывают разные, в том числе стемминговые (стол*) и вероятностные (черный ящик по контексту).
Классический подход к словарю для автоматического морфологического анализа - словарь Зализняка.
Посмотрите также статьи Белоногова в НТИ, сайт Андрея Коваленко.
Насчет "дети" - в русской морфологии есть кучка сложных случаев, которые могут решаться по разному в зависимости от задачи.
Помните, что к любой красивой модели можно добавить списки исключений - как слов, так и кусков других моделей.
Другие вспомнившиеся мне сейчас проблемы русской и не только морфологии, которые могут решаться по-разному, в зависимости от задачи - делается ли "синтаксический анализ", разбор запроса или подсветка результатов:
- дефисные слова: "Камень-на-Оби", "Париж-Даккар" - сколько слов + всех возможных сочетаний словаре не перечислишь
- краткие формы прилагательных: "русско-африканский" - что такое "русско" и сколько слов
- наречия: "по-русски" - оставлять или сводить к прилагательному
- причастия и деепричастия - сводить к глаголу или оставить отдельной формой
- что делать с мертвыми формами - прилагательное "бюджетов"
- совпадение собственных имен с обычными словами (например, в начале предложения): "Сапогов"
и т.д.
Основная проблема - как разбирать неописанное в словаре слово.
есть мега-продукт Abbyy PDF Transformer (реально уникальный!), стоит порядка $30 на рабочее место и, говорят, $200 - серверная лицензия
конвертирует PDF в текст (распознает картинку) вполне приличного качества для целей индексирования
а уж затем как-нибудь свяжете текстовую страничку со своим PDF
На самом деле, не стоит надеяться, да и не нужна 100% (и даже 80%) качество распознавания мнения.
Для многих задач хватит стандартной классификации по близким контекстам, если текстов много.
Если же текстов мало - все бесполезно. Но при этом и ценность отдельной оценки сомнительна.