Message Understanding Conference Proceedings
http://www.itl.nist.gov/iad/894.02/related_projects/muc/proceedings/muc_7_toc.html
http://acl.ldc.upenn.edu/M/M95/
http://acl.ldc.upenn.edu/M/M93/
http://acl.ldc.upenn.edu/M/M92/
http://acl.ldc.upenn.edu/M/M91/
и поновее - на современных конференциях или на CiteSeer
в РФ - см. http://www.rco.ru/article.asp, например
или
http://www.dialog-21.ru/dialog2007/materials/html/26.htm
http://www.dialog-21.ru/Archive/2005/Gershenzon%20Nozhov%20Pankratov/Gershenzon_Nozhov_Pankratov.htm
http://www.dialog-21.ru/Archive/2005/Ermakov%20A/ErmakovAE.htm
У нас есть (русский, английский) для некоммерческого использования (www cir ru).
Но на сторону не даем - только у нас, и будем долго оговаривать детали.
определение соответствия заданной тематике - один из видов рубрикации/классификации
существует два основных подхода - прямого лексического описания (набор слов и словосочетаний, возможно, с весами и с логикой) и машинного обучения (сначала откладываются тексты по теме/темам - специальные алгоритмы строят классифицирующие правила)
в зависимости от постановки задачи более эффективным оказывается тот или иной метод (или их гибрид).
если идет речь формирования тематической подборки из Интернет - сначала формируется коллекция с запасом (обходом сайтов, каталогов, исполнением кучки запросов в ПМ), затем фильтруется.
Литература обширная. Читайте.
я надеюсь, Вы в курсе, что есть всякие там алгоритмы типа "шинглов", задача определения дословного плагиата в целом решена, на рынке есть несколько продвигаемых систем
попробуйте чуть-чуть изменить условия, например:
* определение плагиата дизайна веб-страниц (с учетом перекраски и м.б. изменения размеров) - кстати, еще забавная задача здесь - определения стиля конкретной дизайнерской конторы
* наоборот - в помощь студентам и плагиаторам, плагиаторское "псевдочеловеческое" изменение текста без потери смысла (это уже, вроде, обсуждалось на форуме - задача на порядок сложнее - почти машинный перевод) - здесь можно набрать большую базу "правильных человеческих" словосочетаний (возможно с учетом общей тематики текста), затем ими заменять (аналог translation memory),
и циклически - определение этого самого "интеллектуального" плагиата (rewriting'а), см. также novelty
кто его знает, что он здесь имел в виду - напишите ему лично письмо, он наверняка вежливо ответит - затем нам расскажете
обосновать теоретически можно все, что угодно (есть такой анекдот про физиков теоретиков, легко объясняющих как прямой, так и перевернутый верх ногами экспериментальный график)
Ну, например (все дальнейшее может быть и неправильно, но теоретически неопровержимо):
- рассмотрим типичную новостную коллекцию (типа news.яндекс) - абсолютное большинство документов содержит слова Россия, российский, Москва - но это не стоп-слова - сами по себе они самостоятельно мало, что значат, но в запросах из нескольких слов (или при сборке новостных сюжетов) их выкинуть нельзя
- есть еще слабоисследованная теория про предлоги - весьма частотны, но иногда очень важны
можно обсуждать или не обсуждать, без проведения экспериментов, такая функция ничем не хуже других
каков вопрос - такой ответ
ничем нельзя помочь - ПРИДЕТСЯ читать (если на что-то хотите расчитывать)!
Совершенно согласен с itman - пока постановка задачи слишком широка.
Надо выбрать более узкую - суженные задачи могут сильно отличаться друг от друга алгоритами и методами (аналог из урматов - какой из членов считать малым - разные типы уравнения).
Выбрать надо самому - должно же нравиться чем заниматься.
при словах "возникла потребность" [накатать нетленку] возникают неприличные ассоциации [про Гондурас]
(не хотел бы обидеть - просто здесь не "с налета" надо действовать, а много работать - чтобы в результате реально конкурировать с другими)
если серьезно - тема неплохая и нужная (имеется много интересных задач, часть из которых Вы назвали).
Самый важный вопрос здесь - что есть "схожие документы" - формул можно написать много, придумать много "продвинутых" моделей - однако, схожесть придется определять из внешних критериев (например, разметкой).
Поэтому самая большая здесь проблема - получить адекватное (большое) тестовое множество.
Что же всех тянет сразу на Нобелевку-то?
tfidf бывает разный (и даже очень разный). Посмотрите статьи Savoy, например, для CLEF. Да и другие статьи там - все не стоит на месте, но двигается.
Зачем мучаться - читать надо!
Возьмите CFP или программы последних (за пять лет) конференций SIGIR, WWW, TREC, CLEF, HLT и т.п., и спроецируйте на свои нужды.
Там более чем адекватно покрываются задачи нужные сегодня (а может быть и завтра).
неточно выразился - "тестирование", конечно же означает, не собственно алгоритма поиска, но доступ к накопленным данным, прежде всего к графу ссылок и индексам по словам/леммам
Ваш "PageRank" сам по себе будет интересен только при ДЕТАЛЬНОМ описании (всех ведь интересует reuse своих усилий).