Хотелось бы типа
_____| Док1| Док2 | Док3
Док 1 | 1... | 0.3 | 0.8
Док 2 | 0.3 | 1... | 0.24
Док 3 | 0.8 | 0.24 | 1
...
Док 1000
неужто нигде не составляли такой таблички 😕
Зато Q&A даже для демо запроса не работает, а интересно было бы побаловатся
http://www.google.com/intl/ru/help/features.html
Материала и направлений действительно очень много. В институте ничего связанного с IR не учили и толком консультироваться в этой области к сожалению не с кем. А чтобы определится в перспективных направлениях развития нужно знать особенности всех направлений.
Вполне согласен, как только возникает определение схожести - мера следует. Осталось только определиться с задачей и дать под нее определение.
Наверно, можно дополнять строку поиска, введенную пользователем, схожими словами. Cказать что схожесть слов = схожести их определений. Если определением слова считать все документы, содержащие слово, то схожесть слов можно считать равной схожести документов. И получить какой-то замкнутий круг
Пока что тянет хорошо написать магистерскую, что б двигаться дать по пути на Нобелевку :)
10х
Исходя из данного треда планировал как-то очертить и сузить круг информации, которую нужно переварить, а то уж больно много всего разного. Может есть класика по IR, типа Буча по проектированию и Рихтера по Win32?
Пока что под вниманием http://www.dcs.gla.ac.uk/Keith/Preface.html#PREFACE.
не осилил :(
Я понимаю спам как _массовость_ и _нежелательность_.
Для массовости действительно можно использовать сходство, однако здесь скорее что-то эвристическое надо, а если по сходству - то только имея хорошие данные касательно нежелательности. А нежелательность определяет пользователь и нужна огромная база вручную обработанной информации.
ИМХО спам лучше решать на этапе сложности массовой отправки. Типа придумать какой-то стандарт, требующий подписи, сертификаты или введения кода с картинкой (которые генерит сервер получателя). Хотя это всего лишь мысль.
Подводя итоги Вашей помощи решено выбрать шилинги и поигратся с частами совпадений наиболее часто встречающихся слов, словосочитаний.
Также интресно, что такое Латентно-Семантический Анализ (LSA) и применимо ли оно для поставленой задачи?
Спасибо за внимание.
Также выкладываю ссылки на найденное и заинтересовавшее по ходу дела, может кому згодится:
http://tool.motoricerca.info/similarity-analyzer.phtml - On-Line Анализатор схожести.
http://answers.google.com/answers/threadview?id=337832#answer - Ответ на вопрос о способах определения схожести,
http://www.cs.ualberta.ca/~lindek/research.htm - Деканг Лин с стятьями
http://www.socd.univ.kiev.ua/EDUCAT/BASIC/MMPS/LABS/KMEANS.HTM - К средних
www.aot.ru
www.physionet.org/physiotools/ibs/doc/ - Information-Based Similarity Index
http://sgr.sagepub.com/cgi/content/abstract/36/2/139 - INFORMATION SIMILARITY AS A MODERATOR OF THE EFFECT OF GENDER ON PARTICIPATION
IN SMALL GROUPS A Multilevel Analysis
Программку посмотрел
Вердикт неутешителен: вроде как все доступно вплоть до исходников, но алгоритм и определение того, что автор программы считает "штампом" не описан и не понятен к сожалению.
А если в общем, то неплохая тулзовина для сбора общей статистики по тексту.
Спасибо.
Спасибо, изучил. Для начала то что надо.
Скажите пожалуйста, а есть ищи какие лобо методы/алгоритмы для определения схожести некоторых частей больших документов (без применения шилингов).
И ище, есть ли методы для не просто тупого сравнение кусков текста, а попыток выделить "логику/смысл/направление" самого текста для последующего анализа. Например путем использования :
баз синонимов
толковых словарей
приведения словоформ
других лингвистических баз данных
математики, описывающей данные
интересны как минимум названия методов и алгоритмой, дабы было от чего отталкиватся. Особо интересны направления, связанние с возможность построения обучаемой системы.
Очень надеюсь на ответы и огромное спасибо за специализированный сайт.