vuhrust

Рейтинг
157
Регистрация
29.06.2005

Хотелось бы типа

_____| Док1| Док2 | Док3

Док 1 | 1... | 0.3 | 0.8

Док 2 | 0.3 | 1... | 0.24

Док 3 | 0.8 | 0.24 | 1

...

Док 1000

неужто нигде не составляли такой таблички 😕

Зато Q&A даже для демо запроса не работает, а интересно было бы побаловатся

http://www.google.com/intl/ru/help/features.html

bvd:

не хотел бы обидеть - просто здесь не "с налета" надо действовать, а много работать - чтобы в результате реально конкурировать с другими

Материала и направлений действительно очень много. В институте ничего связанного с IR не учили и толком консультироваться в этой области к сожалению не с кем. А чтобы определится в перспективных направлениях развития нужно знать особенности всех направлений.

bvd:

Самый важный вопрос здесь - что есть "схожие документы" - формул можно написать много, придумать много "продвинутых" моделей - однако, схожесть придется определять из внешних критериев (например, разметкой).

Вполне согласен, как только возникает определение схожести - мера следует. Осталось только определиться с задачей и дать под нее определение.

Наверно, можно дополнять строку поиска, введенную пользователем, схожими словами. Cказать что схожесть слов = схожести их определений. Если определением слова считать все документы, содержащие слово, то схожесть слов можно считать равной схожести документов. И получить какой-то замкнутий круг

bvd:

Что же всех тянет сразу на Нобелевку-то?

Пока что тянет хорошо написать магистерскую, что б двигаться дать по пути на Нобелевку :)

bvd:

Посмотрите статьи Savoy, например, для CLEF. Да и другие статьи там - все не стоит на месте, но двигается.

10х

bvd:

Зачем мучаться - читать надо!
Возьмите CFP или программы последних (за пять лет) конференций SIGIR, WWW, TREC, CLEF, HLT и т.п., и спроецируйте на свои нужды.

Исходя из данного треда планировал как-то очертить и сузить круг информации, которую нужно переварить, а то уж больно много всего разного. Может есть класика по IR, типа Буча по проектированию и Рихтера по Win32?

Пока что под вниманием http://www.dcs.gla.ac.uk/Keith/Preface.html#PREFACE.

bvd:

Там более чем адекватно покрываются задачи нужные сегодня (а может быть и завтра).

не осилил :(

Я понимаю спам как _массовость_ и _нежелательность_.

Для массовости действительно можно использовать сходство, однако здесь скорее что-то эвристическое надо, а если по сходству - то только имея хорошие данные касательно нежелательности. А нежелательность определяет пользователь и нужна огромная база вручную обработанной информации.

ИМХО спам лучше решать на этапе сложности массовой отправки. Типа придумать какой-то стандарт, требующий подписи, сертификаты или введения кода с картинкой (которые генерит сервер получателя). Хотя это всего лишь мысль.

Подводя итоги Вашей помощи решено выбрать шилинги и поигратся с частами совпадений наиболее часто встречающихся слов, словосочитаний.

Также интресно, что такое Латентно-Семантический Анализ (LSA) и применимо ли оно для поставленой задачи?

Спасибо за внимание.

Также выкладываю ссылки на найденное и заинтересовавшее по ходу дела, может кому згодится:

http://tool.motoricerca.info/similarity-analyzer.phtml - On-Line Анализатор схожести.

http://answers.google.com/answers/threadview?id=337832#answer - Ответ на вопрос о способах определения схожести,

http://www.cs.ualberta.ca/~lindek/research.htm - Деканг Лин с стятьями

http://www.socd.univ.kiev.ua/EDUCAT/BASIC/MMPS/LABS/KMEANS.HTM - К средних

www.aot.ru

www.physionet.org/physiotools/ibs/doc/ - Information-Based Similarity Index

http://sgr.sagepub.com/cgi/content/abstract/36/2/139 - INFORMATION SIMILARITY AS A MODERATOR OF THE EFFECT OF GENDER ON PARTICIPATION

IN SMALL GROUPS A Multilevel Analysis

Программку посмотрел

Вердикт неутешителен: вроде как все доступно вплоть до исходников, но алгоритм и определение того, что автор программы считает "штампом" не описан и не понятен к сожалению.

А если в общем, то неплохая тулзовина для сбора общей статистики по тексту.

Спасибо.

Спасибо, изучил. Для начала то что надо.

Скажите пожалуйста, а есть ищи какие лобо методы/алгоритмы для определения схожести некоторых частей больших документов (без применения шилингов).

И ище, есть ли методы для не просто тупого сравнение кусков текста, а попыток выделить "логику/смысл/направление" самого текста для последующего анализа. Например путем использования :

баз синонимов

толковых словарей

приведения словоформ

других лингвистических баз данных

математики, описывающей данные

интересны как минимум названия методов и алгоритмой, дабы было от чего отталкиватся. Особо интересны направления, связанние с возможность построения обучаемой системы.

Очень надеюсь на ответы и огромное спасибо за специализированный сайт.

Всего: 187