Поиск похожих документов - примитивный алгоритм

12
YK
На сайте с 14.03.2005
Offline
138
#11
Rusl:
А на основе каких алгоритмов, построен инструмент?

Для сравнения документов мы используем собственные разработки, в основе которых лежат семантические и лингвистические инструменты. Общий смысл сводиться к тому, чтобы не привязываться к конкретным словам которые содержаться в документе, а попытаться работать на уровне смысла информации. Для этого мы преобразуем документ в особый семантический индекс, который получается уникальным для каждого документа, и что самое главное - позволяет нам проводить сравнение самых разных документов - ну например многостраничного сайта и документа MS Word.

Ну и вторая фишка это лингвистические базы. В семантическом индексе информация содержится в особой абстрагированной форме. Это значит, что если 2-а документа написаны про одно и тоже, но разными авторами разными словами и в разных стилях (например научном и литературном) то наш компаратор все равно покажет высокую степень проксимити (похожести), т.к. конкретные речевые конструкции для него имеют мало значения.

Если кому-то действительно интересны подобные продукты, то рекомендую воспользоваться ICQ или личкой, чтобы связаться со мной.

Ну а просто посмотреть, почитать, поиграться с семантическими демками можно на вот этом сайте - только он еще недоделанный, поэтому без претензий

хттп://comparator.intellexer.com/

Там же есть online демка, вернее игрушка компаратора. Но она не позволяет аплодить свои документы. Демка, которая позволяет аплодить свои документы выдается только особо заинтересованным товарищам, после личного общения по ICQ.

greenwood
На сайте с 08.09.2003
Offline
519
#12
R
На сайте с 29.04.2003
Offline
37
#13
Yuri_K:
Для сравнения документов мы используем собственные разработки, в основе которых лежат семантические и лингвистические инструменты. Общий смысл сводиться к тому, чтобы не привязываться к конкретным словам которые содержаться в документе, а попытаться работать на уровне смысла информации. Для этого мы преобразуем документ в особый семантический индекс, который получается уникальным для каждого документа, и что самое главное - позволяет нам проводить сравнение самых разных документов - ну например многостраничного сайта и документа MS Word.
Ну и вторая фишка это лингвистические базы. В семантическом индексе информация содержится в особой абстрагированной форме. Это значит, что если 2-а документа написаны про одно и тоже, но разными авторами разными словами и в разных стилях (например научном и литературном) то наш компаратор все равно покажет высокую степень проксимити (похожести), т.к. конкретные речевые конструкции для него имеют мало значения.

Вы используете тезаурус для построения семантического индекса? И где можно почитать по подробнее об инструменте?

YK
На сайте с 14.03.2005
Offline
138
#14

По подробней здесь

хттп://comparator.intellexer.com/

Тезаурус - всеголишь один из многих инструментов который мы используем. Подробного описания алгоритмов вы на этом сайте не найдете....

V
На сайте с 29.06.2005
Offline
157
#15

Подводя итоги Вашей помощи решено выбрать шилинги и поигратся с частами совпадений наиболее часто встречающихся слов, словосочитаний.

Также интресно, что такое Латентно-Семантический Анализ (LSA) и применимо ли оно для поставленой задачи?

Спасибо за внимание.

Также выкладываю ссылки на найденное и заинтересовавшее по ходу дела, может кому згодится:

http://tool.motoricerca.info/similarity-analyzer.phtml - On-Line Анализатор схожести.

http://answers.google.com/answers/threadview?id=337832#answer - Ответ на вопрос о способах определения схожести,

http://www.cs.ualberta.ca/~lindek/research.htm - Деканг Лин с стятьями

http://www.socd.univ.kiev.ua/EDUCAT/BASIC/MMPS/LABS/KMEANS.HTM - К средних

www.aot.ru

www.physionet.org/physiotools/ibs/doc/ - Information-Based Similarity Index

http://sgr.sagepub.com/cgi/content/abstract/36/2/139 - INFORMATION SIMILARITY AS A MODERATOR OF THE EFFECT OF GENDER ON PARTICIPATION

IN SMALL GROUPS A Multilevel Analysis

L
На сайте с 02.05.2004
Offline
35
#16

На сегодня реально это работает только у http://www.searchinform.com/site/ru/index.htm

Можно скачать анимированную презентацию (демо-ролик -- http://www.searchinform.com/download/demomovie/searchinformrus.exe) и триальную версию

Но вот про алгоритмы вряд ли кто то расскажет. Если бы они были общеизвестны, то наверняка бы таких систем было много а так реально только одна и причем реально работающая.

Leo www.searchinform.ru (www.searchinform.ru)
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий