Поиск похожих документов - примитивный алгоритм - Поисковые технологии - Практические вопросы оптимизации - Форум об интернет-маркетинге

vuhrust · 2005-06-29T21:18:58.0000000Z

Здраствуйте уважаемые Гуру поиска, у меня к Вам вопрос относительно выбора алгоритмов. Задача стоит так написать программу, который позволит отлавливать похожие документы (реально это проверка письменных работ студентов на предмет скаиывания :) - для магистерской работы). Самое важное сейчас - определится с методами и алгоритмами, желательно не сильно сложными, что бы осилить. На данный момент вижу картину так 1. Выделение из документа списка слов. 2. Удаление стоп слов. 3. (?) Приведение слов к основной форме (если найду словать или простые правила для русского или украинского). -------------------- 4а. Порезка текста на куски (предложения). 5а. Хеширование предложений. 6а. Поиск хешей по базе и внесение в базу. ------ 4б. Кластеризация сожержания. 5б. Поиск по базе схожих кластеров для полученых (возможно здесь использовать базы синонимов). 6б. Индексация текста (слово = ID) и внесение в базу. --------------------- 7. Интерпретация результатов схожести частей документа. Возможно сумирование результатов с учетом размеров документов. Возможно я сильно ошибаюсь, поправте пожалуйста и посоветуйте алгоритмы, которые реально подойдут, одних только методов кластеризации больше десятка. Кстати, в большенства из них используется мартица схoжести документов (similarity matrix) - есть ли смысл копать в этом направлении. Заранее спасибо за советы.

YK

138

Yuri_K

8 декабря 2005, 07:37

#11

Rusl:
А на основе каких алгоритмов, построен инструмент?

Для сравнения документов мы используем собственные разработки, в основе которых лежат семантические и лингвистические инструменты. Общий смысл сводиться к тому, чтобы не привязываться к конкретным словам которые содержаться в документе, а попытаться работать на уровне смысла информации. Для этого мы преобразуем документ в особый семантический индекс, который получается уникальным для каждого документа, и что самое главное - позволяет нам проводить сравнение самых разных документов - ну например многостраничного сайта и документа MS Word.

Ну и вторая фишка это лингвистические базы. В семантическом индексе информация содержится в особой абстрагированной форме. Это значит, что если 2-а документа написаны про одно и тоже, но разными авторами разными словами и в разных стилях (например научном и литературном) то наш компаратор все равно покажет высокую степень проксимити (похожести), т.к. конкретные речевые конструкции для него имеют мало значения.

Если кому-то действительно интересны подобные продукты, то рекомендую воспользоваться ICQ или личкой, чтобы связаться со мной.

Ну а просто посмотреть, почитать, поиграться с семантическими демками можно на вот этом сайте - только он еще недоделанный, поэтому без претензий

хттп://comparator.intellexer.com/

Там же есть online демка, вернее игрушка компаратора. Но она не позволяет аплодить свои документы. Демка, которая позволяет аплодить свои документы выдается только особо заинтересованным товарищам, после личного общения по ICQ.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

519

greenwood

8 декабря 2005, 07:44

#12

http://company.yandex.ru/articles/article7.html

R

37

Rusl

8 декабря 2005, 08:09

#13

Yuri_K:
Для сравнения документов мы используем собственные разработки, в основе которых лежат семантические и лингвистические инструменты. Общий смысл сводиться к тому, чтобы не привязываться к конкретным словам которые содержаться в документе, а попытаться работать на уровне смысла информации. Для этого мы преобразуем документ в особый семантический индекс, который получается уникальным для каждого документа, и что самое главное - позволяет нам проводить сравнение самых разных документов - ну например многостраничного сайта и документа MS Word.
Ну и вторая фишка это лингвистические базы. В семантическом индексе информация содержится в особой абстрагированной форме. Это значит, что если 2-а документа написаны про одно и тоже, но разными авторами разными словами и в разных стилях (например научном и литературном) то наш компаратор все равно покажет высокую степень проксимити (похожести), т.к. конкретные речевые конструкции для него имеют мало значения.

Вы используете тезаурус для построения семантического индекса? И где можно почитать по подробнее об инструменте?

YK

138

Yuri_K

8 декабря 2005, 08:25

#14

По подробней здесь

хттп://comparator.intellexer.com/

Тезаурус - всеголишь один из многих инструментов который мы используем. Подробного описания алгоритмов вы на этом сайте не найдете....

V

157

vuhrust

16 января 2006, 23:02

#15

Подводя итоги Вашей помощи решено выбрать шилинги и поигратся с частами совпадений наиболее часто встречающихся слов, словосочитаний.

Также интресно, что такое Латентно-Семантический Анализ (LSA) и применимо ли оно для поставленой задачи?

Спасибо за внимание.

Также выкладываю ссылки на найденное и заинтересовавшее по ходу дела, может кому згодится:

http://tool.motoricerca.info/similarity-analyzer.phtml - On-Line Анализатор схожести.

http://answers.google.com/answers/threadview?id=337832#answer - Ответ на вопрос о способах определения схожести,

http://www.cs.ualberta.ca/~lindek/research.htm - Деканг Лин с стятьями

http://www.socd.univ.kiev.ua/EDUCAT/BASIC/MMPS/LABS/KMEANS.HTM - К средних

www.aot.ru

www.physionet.org/physiotools/ibs/doc/ - Information-Based Similarity Index

http://sgr.sagepub.com/cgi/content/abstract/36/2/139 - INFORMATION SIMILARITY AS A MODERATOR OF THE EFFECT OF GENDER ON PARTICIPATION

IN SMALL GROUPS A Multilevel Analysis

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

L

35

Leom

28 января 2006, 15:29

#16

На сегодня реально это работает только у http://www.searchinform.com/site/ru/index.htm

Можно скачать анимированную презентацию (демо-ролик -- http://www.searchinform.com/download/demomovie/searchinformrus.exe) и триальную версию

Но вот про алгоритмы вряд ли кто то расскажет. Если бы они были общеизвестны, то наверняка бы таких систем было много а так реально только одна и причем реально работающая.

Leo www.searchinform.ru (www.searchinform.ru)

Разные показатели в вебмастере Вопрос о профессии СЕО Яндекс не видит ботов

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Что делать, чтобы попасть в ответы Google Bard

Поиск похожих документов - примитивный алгоритм