Мозговой штурм

1 23
V
На сайте с 29.06.2005
Offline
157
#21
bvd:
я надеюсь, Вы в курсе, что есть всякие там алгоритмы типа "шинглов", задача определения дословного плагиата в целом решена, на рынке есть несколько продвигаемых систем

В курсе. Мне руководитель подкидывает мысли типа построения некой аналитической системы поиска отклонений, аномалий в тексте. Какие и как выбирать показатель с текста я без понятия. Наверно что-то в сторону Data|Text Mining Все это мне непонятно и пришлось выбрать ... Вот

S
На сайте с 18.11.2005
Offline
32
#22
bvd:
попробуйте чуть-чуть изменить условия

Как вариация на тему: еще возможно определять плагиатность документов по близости в какой-нибудь из метрик редактирования (lcs, хэмминг, классической Левенштайна, с переставлениями, с передвижением/копированием/удалением/реверсией блоков, etc)

См. также различные варианты метрик на строках ( http://www.dcs.shef.ac.uk/~sam/stringmetrics.html ), но это далеко не полный список.

В общем, надо определится, что есть плагиат в вашей конкретной области и для выбранного множества входных данных.

S
На сайте с 18.11.2005
Offline
32
#23
vuhrust:
аналитической системы поиска отклонений, аномалий в тексте. Какие и как выбирать показатель с текста я без понятия. Наверно что-то в сторону Data|Text Mining

Это может быть также в сторону bias detection, stream comparison/computations, outlayer detection. Но это большая область с мощным мат. аппаратом и очень сильными результатами. В магистерской можно и загрузнуть.

В более прикладной сфере -- это fraud/anomaly detection, но как данные там обычно не тексты рассматриваются.

Если руководитель таки хочет видеть какие-то аномалии, то, наверное, стоит обратить внимание на алгоритмы alignment-а, вычисления строковых метрик и способы их ускорения. Тогда можно считать, что полученная версия документа есть в каком-то смысле аномалией по отношению к исходному тексту (отредактированной в некоторых местах). Только уточните с ним, что он понимает под аномалиями, на всякий случай:)

1 23

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий