Мозговой штурм

vuhrust · 2006-05-17T21:02:42.0000000Z

На данном форуме собралось много экспертов информационного поиска, поетому, надеюсь, Вы сможете что-то предложить. Возникла потребность+желание разработать что-то полезное для информационного поиска. Причем полезность должна быть как-то совмещена с новизной. Для выбора направления работ необходимы глубокие знания (новизна) и опыт в указанной области (полезность). Очерчу примерно область, которой занимаюсь сейчас 1. Определение схожести документов Когда придумывал тему, и близко не знал что это такое. По найденным материалам со временем прихожу к мысли низкой полезности, с другой стороны можно использовать в : -Определение тематического подобия (Кластеризация и классификация используется для автоматического построения каталогов больших массивов информации и результатов поиска в поисковых системах) -Поиск нечетких дубляжей (Используется для защиты от спама, выявления плагиата, предотвращения повторного индексирования документов поисковыми системами) -Поиска информационных центров (ИМХО Используют в QA системах, реферирования, где в реферат не должна попадать общая для многих документов информация) -Поиска документов по запросу (Строка запроса рассматривается как документ, а результатом поиска являются наиболее схожие проиндексированные документы) 2. Для исследований выбрана векторно-пространственная модель (tdidf). 3. Рассматривать схожесть как тупое умножение векторов - банально и не научно что ли :). Хочется усложнить: например схожесть слов = схожести описаний слов = статистике документов, в которых слова встречаются... Или что-то более умное. Дальше можно пойти в сторону LSA и заниматся анализом матрицы. Но опять таки, нужно определиться с задачами, наверняка многое уже зделано. А для того что-бы углубится и чего-то достичь желательно иметь под рукой руководителя-эксперта в изучаемой области. 4. Наверника вокруг да около есть более интересные/нужные задачи (в IR конечно же). Буду очень благодарен за все предложения и полезные ссылки на открытые для исследования темы, как-то близкие с описанным.

V

157

vuhrust

12 октября 2006, 09:31

#21

bvd:
я надеюсь, Вы в курсе, что есть всякие там алгоритмы типа "шинглов", задача определения дословного плагиата в целом решена, на рынке есть несколько продвигаемых систем

В курсе. Мне руководитель подкидывает мысли типа построения некой аналитической системы поиска отклонений, аномалий в тексте. Какие и как выбирать показатель с текста я без понятия. Наверно что-то в сторону Data|Text Mining Все это мне непонятно и пришлось выбрать ... Вот

У вас есть источник Видео находится за пределами Отсутствие показов Adsense в

S

32

sokoloff

12 октября 2006, 09:49

#22

bvd:
попробуйте чуть-чуть изменить условия

Как вариация на тему: еще возможно определять плагиатность документов по близости в какой-нибудь из метрик редактирования (lcs, хэмминг, классической Левенштайна, с переставлениями, с передвижением/копированием/удалением/реверсией блоков, etc)

См. также различные варианты метрик на строках ( http://www.dcs.shef.ac.uk/~sam/stringmetrics.html ), но это далеко не полный список.

В общем, надо определится, что есть плагиат в вашей конкретной области и для выбранного множества входных данных.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

S

32

sokoloff

12 октября 2006, 10:03

#23

vuhrust:
аналитической системы поиска отклонений, аномалий в тексте. Какие и как выбирать показатель с текста я без понятия. Наверно что-то в сторону Data|Text Mining

Это может быть также в сторону bias detection, stream comparison/computations, outlayer detection. Но это большая область с мощным мат. аппаратом и очень сильными результатами. В магистерской можно и загрузнуть.

В более прикладной сфере -- это fraud/anomaly detection, но как данные там обычно не тексты рассматриваются.

Если руководитель таки хочет видеть какие-то аномалии, то, наверное, стоит обратить внимание на алгоритмы alignment-а, вычисления строковых метрик и способы их ускорения. Тогда можно считать, что полученная версия документа есть в каком-то смысле аномалией по отношению к исходному тексту (отредактированной в некоторых местах). Только уточните с ним, что он понимает под аномалиями, на всякий случай:)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ

Курс биткоина превысил $50 тысяч