Покритикуйте пожалуйста :)

157

vuhrust

11 октября 2006, 07:02

2806

На опыте обработки существующих объемов данных можно выделить ряд проблем, возникающих при анализе содержимого больших потоков информации:

• Дубликаты

При выполнении индексирования нужно полностью исключить повторную обработку данных, полученных вследствие автоматического размножения документов

• Частично воспроизведенной информации из других источников

Целеправленное искажение текста не должно препятствовать выявления схожести документов и их особой обработке, что особенно актуально для выявления плагиата.

Такие документы нужно по-особому представлять в результатах поиска информации чтобы пользователь помимо многочисленных видоизменений также мог просмотреть и принципиально другие документы.

• Сложность автоматической классификации/структуризации информации

Даже при построении сложных запросов поисковые системы выдают количество найденных документов, просмотреть которые просто невозможно. Качественная классификация информации предоставляют более простой путь навигации по данным, а полная автоматизация кластеризация позволяет работать с непредсказуемыми по содержимому информационными потоками

• Опечатки, неточности переводов

Довольно часто при переводе информации в электронный вид в базу повторно попадают данные из одного источника, такие данных необходимо отслеживать и приводить к единому представлению

• Информационный шум/спам

TODO !!!ДОПИСАТЬ!!!

Данные проблемы частично или полностью можно решить имея возможность определить степени схожесть между двумя документами. Установить необходимый интервал степени схожести можно установить связь между документами (дубликат, плагиат, общая тематическая направленность). Возможность дать оценку схожести документов в числовом виде открывает перспективы использования обширного ряда числовых методов кластеризации [3], давно изученных социологами при анализе неоднородных результатов социологических исследований.

Также имея возможность определять схожие документы и степень их схожести можно решать ряд дополнительных задач:

• Построение специализированных систем по выдачи цифровых паспортов для документов и отслеживанию плагиата

• Контроль незаконной утечки информации

• Определения авторства документа по схожести стиля документов

• Построение дерева версий документов, отслеживания параллельного развития документов из одного первоначального источника

• Сбор статистики распространения информации целью последующего анализа эффективности PR акций

• Определение информационных предпочтений пользователей

Предполагается предлагать пользователям информацию, которая более схожа с тем, что пользователь наиболее часто просматривает. Сегодня наилучшим образом технологию можно применить при составлении персонализированных новостных подборок и рекламных объявлений. Ранее в виду анонимности работы в internet данное направление было неактуально, сегодня же наблюдаются стремительные тенденции заведения аккаунтов пользователей.

TODO !!!Найти статистику аккаунтов и философские/правовые следствия нарушения приватности и централизованного контроля/влияния на информационную пищу человека!!!

В большинстве областях применения решающими критериями при выборе используемых технологий и алгоритмов являются скорость работы и гарантии обеспечения качества.

Для обеспечения должного быстродействия приходится отказываться от использования систем искусственного интеллекта основанных на базах знаний, так как они не выдерживают огромного потока несистематизированной информации различной тематической направленности [4 ст. 60].

Определения качества пока что весьма затруднительно в виду отсутствия эталонов для калибровки. И, к сожалению, в ближайшее время не предвидится появление специальных методик оценки качества определения степени сходства [5], что связано прежде всего с наличием множества определений подобия [6] и как следствие использования различных мер схожести. Сегодня формирование методик и средств по оценке качества сравнения информации является открытой проблемой для исследования. При доказательствах превосходства разработанных алгоритмов задачу пытаются решать частично, придумывая собственные методы. Так авторы алгоритма IMatch использовали текстовых коллекций данных с предварительной тематической классификацией и подборки новостей различных изданий за выбранный период времени[5]. При тестировании его аналога - метода «описательных слов» использовали[7] ранее известный алгоритм для предварительного отбора и результаты последующей ручной обработки сотнями экспертов.

Наиболее важным при доказательстве приемлемости избранного алгоритма по сравнению с остальными является рассмотрение всей разности результатов и способов их получения. Таким образом составление детального классификатора с рекомендациями и описанием особенностей работы алгоритмов является востребованной задачей.

На сегодняшний день известны следующие алгоритмы по определению схожести документов

Сигнатурные

Предназначенные для быстрого выявления документов с очень высокой степенью схожести или вложенности

Шинглы (DSC)

Заключаются в вычислении контрольных сумм для всех подцепочек текста («шинглов»)и построения случайной выборки из полученных значений

Супершинглы (DSC -SS)

Заключаются в построении ограниченного набора (1-6) контрольных сумм. Экспериментально были предложены следующие оптимальные параметры: 84 шингла, 6 супершинглов над 14 шинглами каждый, тексты считаются гипотетически совпавшие при совпадении хотя бы двух из 6 супершинглов. Теоретическое обоснована полнота детектирования почтового спама и практически подтверждена использованием в Яндекс.Почте [8]. TODO: Найти ссылку на исследовательскую работу по подбору параметров на РОММИП

IMAtch или метод «Описательных слов»

Построение контрольных сумм для ограниченного числа (40-60%)[5] слов (keywords), которые наиболее полно описывают содержимое документа. Описательные слова подбираются с учетом важности слова, которые учитываю закон Зипфа, определяется отбрасыванием наиболее и наименее распространенных в проиндексированном информационном потоке слов[7,5]. Важность может определятся динамически или заранее быть розщитана на адекватной тестовой выборке для оптимизации [5].

«Статистические»

TODO: Подобрать более правильное название группы

Общие слова

Документы считаются тем больше схожими, чем больше одинаковых слов в них используется

Вес общих слов

С учетом распределения слов в лексиконе и форматирования документов устанавливаются весовые коэффициенты важности.

Расстояние редактирования

Изначально Левенштейн [9] определил расстояние редактирования для двух текстовых строк как количество перестановок и вставок, которые необходимо произвести для правки первой строки до второй. Мы можем распространить определение и для текстов, представляя абзацы или предложения как слова, а слова как символы. Ранее были разработаны различные реализации алгоритмов[11], которые чаще всего использовались для построения систем проверки орфографии (spell chesker), все они могут быть адаптированы для определения схожести текстов.

Устойчивые штампы

Количество общих словосочетаний (пар, триад…) в документах, статистические закономерности по длине предложений, разделительных знаков и используемых словах также говорит о схожести документов, здесь скорее авторской нежели смысловой. Это дает возможность создания «паспортов» литературных писателей и определения авторства документов.

Векторная модель

В векторной модели информационное пространство рассматривается как матрица, строки которой документы, столбцы – словоформы (terms). На пересечении указывается наличие слова в документе. Различные вариации практического применения допускают установку веса слова в документе.

Аналоги к-во/вес общих слов

Схожесть документов определяется как корреляция их векторов.

Коэффициент косинуса

Коэффициент Дайса

Коэффициент Жаккара

Латентно-семантическая

Латентно-семантический анализ (LSA) — это теория и метод для извлечения контекстно-зависимых значений слов при помощи статистической обработки больших наборов текстовых данных.

LSA основывается на идее, что совокупность все контекстов в которых встречается и не встречается данное слово, задает множество обоюдных ограничений, которые в значительной степени позволяют определить похожесть смысловых значений слов и множеств слов между собой.

Область исследований направлена на последующую математическую матрицы документов и ее сингулярное разложение [10]. Результаты работы алгоритма можно посмотреть в on-line на сайте www.lsa.colorado.edu, детальное описание алгоритмов пока что, к сожалению, не опубликовано.

Лингвистические методы

Суть заключается в построении дерева содержимого документа и его глубоком анализе. На постсоветском пространстве данной проблемой занимаются в «Автоматической Обработки Текста». Достижениями в построении дерева зависимостей всего предложения (синтаксический анализ) и семантического графа текста (семантический анализ) представлены в [13]. Независимая оценка показывает пригодность лингвистических методов для определения подобия не ко всем тематикам документов [14 сравнение алгоритмов в рамках конференции Крым, Библиотечные фонды..], сегодня они применяются в основном в системах машинного перевода.

V

157

vuhrust

11 октября 2006, 07:04

#1

Для повышения качества работы алгоритмов дополнительно может осуществляться предварительная обработка входной информации. Наиболее эффективными являются следующие средства повышения качества:

• Стемминг

Нормирование слова, приведение к единому корню. Модель SnowBall для построения математического алгоритма была предложена Портером еще в (давненько так) [15]. Сегодня можно найти реализации модели практически для всех языков

• Лингвистические базы

Базы переводов для независимости от языка написания документа и базы синонимов

• Разбиение документа на части, определение и суммирование результата полеченного для пар частей как независимых документов. Описаны результаты применения для классификации текстов [10]

• Метод каскада

Оптимизация может использоваться для поиска схожих документов среди проиндексированных данных. Заключается в кластеризации групп документов и выделении центрового документа (возможно, виртуального). Отрицательный результат сравнение документа-запроса с центром кластера исключает потребность выполнять операции с документами входящими в кластер.

• Рассмотрение при индексировании пар слов наряду с одиночными словами [12]

Задачи определение схожести информации за классификацией расположены в область информационного поиска (IR). Существование универсальных/наиболее распространенных моделей представления информации а также применения вышеприведенных алгоритмов улучшения качества создает ложное впечатление сходства алгоритмов поиска по запросу с определением схожести документов. Часто это мотивируется возможностью запрос представить в виде документа. Документ действительно можно представить в виде запроса, однако используемые в ПС алгоритмы анализа запросов, определение релевантности и что самое главное алгоритмы и структура индексов ПС не предназначены для больших запросов. Исследования приведенные в AOL (со слов Сегаловича (тех. Директор Яндекса) на searchengines.ru) показывают TODO: !!!Найти сами исследования!!!, что работающие на стандартных алгоритмах сервера просто не выдерживают нагрузок.

Тем не менее представить запрос в виде документа и поиск по запросу свести является возможным, таким образов поиск схожих есть более общая постановка задачи поиска информации (здесь однако подстерегает сложно выбора наиболее релевантных документов)

Литература

1. Lyman P., Varian Hal R. How much information 2003? (http://www.sims.berkley.edu/research/projects/how-much-info-2003/printable_report.pdf)

2. Кларк Д. Закон Мура остается в силе // Ведомости. – 2003. - № 11 (http://www.silicontaiga.ru/home.asp?artId=2066)

3. Кириченко К.М. Герасимов М.Б. Обзор методов кластеризации текстовых документов // Материалы международной конференции Диалог’2001 (http://www.dialog-21.ru/Archive/2001/volume2/2_26.htm)

4. Ланде Д.В. Поиск знаний в Internet. Профессиональная работа.: Пер. с англ. – М.: Издательский дом «Вильямс», 2005. – 272 с.

5. Collection Statistics for Fast Duplicate Document Detection. ABDUR CHOWDHURY, OPHIR FRIEDER, DAVID GROSSMAN, and MARY CATHERINE McCABE Illinois Institute of Technology.

6. An Information-Theoretic Definition of Similarity Dekang Lin Department of Computer Science University of Manitoba Winnipeg, Manitoba, Canada R3T 2N2

TODO: !!!Найти правильное описание работы!!!

7. Эффективный способ обнаружения дубликатов web доку-ментов с использованием инвертированного индекса. Сергей Ильинский, Максим Кузьмин, Александр Мелков, Илья Сегалович TODO: !!!Найти правильное описание работы!!!

8. Некоторые автоматические методы детектирвания спама, доступные большим почтовым системам. Илья Сегаловия, Яндекс TODO: !!!Найти правильное описание работы!!!

9. TODO: !!! Найти первоисточник!!!

10. Некрестьянов. Тематико-ориентированные методы информационного поиска. Кандидатский дисер. TODO: !!!Найти правильное описание работы!!!

11. TODO: !!!Найти работу (была на английском в pdf)!!!

12. Губин Максим Вадимович. ИЗУЧЕНИЕ СТАТИСТИКИ ВСТРЕЧАЕМОСТИ ТЕРМИНОВ И ПАР ТЕРМИНОВ В ТЕКСТАХ ДЛЯ ВЫБОРА МЕТОДОВ СЖАТИЯ ИНВЕРТИРОВАННОГО ФАЙЛА ЗАО «Информационная компания “Кодекс”», Max@gubin.spb.ru Материалы какой-то конференции TODO: !!!Найти правильное описание работы!!!

13. www.aot.ru

14. TODO: !!!Найти материалы крымской конференции по автоматизации библиотечных фондов!!!

15. Найти работу Портера

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

N

53

nis

11 октября 2006, 07:12

#2

vuhrust:
LSA основывается на идее, что совокупность все контекстов в которых встречается и не встречается данное слово, задает множество обоюдных ограничений, которые в значительной степени позволяют определить похожесть смысловых значений слов и множеств слов между собой.
Область исследований направлена на последующую математическую матрицы документов и ее сингулярное разложение [10]. Результаты работы алгоритма можно посмотреть в on-line на сайте www.lsa.colorado.edu, детальное описание алгоритмов пока что, к сожалению, не опубликовано.

Интересно, а почему вы считаете, что не опубликовано?

V

157

vuhrust

11 октября 2006, 07:31

#3

nis:
Интересно, а почему вы считаете, что не опубликовано?

на lsa.colorado.edu не опубликовано. Уж очень онлайн демки мне запали.

10x, Таки стоит передописать...

P

121

PHWizard

11 октября 2006, 08:39

#4

http://lsa.colorado.edu/

(с www не работает)

Dappros: your private business blockchain in the cloud (https://www.dappros.com/)

P

121

PHWizard

11 октября 2006, 08:51

#5

"розщитана" там где про imatch

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта