bvd

Рейтинг
42
Регистрация
02.09.2002
Bor-ka:


Последнее время заинтересовал вопрос извлечения фактов из текстов и обучение системы. Просьба к интересующимся посоветовать литературу и статьи по данному поводу.

Message Understanding Conference Proceedings

http://www.itl.nist.gov/iad/894.02/related_projects/muc/proceedings/muc_7_toc.html

http://acl.ldc.upenn.edu/M/M95/

http://acl.ldc.upenn.edu/M/M93/

http://acl.ldc.upenn.edu/M/M92/

http://acl.ldc.upenn.edu/M/M91/

и поновее - на современных конференциях или на CiteSeer

в РФ - см. http://www.rco.ru/article.asp, например

или

http://www.dialog-21.ru/dialog2007/materials/html/26.htm

http://www.dialog-21.ru/Archive/2005/Gershenzon%20Nozhov%20Pankratov/Gershenzon_Nozhov_Pankratov.htm

http://www.dialog-21.ru/Archive/2005/Ermakov%20A/ErmakovAE.htm

vuhrust:
Подскажите пожалуйста где можно скачать базу синонимов для русского и(или) украинского. Потребность некомерческая, поетому качество и полнота не особо важны. А так по русскому ничего найти не удалось

У нас есть (русский, английский) для некоммерческого использования (www cir ru).

Но на сторону не даем - только у нас, и будем долго оговаривать детали.

определение соответствия заданной тематике - один из видов рубрикации/классификации

существует два основных подхода - прямого лексического описания (набор слов и словосочетаний, возможно, с весами и с логикой) и машинного обучения (сначала откладываются тексты по теме/темам - специальные алгоритмы строят классифицирующие правила)

в зависимости от постановки задачи более эффективным оказывается тот или иной метод (или их гибрид).

если идет речь формирования тематической подборки из Интернет - сначала формируется коллекция с запасом (обходом сайтов, каталогов, исполнением кучки запросов в ПМ), затем фильтруется.

Литература обширная. Читайте.

vuhrust:


определится с конкретной задачей
Будет система отслеживания ПЛАГИАТА

я надеюсь, Вы в курсе, что есть всякие там алгоритмы типа "шинглов", задача определения дословного плагиата в целом решена, на рынке есть несколько продвигаемых систем

попробуйте чуть-чуть изменить условия, например:

* определение плагиата дизайна веб-страниц (с учетом перекраски и м.б. изменения размеров) - кстати, еще забавная задача здесь - определения стиля конкретной дизайнерской конторы

* наоборот - в помощь студентам и плагиаторам, плагиаторское "псевдочеловеческое" изменение текста без потери смысла (это уже, вроде, обсуждалось на форуме - задача на порядок сложнее - почти машинный перевод) - здесь можно набрать большую базу "правильных человеческих" словосочетаний (возможно с учетом общей тематики текста), затем ими заменять (аналог translation memory),

и циклически - определение этого самого "интеллектуального" плагиата (rewriting'а), см. также novelty

PHWizard:
То что он далее пишет про то, что нет противоречия, как-то непонятно. Как же нет, если есть.

кто его знает, что он здесь имел в виду - напишите ему лично письмо, он наверняка вежливо ответит - затем нам расскажете

PHWizard:

Как может быть эффективной такая функция? Я понимаю еще если бы брались самые частые слова по каждому документу (я так делал). Или если частоты приводятся относительно средней статистической частоты слова для языка. Но если тупо берутся самые частые слова по всей коллекции?

обосновать теоретически можно все, что угодно (есть такой анекдот про физиков теоретиков, легко объясняющих как прямой, так и перевернутый верх ногами экспериментальный график)

Ну, например (все дальнейшее может быть и неправильно, но теоретически неопровержимо):

- рассмотрим типичную новостную коллекцию (типа news.яндекс) - абсолютное большинство документов содержит слова Россия, российский, Москва - но это не стоп-слова - сами по себе они самостоятельно мало, что значат, но в запросах из нескольких слов (или при сборке новостных сюжетов) их выкинуть нельзя

- есть еще слабоисследованная теория про предлоги - весьма частотны, но иногда очень важны

можно обсуждать или не обсуждать, без проведения экспериментов, такая функция ничем не хуже других

lagif:
Как-то все расплывчато и риторично... :(

каков вопрос - такой ответ

vuhrust:

не осилил :(

ничем нельзя помочь - ПРИДЕТСЯ читать (если на что-то хотите расчитывать)!

Совершенно согласен с itman - пока постановка задачи слишком широка.

Надо выбрать более узкую - суженные задачи могут сильно отличаться друг от друга алгоритами и методами (аналог из урматов - какой из членов считать малым - разные типы уравнения).

Выбрать надо самому - должно же нравиться чем заниматься.

vuhrust:

Возникла потребность+желание разработать что-то полезное для информационного поиска. Причем полезность должна быть как-то совмещена с новизной.

при словах "возникла потребность" [накатать нетленку] возникают неприличные ассоциации [про Гондурас]

(не хотел бы обидеть - просто здесь не "с налета" надо действовать, а много работать - чтобы в результате реально конкурировать с другими)

vuhrust:

Очерчу примерно область, которой занимаюсь сейчас
1. Определение схожести документов

если серьезно - тема неплохая и нужная (имеется много интересных задач, часть из которых Вы назвали).

Самый важный вопрос здесь - что есть "схожие документы" - формул можно написать много, придумать много "продвинутых" моделей - однако, схожесть придется определять из внешних критериев (например, разметкой).

Поэтому самая большая здесь проблема - получить адекватное (большое) тестовое множество.

vuhrust:
...
2. Для исследований выбрана векторно-пространственная модель (tdidf).
3. Рассматривать схожесть как тупое умножение векторов - банально и не научно что ли :).

Что же всех тянет сразу на Нобелевку-то?

tfidf бывает разный (и даже очень разный). Посмотрите статьи Savoy, например, для CLEF. Да и другие статьи там - все не стоит на месте, но двигается.

vuhrust:
...
4. Наверника вокруг да около есть более интересные/нужные задачи (в IR конечно же).

Зачем мучаться - читать надо!

Возьмите CFP или программы последних (за пять лет) конференций SIGIR, WWW, TREC, CLEF, HLT и т.п., и спроецируйте на свои нужды.

Там более чем адекватно покрываются задачи нужные сегодня (а может быть и завтра).

Kryukov:

Кстати, решил добавить вопрос. А что означает это самое "в достаточной мере документированные возможности по расчету ссылочной связности"? Т.е. вы хотите знать считалось ли это как описывал Брин с Пейджем? Или Вы хотите узнать, как мне это физически удается? Или еще что-то?
itman:
Думаю, что народ хочет открытого айпияяяяя, чтобы можно было рассчитывать по своему и менять результаты выборки.

неточно выразился - "тестирование", конечно же означает, не собственно алгоритма поиска, но доступ к накопленным данным, прежде всего к графу ссылок и индексам по словам/леммам

Ваш "PageRank" сам по себе будет интересен только при ДЕТАЛЬНОМ описании (всех ведь интересует reuse своих усилий).

Всего: 133