bvd

Рейтинг
42
Регистрация
02.09.2002
Как писал Fury
Три года занимался задачей классификации текстов:о)

Теперь надо бы придумывать и тема для аспирантуры
...
Что сейчас актуально в этом направлении и ещё будет актуально года 2-3?

Ну если это не разводка, то, пожалуйста, их есть у меня.

При склонности к теоретической работе три близкие темы:

- Почему близкие документы относятся к разным рубрикам

- Ограничения на применение kernel-методов

- Почему трудно рубрицировать по большим (более 500 рубрик) классификаторам

Темы попроще:

- Очистка противоречий в ручном рубрицировании

- TDT, особенно novelity

Еще проще (но мне, например, уже неинтересно как тема для аспирантуры):

- сравнение нескольких методов на РОМИП-коллекциях + какие-нибудь свои улучшения

Как писал Leom


Кластеризация это фактически авторубрикация и это немного другое.

я извиняюсь, конечно, Вы abstract-то читали?

-------------------------------------

Andrei Z. Broder, Steven C. Glassman, Mark S. Manasse, Geoffrey Zweig

Note #1997-015. July 25, 1997

We have developed an efficient way to determine the syntactic similarity of files and have applied it to every document on the World Wide Web. Using this mechanism, we built a clustering of all the documents that are syntactically similar. Possible applications include a "Lost and Found" service, filtering the results of Web searches, updating widely distributed web-pages, and identifying violations of intellectual property rights.

-------------------------------------

вот Вам еще из результатов

http://www.google.com/search?hl=en&q=syntactic+similarity+of+files+

U. Manber. Finding Similar Files in a Large File System. In Proceedings of USENIX-1994

см. также тех, кто сослался - то есть занимается тем же или очень похожим и т.д.

http://citeseer.ist.psu.edu/context/11471/54679

Как писал Leom

Если система на один запрос о поиске похожих из базы например 30гиг (корпоративная инфа очень средней величины) будет думать 2 часа то это никому не надо.
...
У нас же изюминка что оно быстро работает.

Рад за Вас, но кому это надо?

Время поиска можно сделать практически мгновенным, храня только первых N документов, насчитанные заранее, а это считаться может долго.

Если искать только совсем похожие - эти списки и пересчитываться будут очень редко - да и зачем их вообще пересчитывать, если похожие уже отобраны, пользователь получит то что хотел?

Как писал Leom

Давайте разделять прикладуху с технологиями.

Это как?

Как писал Leom

А можно подробней без раскрытия коммерческрой тайны что значит исследования коллекций документов -- какая цель?

Цель-то и есть самая большая коммерческая тайна.

А методы - не проблема.

Как писал Leom

И реально ее ни у кого нет.

полнадоела, конечно, эта дискуссия.

идем, для начала на http://labs.google.com/papers.html

и видим, например, там 4ую по списку статью людей, работающих в Гугле, опубликовавших ее в 1997 году

Syntactic Clustering of the Web. Appeared in Proceedings of the Sixth Word Wide Web Conference (WWW6).

(http://gatekeeper.dec.com/pub/DEC/SRC/technical-notes/abstracts/src-tn-1997-015.html)

-------------------------------------

Andrei Z. Broder, Steven C. Glassman, Mark S. Manasse, Geoffrey Zweig

Note #1997-015. July 25, 1997

We have developed an efficient way to determine the syntactic similarity of files and have applied it to every document on the World Wide Web. Using this mechanism, we built a clustering of all the documents that are syntactically similar. Possible applications include a "Lost and Found" service, filtering the results of Web searches, updating widely distributed web-pages, and identifying violations of intellectual property rights.

-------------------------------------

и т.д.

Ну и, вообще, довольно странно думать, что эта задача никем не решалась. Методов - миллион, например, в области разбиения на кластеры, определение novelity и т.п.

Просто задача слабо востребована.

Но чтобы - "ни у кого нет"?

Что далеко ходить - мы выполняли (читай продали) пару исследований для двух разных коллекций документов, включая организацию оценки экспертами примерно 10 разных способов сравнения.

Подробности - комм.тайна заказчика.

Как писал Leom

поиск похожих не работае не у yandex не у google

При этом мое мнение - довольно странная задача искать "похожие документы".

Это только ползадачи. Зачем мне еще один такой же документ?

Пользователю, скорее всего требуются документы частично похожие на данный, и отличия желательно расскласифицировать.

Допускаю, что в реальной системе с некотролируемыми потребностями пользователей потребуется специально "возмущать" поиск "похожих".

Как писал Leom

Попытки обвинить меня в пиаре честно говоря не понятны. Вы же сами знаете Сергей что на Ваш форум ходят не корпоративные заказчики (которые мне ну очень интересны) а профессионалы-технари -- а какой смсыл пиарить среди них то?

Я не знаю за какие деньги Вы собираетесь поставлять свои решения. С некоторого момента - когда сумма заказываемой работы начинает превышать сколько-то там ефимков, когда уже невозможно точно рассчитать выполнимость проекта, можно только доверять - редко когда покупают сразу, сначала спрашивают у друзей-конкурентов, сравнивают.

Поэтому "карму" портить не стоит, вряд ли будет хорошо, если к Вам будут относиться с сомнением ...

Как писал Leom


Видите ли я практик и все продукты выпускаемые компанией СофтИнформ делаются не ради научных публикаций, а ради зарабатывания денег.

Ну да, тут большинство участников обсуждения просто погулять вышли ...

Однако, если хотите продолжать общаться, например в рамках РОМИП, настоятельно рекомендую следовать научным традициям: объективности (указывая и сильные и слабые стороны) и уважения собеседников.

Как писал Тайлер
[Прям детектив какой-то.
....
Чувствую, что это будет более чем интересно...

При ПРАВИЛЬНОМ тестировании это всегда детектив,

так как необходимо определиться:

1) с коллекцией для тестирования (насколько она представительна)

2) с задачей (что считать похожим) - в РОМИПе это будет (если будет) скорее всего сумма мнений двух-трех студентов, которые не знают какую систему оценивают

3) При этом тестеры НЕИЗБЕЖНО будут несогласны между собой и, возможно, в значительной мере. Поэтому возникает проблема ИНТЕРПРЕТАЦИИ полученных результатов (то есть как суммировать противоречивые результаты).

Третий пункт весьма важен - всякое там "самотестирование" чужой технологии с критическими выводами - сомнительно по определению.

Поэтому в TREC, РОМИП и т.п., например, уделяется специальное внимание подписанию соглашения о правилах участия в тестировании, в частности, избегать использования результатов тестирования в рекламе.

Как писал Leom

Так вам доказывать мне смысла нет, а корпоративныому заказчику -- так это тема отдельная и не для этого форума.

а может я как раз и есть тот самый корпоративный заказчик?

и некий опыт достаточно успешного РЕШЕНИЯ этой задачи имею.

Как писал Leom

Не знаю говорит вам о чем то что например hummmingbird уже этим заинтересовалось.........

при текущем уровне изложения: флаг им в руки - паровоз настречу....

Как писал Leom

Это приведено только для примера -- можно при поиске похожих вырубить использование синонимов.

Опять таки для примера -- это же не главное в технологии -- все списки можно настроить под конкретную систему.

Э, батенька...

Так может для каждого запроса будем список синонимов и список стоп-слов определять?

Что-то говорит мне, что нет у Вас четкого обоснования когда это надо использовать.

Вычеркиваем эту функциональность.

Как писал Leom

Так вам никто не мешает откачать EXE и протестить на своих примерах. В Trial версии которая там ограничение на 1 гиг индексируемых текстов и на поддержку форматов (там намерянно только html и txt )

Мне времени не хватает на проверку своих систем.

Вам придется самому доказывать, что она лучше других,

и хотя бы стоит времени, которое потратит пользователь, воспользовавшийся Вашей рекомендацией.

Как писал Leom

Ну во первых технология только вышла и в этих меропритиях мы не могли учавствовать в принципе. А во вторых -- где идут тесты по поиску похожих в этихз мероприятиях?

Процедура РОМИП весьма демократична - предлагайте интересующую Вас дорожку, если будут такие же желающие - будет и дорожка.

Как писал Leom

Что за число 11. В тестовой базе около 1000 документов и 300 мег инфы.

Это я типа хотел пошутить: чтобы "качественно" улучшить работу системы, возвращающей 8 релевантных документов из первых 10, надо возращать 11 релевантных документов в первых 10.

Как писал Leom

Посмотрите демо-ролик и расскажите как с помощью какой то еще технологии модно найдя первый интересный документ ,.scnhj найти похожие на него.......

Пафосу много, но доверия мало.

В основу положена некоторая механистическая модель (простите, МОДЕЛЬ, конечно), учитывающая:

- вероятно, какую-то функцию от распределения частотностей (в принципе не важно какую) - трудно верить в исключительность -лучше клонов VM25 пока НИКТО не видел.

- список "синонимов" (это еще стоит обсудить на множестве каких значений purchase и obtain, и особенно acquire пересекаются)

- есть еще список стоп-слов, например, почему-то "заявка"

В общем, пример производит впечатление подстроенного.

Вот для того чтобы избавиться от громогласных, возможно, правдивых, но пока ни в чем не убеждающих заявлений

(Leom не первый и не последний), и проводятся мероприятия типа TREC или

РОМИП .

РОМИП честнее - дается 20000 заданий (ручная подгонка практически исключена!), из них случайно отбирается 50 для оценки, пара задание/документ оценивается не менее чем 2 оценщиками.

Даже для короткого "фразового поиска" достаточно простые методы типа BM25 + учет близости по месту встречаемости дают в СРЕДНЕМ 7 (для вэба) - 8 (для правовых актов) релевантных документов среди первых 10.

Конечно, даже небольшое улучшение поиска хорошо, но говорить о качественном улучшении - это куда - находить 11 документов что-ли?

* * *

Насчет примера про похожие из ролика. Ну хорошо, нашли первый документ про покупку IBM чего-то там, далее находятся документы про покупки - и это мол хорошо.

Но ведь, если рассматривать задачу поиска похожих, то почему не являются похожими документы про IBM и технологии и т.п., без всякой покупки?

То есть решается на самом деле специфическая задача того же "фразового поиска", но с заданным дополнительным контекстом.

В целом:

- интересно, но ничего особенно нового, по сравнению с тем же Я., у которого тоже есть поиск похожих - достаточно простой (запрос из десятка слов с максимальным tf*idf) - и разумно работает

- и по крайней мере, ничего такого, чтобы соответствовало пафосу

Как писал icreator

Бессмысленный разговор. всем всё понятно и все хотят выглядеть умнее, теша себя.

Зря Вы так...

Не кидает камнями тот, кто живет в стекляном доме.

Как писал icreator
пример.
- Вводим правило на ЕЯ: "хищник это животное, которое охотится на других животных."
- вводим знание на ЕЯ: "тигр это хищник".
- пользователь дает запрос: "тигр это животное?". поиск + знания + машина вывода = результат: "ДА, тигр это животное."
- так же и на вопрс: "тигр охотится на животных?"

то что Вы написали, кажется бесспорным, но именно КАЖЕТСЯ

есть очень много проблем представления знаний в виде текстов ЕЯ - прежде всего, отбор "хороших" текстов от плохих, которые не просто бесполезны, но вредят и т.п.

вот я спрсил в Я.: тигр это

получите кусочки из сниппетов:

=========================

Если про слона написано "тигр" - это правда

Тигра, это что означает? Я в старости, или Алер в молодости?

НАШИ "ТИГРЫ" - ЭТО КЛАССИКА

И ВСЕ ЖЕ ТИГР -- ЭТО БОЛЬШАЯ КОШКА

Я тигр - это амба медведям

Новые "тигры" - это Россия, Украина и Казахстан, а не Польша, Венгрия или Чехия

ТИГРЫ - ЭТО НЕ ТОЛЬКО ЦЕННЫЙ МЕХ

Тигр - это воплощение мощи и ловкости, символ ума и хитрости

Скажите, Дмитрий, а подбитие танком Т-70 "Тигра" - это очевидно тоже шняга?

========================

Большая проблема создать непротиворечивую базу "правил".

В Вашем примере требует специальных оговорок "очевидное" правило, что "хищник это животное".

Например, вопросы : 1) шварценегеровский хищник - животное? 2) а человек - животное? 3) в растение-росянка - животное?

Для успешного ответа на подобные формальные вопросы надо четко ограничивать предметную область. Говоря формально - накладывать контекст - внешнее правило, как должны трактоваться введенные Вами правила.

Есть целая куча попыток использовать, например, толковые словари - весьма безуспешеых попыток.

========

Я хотел бы, чтобы Вы меня правильно поняли.

Ваш подход, возможно будет работать для специально выбранной предметной области.

Но Вам следует правильно и аккуратнее называть то, что Вы делаете, а не так

далее это передаётся в базу знаний и поиск идёт по таким смысловым структурам

- на мой взгляд звучит ужасно - слышали мы такое сто раз - где бы только работало

Всего: 133