walker

Рейтинг
40
Регистрация
23.09.2004
Vyacheslav Tikhonov:
Я чудес не ищу, а пробую разные варианты.


Это понятно. Изучаю подобные алгоритмы, но русский язык по структуре гораздо сложнее, чем английский, поэтому хотелось узнать, какие исследования в этой области ведутся (если ведутся), кто этим занимается в России (или СНГ) и каковы успехи.

Ответ прост - на уровне АСМ - никто.

Была только одна незаконченная работа RCO, которую Вы, судя по всему, знаете.

Vyacheslav Tikhonov:
Если я правильно понял, то словарный - это традиционный частотный анализ с экспертной оценкой тональности каждого терма? Или что-то более продвинутое вроде лексических цепочек?

Точно не скажу - последнее время не смотрел. Вообще не понимаю, чем лексические цепочки помогут для классификации, особенно, судя по всему, коротких и "рваных" текстов.

Традиционные техники классификации у них неплохие. Беда у них с интерпретациями - слишком сильно на слабых данных.

Слава Шевцов:

Кстати, ВААЛ вроде вполне может сечь тексты в позитивной/негативной тональности. Там же не слова анализируются, а сочетания звуков. То есть как слышит человек, когда пишет. Ну не будет он писать негативный отзыв в позитивных сочетаниях букв. Даже если он Сергей Лавров.

В ВААЛе используются два подхода - традиционный словарный и "на сочетаниях звуков".

Про традиционный словарный все более-менее понятно.

Про фонетический - это полная лажа, не верьте.

walker добавил 28.03.2008 в 17:49

Vyacheslav Tikhonov:
Да какая уж провокация - реальная проблема. У меня со всего мира идет огромный поток разнообразной информации (и на разных языках), который нужно оценить по тональности и определить, где о событии написали в негативном свете, где в позитиве.

В идеале для быстрого понимания ситуации нужно получать такую оценку для каждого события, а во многих случаях еще и сравнивать мнения в онлайне и оффлайне - часто они противоположные.

Каких все-таки чудес Вы ищете?

Тем более Вы сами хорошо знаете, где надо искать:

http://portal.acm.org/portal.cfm, да и обычный google подойдет

и что:

sentiment analysis (также http://en.wikipedia.org/wiki/Sentiment_analysis)

opinion mining

appraisal theory (также http://en.wikipedia.org/wiki/Appraisal_theory)

emotional response

affective computing

Vyacheslav Tikhonov:
В последнее время остро стоит задача определения тональности (позитив, негатив, нейтрал, ирония) объектов, информацию о которых несут тексты.
...

Это такая провокация для оживления форума?

В самом посте содержатся и все возможные ответы (набор словарей, обучающее множество).

Тут мало почвы для обсуждения. Тут делать надо, так как идей слишком много, а главный критерий только процент F-меры.

Такую тему надо заявлять в РОМИП (emotion-classification), глядишь народ и подтянется...

yourich:
Согласен, я достаточно условно свел эти два понятия в одну группу. Для меня важнее именно выделение смысла... .

надо все-таки почитать отчет по SUMMAC - техник много (значит нет одного решения), одни лучше, другие хуже

главное для Вас, что разрыв невелик - то есть для простых потребностей подойдет и простейшая схема, иначе - сферхфразовое единство, связность, лексические цепочки и так далее

iseg:


Предлагаю закрыть этот раздел форума. Из 15 последний тредов только 3 более-менее на тему раздела, остальные вполне смотрелись бы на своем месте в своих разделах.

...

Закрыть легко, а куда же переехать...

Проще не читать...

Яндекс считает, что все знает лучше всех, и чем дальше - тем больше: раньше - как надо делать поисковые машины, сейчас - как надо себя вести...

yourich:
PS: уточню - интересует получение автореферата из большого документа. в частном случае - снипет, а в более широком смысле - получение краткой смысловой выжимки документа.

получение сниппетов и "смысловое" автореферирование больших документов - фактически совершенно разные задачи

насчет автореферирования смотрите SUMMAC TIPSTER (http://www-nlpir.nist.gov/related_projects/tipster_summac/) и DUC (http://duc.nist.gov/)

есть задача - контекстно-зависимое реферирование, то есть выжимка по заданной теме

формально - сниппет в SERP - тоже "контестно-зависимая аннотация", но главные задачи при формировании сниппета другая - наличие соответствия запросу и быстрота формирования

проще всего достигается нахождением первого максимального пересечения запроса и текста (обычно заранее разбитого на фиксированные - часто одинаковые - куски)

Yuri_K:
Мы строили разные решения, одно из них построено на нашем продукте ...

Другое решение называется ...

Ну и еще одно решение ...

Опять реклама.

Хочется рассказать о своем - пожалуйста, но хоть имейте совесть, приводите результаты сравнительного с другими подходами evaluation, хотя бы обсуждайте достоинства и недостатки, хотя бы ссылки на тех (западных) людей, кто публиковался с подобными подходами ранее, а то скоро пойдет в ход "семантический анализ" и т.д.

Кстати, если что-то называется "решение", а не просто "экспериментальный алгоритм", то должно быть хотя бы одно масштабное внедрение, или несколько не столь масштабных.

Тщательнее надо...

Ken:
Что поделать - трудоемкая задача, вопрос лишь в том на сколько глубко решили абстрагироваться.

дело не в степени абстрагирования, а в подходе

на паровозе до луны не доехать

Ken:
Не следует забывать и о технике глобальной классификации которую делают в Абби Лингво

тогда уж не забывать об искусственном интеллекте, DM, BI, и конечно, о серебрянной пуле и чесноке

Абби в 1999 году все обещал сделать глобальную штуку, теперь сейчас обещает - наверное им надо раз в пять-шесть лет обещать, а то все забывают об их глобальных замыслах

Всего: 48