Технологии определения тональности документов

130

Vyacheslav Tikhonov

21 марта 2008, 01:09

8298

В последнее время остро стоит задача определения тональности (позитив, негатив, нейтрал, ирония) объектов, информацию о которых несут тексты.

Задача осложняется тем, что при решении задачи "в лоб" однозначно выделить можно лишь негатив, а качество распознавания напрямую зависит от полноты словаря так называемых "плохих" слов, собранных экспертами вручную. Конечно, после этого компьютер можно заставить опеределять негатив, обучив на эталонной коллекции документов, помеченной одним из проявлений тональности, однако как можно распознать в тексте, например, иронию или скрытый негатив, когда словарь бессилен? По сути ведь это позитивное отображение объекта в тексте документа, которое часто перечеркивает всего лишь одна фраза, например, вопрос с концовкой в стиле "не так ли?"

Кроме того, зачастую текст документа не содержит однозначной оценки деятельности объекта, а в различных частях есть как позитив, так и негатив. Что делать в этом случае и к какой группе относить документ? Понятно, что нужно считать тональность каждого объекта и предиката, содержащихся в тексте, однако непонятно, какие из них перевешивают на практике, и что со всем этим делать.

Насколько я знаю, в России разработками в этой области занимаются ВААЛ и Гарант-Парк. Может быть, кто-то еще озаботился подобными проблемами?

W

40

walker

28 марта 2008, 08:49

#1

Vyacheslav Tikhonov:
В последнее время остро стоит задача определения тональности (позитив, негатив, нейтрал, ирония) объектов, информацию о которых несут тексты.
...

Это такая провокация для оживления форума?

В самом посте содержатся и все возможные ответы (набор словарей, обучающее множество).

Тут мало почвы для обсуждения. Тут делать надо, так как идей слишком много, а главный критерий только процент F-меры.

Такую тему надо заявлять в РОМИП (emotion-classification), глядишь народ и подтянется...

Не платил налоги к Яндекс кобласит Идеи проектов

370

Слава Шевцов

28 марта 2008, 10:25

#2

Vyacheslav Tikhonov, с иронией в общем виде проблема не решается, потому что в большинстве случаев это будет лишь явное преувеличение свойств объекта в общем контексте (во всём массиве информации о предмете). Например, пусть есть фраза "некоторая группа лиц создаёт выдающуюся систему смыслового анализа текста". Меняем её чуть: "Миха Кузьмин создаёт выдающуюся систему смыслового анализа текста". Для нас явная ирония, потому что мы знаем, что Миха на другом специализируется. Не выделить это. Да Вы и сами это знаете.

Кстати, ВААЛ вроде вполне может сечь тексты в позитивной/негативной тональности. Там же не слова анализируются, а сочетания звуков. То есть как слышит человек, когда пишет. Ну не будет он писать негативный отзыв в позитивных сочетаниях букв. Даже если он Сергей Лавров.

Посмотрите на Филфак МГУ. Говорят, там есть компьютерщики, которые пытаются этим заниматься.

Слава Шевцов добавил 28.03.2008 в 13:27

walker:
Это такая провокация для оживления форума?

Нет. Люди ищут материал, где могут. Поставлена суперзадача, которую никто не знает, как решать. И её решают. Как могут решают.

Неизменность точки зрения неизменно порождает иллюзию понимания.

VT

130

Vyacheslav Tikhonov

28 марта 2008, 12:02

#3

Это такая провокация для оживления форума?

Да какая уж провокация - реальная проблема. У меня со всего мира идет огромный поток разнообразной информации (и на разных языках), который нужно оценить по тональности и определить, где о событии написали в негативном свете, где в позитиве.

В идеале для быстрого понимания ситуации нужно получать такую оценку для каждого события, а во многих случаях еще и сравнивать мнения в онлайне и оффлайне - часто они противоположные.

Google рассказал о человеческом Как в моем случае Яндекс кобласит

VT

130

Vyacheslav Tikhonov

28 марта 2008, 12:41

#4

Например, пусть есть фраза "некоторая группа лиц создаёт выдающуюся систему смыслового анализа текста". Меняем её чуть: "Миха Кузьмин создаёт выдающуюся систему смыслового анализа текста". Для нас явная ирония, потому что мы знаем, что Миха на другом специализируется.

В целом понятно, что нужно вводить контекст и коллективный опыт, хотя не совсем ясно, как именно это можно заложить в машину. В принципе, можно вычленить отношения объект-субъект-предикат, и попробовать получить такую "обвязку" для каждого объекта - в этом случае из коллекции документов можно выстроить нечто вроде семантического ядра, которое и будет задавать контекст.

Кстати, ВААЛ вроде вполне может сечь тексты в позитивной/негативной тональности. Там же не слова анализируются, а сочетания звуков. То есть как слышит человек, когда пишет. Ну не будет он писать негативный отзыв в позитивных сочетаниях букв. Даже если он Сергей Лавров.

А вот это уже интересно! Спасибо!

W

40

walker

28 марта 2008, 14:34

#5

Слава Шевцов:

Кстати, ВААЛ вроде вполне может сечь тексты в позитивной/негативной тональности. Там же не слова анализируются, а сочетания звуков. То есть как слышит человек, когда пишет. Ну не будет он писать негативный отзыв в позитивных сочетаниях букв. Даже если он Сергей Лавров.

В ВААЛе используются два подхода - традиционный словарный и "на сочетаниях звуков".

Про традиционный словарный все более-менее понятно.

Про фонетический - это полная лажа, не верьте.

walker добавил 28.03.2008 в 17:49

Vyacheslav Tikhonov:
Да какая уж провокация - реальная проблема. У меня со всего мира идет огромный поток разнообразной информации (и на разных языках), который нужно оценить по тональности и определить, где о событии написали в негативном свете, где в позитиве.

В идеале для быстрого понимания ситуации нужно получать такую оценку для каждого события, а во многих случаях еще и сравнивать мнения в онлайне и оффлайне - часто они противоположные.

Каких все-таки чудес Вы ищете?

Тем более Вы сами хорошо знаете, где надо искать:

http://portal.acm.org/portal.cfm, да и обычный google подойдет

и что:

sentiment analysis (также http://en.wikipedia.org/wiki/Sentiment_analysis)

opinion mining

appraisal theory (также http://en.wikipedia.org/wiki/Appraisal_theory)

emotional response

affective computing

VT

130

Vyacheslav Tikhonov

28 марта 2008, 15:05

#6

walker:
В ВААЛе используются два подхода - традиционный словарный и "на сочетаниях звуков".

Про традиционный словарный все более-менее понятно.

Про фонетический - это полная лажа, не верьте.

Если я правильно понял, то словарный - это традиционный частотный анализ с экспертной оценкой тональности каждого терма? Или что-то более продвинутое вроде лексических цепочек?

W

40

walker

28 марта 2008, 15:12

#7

Vyacheslav Tikhonov:
Если я правильно понял, то словарный - это традиционный частотный анализ с экспертной оценкой тональности каждого терма? Или что-то более продвинутое вроде лексических цепочек?

Точно не скажу - последнее время не смотрел. Вообще не понимаю, чем лексические цепочки помогут для классификации, особенно, судя по всему, коротких и "рваных" текстов.

Традиционные техники классификации у них неплохие. Беда у них с интерпретациями - слишком сильно на слабых данных.

Google: мы не ранжируем Проблема с БД Google: теги заголовка это

VT

130

Vyacheslav Tikhonov

28 марта 2008, 15:22

#8

Каких все-таки чудес Вы ищете?

Я чудес не ищу, а пробую разные варианты.

http://portal.acm.org/portal.cfm, да и обычный google подойдет

Это понятно. Изучаю подобные алгоритмы, но русский язык по структуре гораздо сложнее, чем английский, поэтому хотелось узнать, какие исследования в этой области ведутся (если ведутся), кто этим занимается в России (или СНГ) и каковы успехи.

Упал доход Помощь в фильтрации ботов Разный снипет

W

40

walker

28 марта 2008, 15:38

#9

Vyacheslav Tikhonov:
Я чудес не ищу, а пробую разные варианты.

Это понятно. Изучаю подобные алгоритмы, но русский язык по структуре гораздо сложнее, чем английский, поэтому хотелось узнать, какие исследования в этой области ведутся (если ведутся), кто этим занимается в России (или СНГ) и каковы успехи.

Ответ прост - на уровне АСМ - никто.

Была только одна незаконченная работа RCO, которую Вы, судя по всему, знаете.

370

Слава Шевцов

28 марта 2008, 15:54

#10

walker:
Вообще не понимаю, чем лексические цепочки помогут для классификации, особенно, судя по всему, коротких и "рваных" текстов.

Если фрагмент текста не слишком маленький, то там должна быть надёжная идентификация. Хотя если статья написана по принципу "сначала у него были угрюмые угри, затем он вымылся Тайд и стал яркий и весёлый", то да - тональность будет зависеть от фрагмента. Но ведь в реальности это и нужно - факт выделяется из какого-то фрагмента статьи.

Не уверен, но подозреваю, что тональность для факта (или личности) может быть определена с точностью до простого предложения, где он (она) упоминается. Не больше, но и не меньше. Сумеют ли Дымшиц с Шалаком сделать надёжную идентификацию? Фиг их знает. Дымшиц вроде умный и дельный мужик.

Open AI тестирует память для ChatGPT

Что делать, чтобы попасть в ответы Google Bard