Хорошие новости, плохие новости - Поисковые технологии

Технологии определения тональности документов

Vyacheslav Tikhonov · 2008-03-21T01:09:43.0000000Z

В последнее время остро стоит задача определения тональности (позитив, негатив, нейтрал, ирония) объектов, информацию о которых несут тексты. Задача осложняется тем, что при решении задачи "в лоб" однозначно выделить можно лишь негатив, а качество распознавания напрямую зависит от полноты словаря так называемых "плохих" слов, собранных экспертами вручную. Конечно, после этого компьютер можно заставить опеределять негатив, обучив на эталонной коллекции документов, помеченной одним из проявлений тональности, однако как можно распознать в тексте, например, иронию или скрытый негатив, когда словарь бессилен? По сути ведь это позитивное отображение объекта в тексте документа, которое часто перечеркивает всего лишь одна фраза, например, вопрос с концовкой в стиле "не так ли?" Кроме того, зачастую текст документа не содержит однозначной оценки деятельности объекта, а в различных частях есть как позитив, так и негатив. Что делать в этом случае и к какой группе относить документ? Понятно, что нужно считать тональность каждого объекта и предиката, содержащихся в тексте, однако непонятно, какие из них перевешивают на практике, и что со всем этим делать. Насколько я знаю, в России разработками в этой области занимаются ВААЛ и Гарант-Парк. Может быть, кто-то еще озаботился подобными проблемами?

W

40

walker

28 марта 2008, 16:08

#11

Слава Шевцов:
Не уверен, но подозреваю, что тональность для факта (или личности) может быть определена с точностью до простого предложения, где он (она) упоминается. Не больше, но и не меньше.

На самом деле, не стоит надеяться, да и не нужна 100% (и даже 80%) качество распознавания мнения.

Для многих задач хватит стандартной классификации по близким контекстам, если текстов много.

Если же текстов мало - все бесполезно. Но при этом и ценность отдельной оценки сомнительна.

Как дают сайту "настояться"? Яндекс кобласит Помогите с продвижением

VT

130

Vyacheslav Tikhonov

28 марта 2008, 16:14

#12

На самом деле, не стоит надеяться, да и не нужна 100% (и даже 80%) качество распознавания мнения.

В общем-то, да. Для моих задач важно находить и распознавать кризисные коммуникации, а это очень небольшой (но самый важный) процент информационного потока.

Если же текстов мало - все бесполезно. Но при этом и ценность отдельной оценки сомнительна.

Тексты - это сырье, которое перестало быть проблемой.

322

Top for the good

4 апреля 2008, 15:27

#13

Почитайте алгоритмы поисковых систем, точнее гугла, если Вы внесете в свой анализ дополнительно ранжирование и оценку документа, то может и получите, что хотите, отсекая шум и используя модели приведенные выше.

Мастер модель практически нереализума. ИМХО

Чем вам помочь в SEO продвижении или юзабилити сайтов?
(https://topuser.pro/) Увеличить доход от РСЯ и AdSense (https://topuser.pro/uvelichit-dohod-adsense/)

Где смотреть информацию о Яндекс кобласит Google описал модель машинного

VT

130

Vyacheslav Tikhonov

4 апреля 2008, 20:45

#14

Почитайте алгоритмы поисковых систем, точнее гугла, если Вы внесете в свой анализ дополнительно ранжирование и оценку документа

Да я, в общем, в этой области (IR) уже более 8 лет, и знаю, как это работает у них. Проблема в том, что частотный анализ не годится для тональности - вещь уж больно субъективная.

Поэтому здесь интересны свежие идеи.

33

rypy

4 апреля 2008, 21:09

#15

Хорошие новости, плохие новости.

Зарабатывай на биржах: Sape (http://www.sape.ru/r.2ab646a8f2.php) и Miralinks (http://miralinks.ru/users/registration/from:4923). Автоматизируй продвижение - Seopult (http://seopult.ru/ref.php?ref=0915826a962409ce). SEO в картинках (http://seopics.ru)

VT

130

Vyacheslav Tikhonov

5 апреля 2008, 22:14

#16

Хорошие новости, плохие новости.

Не похоже, чтобы все это на сайте делал автомат.

322

Top for the good

5 апреля 2008, 22:39

#17

Стер, что-то флуд развожу.

33

rypy

5 апреля 2008, 23:41

#18

Vyacheslav Tikhonov:
Не похоже, чтобы все это на сайте делал автомат.

Не автомат, конечно же, но я счел ссылку косвенно относящуюся к теме.

Жаль, что проект забросили, судя по всему. Идея-то неплоха.

12

none_smilodon

6 апреля 2008, 05:59

#19

проблема в данном случае такая: ирония, итд не всегда віделяется даже человеком. можно пойти по словам-маркерам, демаскирующим признакам, создать дерево решений, систему анализа контекста или заняться нейронной сетью. в любом случает, качество решения будет ниже чем результат обезьянки за клавиатурой. если конечно обезьянка не очень тупа.

я понимаю, что если есть заказ ві не будете заниматься предсказанием потенциальных трузатрат и сравнением с другими решениями. но задача на первій взгляд весьма нетривиальна.

VT

130

Vyacheslav Tikhonov

6 апреля 2008, 21:00

#20

в любом случает, качество решения будет ниже чем результат обезьянки за клавиатурой. если конечно обезьянка не очень тупа.

Проблема в том, что набрать столько обезьянок, которые бы оценили в течение часа поток из нескольких тысяч документов, нереально. Нужно программное решение.

я понимаю, что если есть заказ ві не будете заниматься предсказанием потенциальных трузатрат и сравнением с другими решениями. но задача на первій взгляд весьма нетривиальна.

Обычно чем сложнее задача, тем интереснее ее решать. Здесь точно есть какая-то фишка, лежащая в области психологии, а не информационных технологий. Например, средняя длина слов в тексте меньше, если хвалят, и больше, если ругают. :)

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Технологии определения тональности документов