- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
В последнее время остро стоит задача определения тональности (позитив, негатив, нейтрал, ирония) объектов, информацию о которых несут тексты.
Задача осложняется тем, что при решении задачи "в лоб" однозначно выделить можно лишь негатив, а качество распознавания напрямую зависит от полноты словаря так называемых "плохих" слов, собранных экспертами вручную. Конечно, после этого компьютер можно заставить опеределять негатив, обучив на эталонной коллекции документов, помеченной одним из проявлений тональности, однако как можно распознать в тексте, например, иронию или скрытый негатив, когда словарь бессилен? По сути ведь это позитивное отображение объекта в тексте документа, которое часто перечеркивает всего лишь одна фраза, например, вопрос с концовкой в стиле "не так ли?"
Кроме того, зачастую текст документа не содержит однозначной оценки деятельности объекта, а в различных частях есть как позитив, так и негатив. Что делать в этом случае и к какой группе относить документ? Понятно, что нужно считать тональность каждого объекта и предиката, содержащихся в тексте, однако непонятно, какие из них перевешивают на практике, и что со всем этим делать.
Насколько я знаю, в России разработками в этой области занимаются ВААЛ и Гарант-Парк. Может быть, кто-то еще озаботился подобными проблемами?
В последнее время остро стоит задача определения тональности (позитив, негатив, нейтрал, ирония) объектов, информацию о которых несут тексты.
...
Это такая провокация для оживления форума?
В самом посте содержатся и все возможные ответы (набор словарей, обучающее множество).
Тут мало почвы для обсуждения. Тут делать надо, так как идей слишком много, а главный критерий только процент F-меры.
Такую тему надо заявлять в РОМИП (emotion-classification), глядишь народ и подтянется...
Vyacheslav Tikhonov, с иронией в общем виде проблема не решается, потому что в большинстве случаев это будет лишь явное преувеличение свойств объекта в общем контексте (во всём массиве информации о предмете). Например, пусть есть фраза "некоторая группа лиц создаёт выдающуюся систему смыслового анализа текста". Меняем её чуть: "Миха Кузьмин создаёт выдающуюся систему смыслового анализа текста". Для нас явная ирония, потому что мы знаем, что Миха на другом специализируется. Не выделить это. Да Вы и сами это знаете.
Кстати, ВААЛ вроде вполне может сечь тексты в позитивной/негативной тональности. Там же не слова анализируются, а сочетания звуков. То есть как слышит человек, когда пишет. Ну не будет он писать негативный отзыв в позитивных сочетаниях букв. Даже если он Сергей Лавров.
Посмотрите на Филфак МГУ. Говорят, там есть компьютерщики, которые пытаются этим заниматься.
Слава Шевцов добавил 28.03.2008 в 13:27
Это такая провокация для оживления форума?
Нет. Люди ищут материал, где могут. Поставлена суперзадача, которую никто не знает, как решать. И её решают. Как могут решают.
Да какая уж провокация - реальная проблема. У меня со всего мира идет огромный поток разнообразной информации (и на разных языках), который нужно оценить по тональности и определить, где о событии написали в негативном свете, где в позитиве.
В идеале для быстрого понимания ситуации нужно получать такую оценку для каждого события, а во многих случаях еще и сравнивать мнения в онлайне и оффлайне - часто они противоположные.
В целом понятно, что нужно вводить контекст и коллективный опыт, хотя не совсем ясно, как именно это можно заложить в машину. В принципе, можно вычленить отношения объект-субъект-предикат, и попробовать получить такую "обвязку" для каждого объекта - в этом случае из коллекции документов можно выстроить нечто вроде семантического ядра, которое и будет задавать контекст.
А вот это уже интересно! Спасибо!
Кстати, ВААЛ вроде вполне может сечь тексты в позитивной/негативной тональности. Там же не слова анализируются, а сочетания звуков. То есть как слышит человек, когда пишет. Ну не будет он писать негативный отзыв в позитивных сочетаниях букв. Даже если он Сергей Лавров.
В ВААЛе используются два подхода - традиционный словарный и "на сочетаниях звуков".
Про традиционный словарный все более-менее понятно.
Про фонетический - это полная лажа, не верьте.
walker добавил 28.03.2008 в 17:49
Да какая уж провокация - реальная проблема. У меня со всего мира идет огромный поток разнообразной информации (и на разных языках), который нужно оценить по тональности и определить, где о событии написали в негативном свете, где в позитиве.
В идеале для быстрого понимания ситуации нужно получать такую оценку для каждого события, а во многих случаях еще и сравнивать мнения в онлайне и оффлайне - часто они противоположные.
Каких все-таки чудес Вы ищете?
Тем более Вы сами хорошо знаете, где надо искать:
http://portal.acm.org/portal.cfm, да и обычный google подойдет
и что:
sentiment analysis (также http://en.wikipedia.org/wiki/Sentiment_analysis)
opinion mining
appraisal theory (также http://en.wikipedia.org/wiki/Appraisal_theory)
emotional response
affective computing
В ВААЛе используются два подхода - традиционный словарный и "на сочетаниях звуков".
Про традиционный словарный все более-менее понятно.
Про фонетический - это полная лажа, не верьте.
Если я правильно понял, то словарный - это традиционный частотный анализ с экспертной оценкой тональности каждого терма? Или что-то более продвинутое вроде лексических цепочек?
Если я правильно понял, то словарный - это традиционный частотный анализ с экспертной оценкой тональности каждого терма? Или что-то более продвинутое вроде лексических цепочек?
Точно не скажу - последнее время не смотрел. Вообще не понимаю, чем лексические цепочки помогут для классификации, особенно, судя по всему, коротких и "рваных" текстов.
Традиционные техники классификации у них неплохие. Беда у них с интерпретациями - слишком сильно на слабых данных.
Я чудес не ищу, а пробую разные варианты.
Это понятно. Изучаю подобные алгоритмы, но русский язык по структуре гораздо сложнее, чем английский, поэтому хотелось узнать, какие исследования в этой области ведутся (если ведутся), кто этим занимается в России (или СНГ) и каковы успехи.
Я чудес не ищу, а пробую разные варианты.
Это понятно. Изучаю подобные алгоритмы, но русский язык по структуре гораздо сложнее, чем английский, поэтому хотелось узнать, какие исследования в этой области ведутся (если ведутся), кто этим занимается в России (или СНГ) и каковы успехи.
Ответ прост - на уровне АСМ - никто.
Была только одна незаконченная работа RCO, которую Вы, судя по всему, знаете.
Вообще не понимаю, чем лексические цепочки помогут для классификации, особенно, судя по всему, коротких и "рваных" текстов.
Если фрагмент текста не слишком маленький, то там должна быть надёжная идентификация. Хотя если статья написана по принципу "сначала у него были угрюмые угри, затем он вымылся Тайд и стал яркий и весёлый", то да - тональность будет зависеть от фрагмента. Но ведь в реальности это и нужно - факт выделяется из какого-то фрагмента статьи.
Не уверен, но подозреваю, что тональность для факта (или личности) может быть определена с точностью до простого предложения, где он (она) упоминается. Не больше, но и не меньше. Сумеют ли Дымшиц с Шалаком сделать надёжную идентификацию? Фиг их знает. Дымшиц вроде умный и дельный мужик.