Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science

Вопрос будущего искалок сложный, но спрогнозировать кое-что можно.

1) В онлайн (то есть web) будет плавно перетекать весь оффлайн (пресса, ТВ, радио) - этот процесс уже начался, и он неотвратим. Уже сегодня множество газет имеет собственный сайт в Интернет, на котором появляется свежий номер, причем зачастую даже раньше, чем в печати. Что касается ТВ и радио, то здесь будут развиваться алгоритмы распознавания речи, которые позволят превратить аудиопоток в текст, обрабатываемый поисковой системой, либо же источники сами будут выкладывать исходные материалы (что в усеченном виде делается уже сейчас).

2) Поисковые системы поменяют подходы к обнаружению новой информации. Сейчас

95% (а то и больше) собранной ими информации - просто мусор или повторы, которые абсолютно бесполезны для пользователей. Поэтому, вероятнее всего, вскоре большое распространение могут получить системы, обладающие всеми поисковыми свойствами, но по-другому обрабатывающими собираемую информацию - интеллектуальные агенты.

В таких системах пользователю нужно будет лишь определить свой круг интересов и машина автоматически будет собирать информацию по нужным темам и исправно снабжать этой информацией человека. Над подобными системами работает множество специалистов по всему миру, а большие поисковики пытаются вводить персонализацию под каждого пользователя.

3) Будет развиваться фактографический поиск, который позволит оперировать фактами, а не документами. В настоящее время поток новостной информации настолько велик, что зачастую даже прочитать все сообщения по теме не представляется возможным, особенно если событие активно обсуждается как в СМИ (официальная точка зрения), так и в блогах (индивидуальное мнение) и форумах (общественное мнение).

Объективное освещение события будет давать такая информационная картинка, которая сможет объединить воедино все факты, тональность их восприятия во всех информационных потоках, и дать общую оценку, что же думают о событии на самом деле.

Фактографический поиск будет опираться на информационный, однако обработка информации будет более интеллектуальной, с использованием знаний о объектах и субъектах, участвующих в событиях (data mining).

Основатели Google вышли в свет с супругами:

Понравилось еще это:

Почитайте алгоритмы поисковых систем, точнее гугла, если Вы внесете в свой анализ дополнительно ранжирование и оценку документа

Да я, в общем, в этой области (IR) уже более 8 лет, и знаю, как это работает у них. Проблема в том, что частотный анализ не годится для тональности - вещь уж больно субъективная.

Поэтому здесь интересны свежие идеи.

На самом деле, не стоит надеяться, да и не нужна 100% (и даже 80%) качество распознавания мнения.

В общем-то, да. Для моих задач важно находить и распознавать кризисные коммуникации, а это очень небольшой (но самый важный) процент информационного потока.

Если же текстов мало - все бесполезно. Но при этом и ценность отдельной оценки сомнительна.

Тексты - это сырье, которое перестало быть проблемой.

Каких все-таки чудес Вы ищете?

Я чудес не ищу, а пробую разные варианты.

http://portal.acm.org/portal.cfm, да и обычный google подойдет

Это понятно. Изучаю подобные алгоритмы, но русский язык по структуре гораздо сложнее, чем английский, поэтому хотелось узнать, какие исследования в этой области ведутся (если ведутся), кто этим занимается в России (или СНГ) и каковы успехи.

walker:
В ВААЛе используются два подхода - традиционный словарный и "на сочетаниях звуков".

Про традиционный словарный все более-менее понятно.

Про фонетический - это полная лажа, не верьте.

Если я правильно понял, то словарный - это традиционный частотный анализ с экспертной оценкой тональности каждого терма? Или что-то более продвинутое вроде лексических цепочек?

Например, пусть есть фраза "некоторая группа лиц создаёт выдающуюся систему смыслового анализа текста". Меняем её чуть: "Миха Кузьмин создаёт выдающуюся систему смыслового анализа текста". Для нас явная ирония, потому что мы знаем, что Миха на другом специализируется.

В целом понятно, что нужно вводить контекст и коллективный опыт, хотя не совсем ясно, как именно это можно заложить в машину. В принципе, можно вычленить отношения объект-субъект-предикат, и попробовать получить такую "обвязку" для каждого объекта - в этом случае из коллекции документов можно выстроить нечто вроде семантического ядра, которое и будет задавать контекст.

Кстати, ВААЛ вроде вполне может сечь тексты в позитивной/негативной тональности. Там же не слова анализируются, а сочетания звуков. То есть как слышит человек, когда пишет. Ну не будет он писать негативный отзыв в позитивных сочетаниях букв. Даже если он Сергей Лавров.

А вот это уже интересно! Спасибо!

Это такая провокация для оживления форума?

Да какая уж провокация - реальная проблема. У меня со всего мира идет огромный поток разнообразной информации (и на разных языках), который нужно оценить по тональности и определить, где о событии написали в негативном свете, где в позитиве.

В идеале для быстрого понимания ситуации нужно получать такую оценку для каждого события, а во многих случаях еще и сравнивать мнения в онлайне и оффлайне - часто они противоположные.

Да, пожалуй почистить надо этот раздел - в основном все не по теме. Я был в самоволке последние полгода, а markony видно не до того.

20 уже достаточно
осталось упорядочнить список докладчиков и программу сделать

Я в субботу улетаю до конца лета в Юрмалу. Жаль, что не сложилось с SEO beer study.

Всего: 847