Вопрос будущего искалок сложный, но спрогнозировать кое-что можно.
1) В онлайн (то есть web) будет плавно перетекать весь оффлайн (пресса, ТВ, радио) - этот процесс уже начался, и он неотвратим. Уже сегодня множество газет имеет собственный сайт в Интернет, на котором появляется свежий номер, причем зачастую даже раньше, чем в печати. Что касается ТВ и радио, то здесь будут развиваться алгоритмы распознавания речи, которые позволят превратить аудиопоток в текст, обрабатываемый поисковой системой, либо же источники сами будут выкладывать исходные материалы (что в усеченном виде делается уже сейчас).
2) Поисковые системы поменяют подходы к обнаружению новой информации. Сейчас
95% (а то и больше) собранной ими информации - просто мусор или повторы, которые абсолютно бесполезны для пользователей. Поэтому, вероятнее всего, вскоре большое распространение могут получить системы, обладающие всеми поисковыми свойствами, но по-другому обрабатывающими собираемую информацию - интеллектуальные агенты.
В таких системах пользователю нужно будет лишь определить свой круг интересов и машина автоматически будет собирать информацию по нужным темам и исправно снабжать этой информацией человека. Над подобными системами работает множество специалистов по всему миру, а большие поисковики пытаются вводить персонализацию под каждого пользователя.
3) Будет развиваться фактографический поиск, который позволит оперировать фактами, а не документами. В настоящее время поток новостной информации настолько велик, что зачастую даже прочитать все сообщения по теме не представляется возможным, особенно если событие активно обсуждается как в СМИ (официальная точка зрения), так и в блогах (индивидуальное мнение) и форумах (общественное мнение).
Объективное освещение события будет давать такая информационная картинка, которая сможет объединить воедино все факты, тональность их восприятия во всех информационных потоках, и дать общую оценку, что же думают о событии на самом деле.
Фактографический поиск будет опираться на информационный, однако обработка информации будет более интеллектуальной, с использованием знаний о объектах и субъектах, участвующих в событиях (data mining).
Основатели Google вышли в свет с супругами:
Понравилось еще это:
Да я, в общем, в этой области (IR) уже более 8 лет, и знаю, как это работает у них. Проблема в том, что частотный анализ не годится для тональности - вещь уж больно субъективная.
Поэтому здесь интересны свежие идеи.
В общем-то, да. Для моих задач важно находить и распознавать кризисные коммуникации, а это очень небольшой (но самый важный) процент информационного потока.
Тексты - это сырье, которое перестало быть проблемой.
Я чудес не ищу, а пробую разные варианты.
Это понятно. Изучаю подобные алгоритмы, но русский язык по структуре гораздо сложнее, чем английский, поэтому хотелось узнать, какие исследования в этой области ведутся (если ведутся), кто этим занимается в России (или СНГ) и каковы успехи.
Если я правильно понял, то словарный - это традиционный частотный анализ с экспертной оценкой тональности каждого терма? Или что-то более продвинутое вроде лексических цепочек?
В целом понятно, что нужно вводить контекст и коллективный опыт, хотя не совсем ясно, как именно это можно заложить в машину. В принципе, можно вычленить отношения объект-субъект-предикат, и попробовать получить такую "обвязку" для каждого объекта - в этом случае из коллекции документов можно выстроить нечто вроде семантического ядра, которое и будет задавать контекст.
А вот это уже интересно! Спасибо!
Да какая уж провокация - реальная проблема. У меня со всего мира идет огромный поток разнообразной информации (и на разных языках), который нужно оценить по тональности и определить, где о событии написали в негативном свете, где в позитиве.
В идеале для быстрого понимания ситуации нужно получать такую оценку для каждого события, а во многих случаях еще и сравнивать мнения в онлайне и оффлайне - часто они противоположные.
Да, пожалуй почистить надо этот раздел - в основном все не по теме. Я был в самоволке последние полгода, а markony видно не до того.
Я в субботу улетаю до конца лета в Юрмалу. Жаль, что не сложилось с SEO beer study.