Зачем говорить, что искалка - это человеко-машинный кентавр? - Поисковые технологии

Будущее IR-систем

Atomic Max · 2003-05-07T14:36:27.0000000Z

Мой вопрос адресован в частности Игорю Ашманову. Я посмотрел некоторые темы на этом форуме и невольно пришёл в выводу, что коммерческие системы достигли своего апогея развития в области лингвистики (по крайней мере, встречались цитаты представителей Yandex-а). К тому же Игорь сказал, в одном из споров, что использование тезаурусов и тому подобных семантических анализов в сетевых ИПС нерентабельно, да и в принципе даже вредно. Буду новичком в этой области, я не могу поспорить с "титанами". Но у меня другой вопрос. С одной стороны ясно: координатный поиск, умная морфология, статистика, учёт структуры и гиперсвязей. Рост объёма массива документов приводит к тому, что на многие запросы выдаются сотни тысяч ответов, и именно расширять запрос пользователю уже не хочется. С другой стороны, этот громадный объём документов позволяет с большей вероятностью найти наиболее релевантный документ по довольно детальному запросу (подготовленный пользователь может многое найти с помощью "тупого" к русскому языку Google), то есть найти как раз нужную информацию (а не документ в общем смысле). В одной из статей И.Ашманов (например, "Информация и знания: невидимая грань") упоминает о такой возможности, как реализация системы поиска фактов из больших массивов или корпусов (там был термин "окно фактов"). Теперь собственно вопрос: кто-нибудь этим серьёзно занимается, или это пока "удел академических кругов"? Что ждёт поисковые системы в будущем? Будут ли они интегрированы с фактологическими (не документальными) системами прямого ответа на вопрос?

66

Ashmanov

14 мая 2003, 09:58

#11

Как писал wolf

Заранее сорри за оффтопик.

Игорь, что ж к нам в Коктебель не заглянули? Мы ж звали всех в гости. Там же от Лисьей бухты рукой подать... Покалякали бы о трудах наших оптимизаторских... 🍻

Да у нас было трое детей и таскать их с собой было непросто. Мы были в Коктебеле пару часов, купили сердоликов с яшмой и поехали обратно.

С уважением, Игорь Ашманов Все для оптимизации (рассылка, сервисы): www.optimization.ru (www.optimization.ru) Сервис по созданию собственных поисковиков: www.flexum.ru (www.flexum.ru)

I

80

iseg

14 мая 2003, 14:32

#12

Как писал Atomic Max
коммерческие системы достигли своего апогея развития в области лингвистики (по крайней мере, встречались цитаты представителей Yandex-а)

Интересно кого?

MG

27

MaxGubin

15 мая 2003, 07:24

#13

Как писал Ashmanov
Дело в том, что такие системы существуют и уже работают. Тот же Ватсон и прочие. Работают с шумом - ну и что? Это же не интернет-искалка.
Я же говорю не о поиске документов, а об анализе совместной встречаемости объектов.

Конечно, есть задачи, где действительно так, но до этого был разговор про поиск, а для него эти технологии не очень применимы, по крайней мере в обозримом будущем.

Мое мнение в свете первого вопроса в данной теме - сетевые ИПС будут плавно улучшать свои характеристики (с маркетинговыми "прорывами"), а поиск фактов, прямых ответов и т.п. если и будет встречаться - то только в узких специализированных областях. Например, некоторые искалки научаться (и уже умеют) "понимать" запросы по поиску товаров и персонам. Но вряд-ли вскоре будут выдавать один сайт с нужным текстом по запросу "лучший реферат по философии для кандидатской" :).

I

80

iseg

15 мая 2003, 11:59

#14

Позвольте, и я немного пооппонирую Игорю.

Я не буду детально обсуждать каждый аргумент, просто приведу несколько важных, и возможно не до конца воспринимаемых аудиторией обстоятельств, ставших более-менее очевидными в последние несколько лет.

1. Социальная сеть, а не коллекция текстов: природа данных + природа интереса.

Живая, активно и агрессивно пополняемая коллекция под нащзванием ВЕБ, в которой есть все и на любой вкус - единственное по настоящему массовое применение поисковых технологий сегодня. Наличие (относительно? качественного) поиска стимулирует как интерес к этой коллекции так и ее пополнение.

Пополнение устроено так, что анализ текста сам по себе не может справиться с поисковыми задачами. Отсюда и разговоры об относительной исчерпанности традиционных IR подходов 20го века. (я датирую конец двадцатого века концом 1998 года)

Социометрия -- понимаемая не просто как грубый анализ линков а гораздо шире: анализ логов, то есть поведения пользователей, анализ посещаемости сайтов, анализ "заимствования" текстов и их фрагментов -- то есть анализ поведения человеческого сообщества -- есть поставщик наиболее продуктивных факторов в ранжировании и кластеризации поиска в ближайшие годы. Просто потому что тут еще как следует не копали. И копать тут еще - не перекопать!

2. Новизна "истинного" опыта использования поисковых систем.

То опыт который мы сейчас наблюдаем: как действия пользователей, так и вебмастеров - единственный реальный источник материалов для обсуждения использования поисковых систем.

Это реальный, а не воображаемый опыт, каковой изучался в 20-м веке, когда "ПОИСКОВЫХ СИСТЕМ В МАССОВОМ ПОЛЬЗОВАНИИ НЕ СУЩЕСТВОВАЛО".

3. Поисковая система - простой и понятный механизм на службе человека.

На основе этого реального опыта, многие, и я в том числе, делают примерно следующий вывод.

Поисковая машина должна быть "глупа" и проста ровно настолько, чтобы ею было просто и понятно пользоваться. Она не может и не должна заменить интеллект человека. По крайней мере в ближайшие XXX лет. Аналогично тому, как от программы Word мы не требуем (пока?) возможности автогенерации текста по двум трем положенным в его основу мыслям.

Сумма действий поисковой системы и человека должны быть максимальной эффективной. Сумма. А не действия поисковой системы само по себе.

Это вовсе не означает, что ИПС не должны быть интеллектуальны. Там должно быть (и реально уже) зашито очень много интеллекта. На наружу его надо подсовывать очень аккуратно, не разрушая ментальную модель поиска.

Противопоставлять data mining (в котором Игорь делает основной акцент на распознавании артефактов) и поиск не вполне корректно. Это все о разном. Простая токенизаци имеет много своих предпочтений, но при этом многие веб-искалки анализируют "фразы", ну и что? Математики над матрицами в веб-искалках тоде много, но она просто не торчит наружу.

По поводу задач, приведенных Игорем. Многие подобные задачи, думаю, прекрасно решаются (и как я пытался объяснить раньше: во многом быстрее и эфективнее) при помощи "простой" поисковой системы - в рамках кубка по поиску за честные три минуты. Совместными усилиями человека и веб-искалки.

С уважением,

Илья

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

80

iseg

15 мая 2003, 12:10

#15

Как писал Ashmanov
Предположим, я хочу сделать отчёт о темперированной частоте упоминания наиболее известных политиков в региональных и центральных СМИ (я видел такой отчёт, сделанный руками за очень хорошие деньги).

Журнал Эксперт. Есть такой. Очень пафосный. По-моему ежемесячно вот уже несколько лет. Публикует этот рейтинг.

Ужасный бестолковый наколеночный бред.

66

Ashmanov

15 мая 2003, 16:28

#16

Ну, Илья, я и не говорил ничего плохого про обычные искалки, а отвечал на изначальный вопрос про окно фактов - см. первое сообщение. Это вы зачем-то противопоставляете и спорите, а я, в общем не против полнотекстовых искалок, я их сам всю жизнь делал.

А то, что не все такие задачи решаются именно искалками типа Гугля/Я/Р..., да ещё за три минуты, это очевидно.

Как всё-таки составить упомянутый выше отчёт о сравнительной упоминаемости тридцати основных политических фигур в СМИ различных категорий, с временной шкалой?

Это не умозрительная задача - я видел такие отчёты, за них платят реальные деньги, потом над ними медитируют и стараются сделать какие-то выводы для себя. И таких задач много.

Например, поиск новых тем. Не каких-то известных и явно представленных в сети, пусть и запутанных нарочно сведений или ситуаций, как в кубке по поиску, а только что появившихся. Вот, например, SARS. Или ранее не существовавший мифично-эпический Б.Л.Усамов со своей присной Аль Каидой. Или неожиданно выявившаяся, но сразу всем сторонникам прогресса очевидная, полная, 100% подлючесть Саудовской Аравии - следующего кандидата на избиение.

Вот тема появилась, быстро стала актуальной, её нужно бы автоматически детектировать, локализовать, проследить, составить дайжест и так далее. Да, кстати, и угасание темы - тоже факт многозначительный, тоже стоит проанализировать.

Ну как тут Яндекс запустишь - в пакетном режиме по многим запросам? Роботов заметят и не пустят, знаем-знаем.

А результаты как сводить, кто составит дайджест, как получить статистику и распределение упоминаний?

Временная компонента, совместная встречаемость, вложение тем, сложные объекты с многими реализациями в тексте - не обрабатываются искалками.

Да, деятельность актёров Интернет-сцены - вебмастеров и пользователй интересна, оставляет след в логах Яндекса, но это всего лишь один узкий аспект происходящего в реальном мире, за чем можно следить с помощью текстов. Ведь также можно записывать и анализировать те же частоты и объекты по передачам ТВ, радио и тоже делать выводы.

Так что искалки, хоть и занимают большую часть нашей жизни, а в некоторые периоды и 100% мыслей и действий, как у некоторых из нас, всё-таки не решают всех проблем с текстами и извлечением фактов из них.

Ну, а что искалка - это человеко-машинный кентавр, кто ж спорит. Как, впрочем, и телевизор, автомобиль, компьютер, лопата.

Вопрос в том, что кентавры могут быть разных пород. Например, аналитическая искалка с фиксированной или медленно пополняемой коллекцией, сложным анализом, долгими итеративными поисками-навигациями, сохранением результатов и теоретико-множественными операциями над ними вполне находит своего потребителя и далека от веб-искалки.

Вот например, типовая реализация такой ИС, дающая годовой оборот значительно, на порядок больше Яндекса+Рамблера+Апорта - Консультант+ или Гарант.

Ну, возьмём и прикрутим Яндекс к правовой базе данных - и что? Никому не нужно. Простой поиск там давно есть, а нужен совсем иной. Нужен аналитический сервис, который и продаёт Консультант+ (там кстати, на самом деле оборот на два порядка больше всех веб-искалок в той же самой России).

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

66

Ashmanov

15 мая 2003, 16:38

#17

Как писал iseg

Журнал Эксперт. Есть такой. Очень пафосный. По-моему ежемесячно вот уже несколько лет. Публикует этот рейтинг.
Ужасный бестолковый наколеночный бред.

Ну, я же не его имею в виду. За него никто бы денег не заплатил, видимо, потому его и публикуют бесплатно. Хотя кто-то и на него, наверно, ссылается.

А вот за отчёты более "солидные" сейчас начнут башлять просто круглосуточно, с приближением выборов. Даже если для тебя и такие, коммерческие, отчёты будут выглядеть как бред, не значит, что это людям не нужно. А Яндекс ведь этого не заменяет.

В Яндексе нет архива всей периодики, например.

Многим людям нужны агрегированные данные, с этим ничего не поделаешь. Техно-гики в среднем не работают в политологических структурах.

Положа руку на сердце, нужно сказать, что Яндекс таки даёт данные для гиков - сырые данные и притом очень плохо, технически оформленные, неустойчивые, да и не по периодике, а по Интернету. По понятным причинам, с понятными ограничениями, для понятной аудитории, но что с того?

Задачи разные, зачем говорить, что простая искалка их все решает?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

AM

1

Atomic Max

15 мая 2003, 17:15

#18

iseg:

как писал Илья

как писал я
...коммерческие системы достигли своего апогея развития в области лингвистики (по крайней мере, встречались цитаты представителей Yandex-а)

Интересно кого?

:) Ну, я имел в виду цитату от AiK в нитке к вопросу об открытии алгоритма яндексации

как писал AiK
Кроме того, почитайте интервью с представителями Яндекса (для представителей Яндекса - я имею ввиду в основном Воложа) - где открытым текстом, где завуалированно они говорят что мы крутые и улучшаться нам не надо, ну разве что чуть-чуть.

257

AiK

16 мая 2003, 00:31

#19

Ну, я имел в виду цитату от AiK в нитке

Во-первых, с момента того поста уж больно много воды утекло.

А во-вторых, Яндекс тогда жил в основном за счёт инвесторов и, полагаю, что Аркадий и под дулом автомата не признался бы, что темпы роста качества поиска будут всегда отсавать от темпов роста объёма информации. Т.е. прикрутили к поиску новую фишку, прошло пол-года -год - и всё преимущество от её введения сошло на нет. И даже SEO мастеров тут можно не приплетать: то, что они портят картину мира поисковикам - капля в море, по сравнению с тем мусором, который ежесекундно появляется на просторах Рунета. Почти без смайлов :).

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

MG

27

MaxGubin

16 мая 2003, 10:50

#20

Как писал Ashmanov
Ну, возьмём и прикрутим Яндекс к правовой базе данных - и что? Никому не нужно. Простой поиск там давно есть, а нужен совсем иной. Нужен аналитический сервис, который и продаёт Консультант+ (там кстати, на самом деле оборот на два порядка больше всех веб-искалок в той же самой России).

Неудачный пример. В отличии от интернет, где информации есть и проблема ее найти, в правовых системах основная фишка - наложить туда информацию. Пользователь ищет в основном как в обычных базах данных - по точным атрибутам документа. Поэтому и Гарант и К+ имеют средства поиска максимум найти слова по маске в пределах абзаца. То есть средств аналитической работы в разрезе IR нет вообще.

Страницы в индексе, но AdWords позволил подстраивать объявления Google о защите личных

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Курс биткоина превысил $50 тысяч

Будущее IR-систем