Зачем обеднять сервис пусть даже на 0,01 запросов - Поисковые технологии

Будущее IR-систем

Atomic Max · 2003-05-07T14:36:27.0000000Z

Мой вопрос адресован в частности Игорю Ашманову. Я посмотрел некоторые темы на этом форуме и невольно пришёл в выводу, что коммерческие системы достигли своего апогея развития в области лингвистики (по крайней мере, встречались цитаты представителей Yandex-а). К тому же Игорь сказал, в одном из споров, что использование тезаурусов и тому подобных семантических анализов в сетевых ИПС нерентабельно, да и в принципе даже вредно. Буду новичком в этой области, я не могу поспорить с "титанами". Но у меня другой вопрос. С одной стороны ясно: координатный поиск, умная морфология, статистика, учёт структуры и гиперсвязей. Рост объёма массива документов приводит к тому, что на многие запросы выдаются сотни тысяч ответов, и именно расширять запрос пользователю уже не хочется. С другой стороны, этот громадный объём документов позволяет с большей вероятностью найти наиболее релевантный документ по довольно детальному запросу (подготовленный пользователь может многое найти с помощью "тупого" к русскому языку Google), то есть найти как раз нужную информацию (а не документ в общем смысле). В одной из статей И.Ашманов (например, "Информация и знания: невидимая грань") упоминает о такой возможности, как реализация системы поиска фактов из больших массивов или корпусов (там был термин "окно фактов"). Теперь собственно вопрос: кто-нибудь этим серьёзно занимается, или это пока "удел академических кругов"? Что ждёт поисковые системы в будущем? Будут ли они интегрированы с фактологическими (не документальными) системами прямого ответа на вопрос?

66

Ashmanov

16 мая 2003, 14:22

#21

А вот Консультант плюс, думаю, считает, что пример таки удачный.

Они тщательно готовят данные (сотни тысяч многоязычных документов), обеспечивают максимальную актуальность их, продают аналитический сервис над ними и продают успешно, более чем на 100 млн. евро в год - в чём же здесь неудача?

Я не знаю, какой у Вас опыт работы с правовыми базами данных, а вот мы в настоящий момент мучительно долизываем оболочку такой базы для крупного заказчика.

Так вот, аналитических средств там полно, только они - не в рамках полнотекстового поискового движка. Об этом я и как раз говорю.

А почему они должны быть внутри него? Боюсь, интернет-искалки вам слегка застят здесь горизонт, а на них свет клином не сошёлся.

Например, одно из самых важных свойств правовой базы данных - связь с предыдущими редакциями документа. Потому что, например, некоторые законы выходят в виде этаких макрокоманд на "гиперссылках" - "пункт такой-то параграфа такого-то читать в следующей редакции...". И нужно сделать все "провязки", причём когда - заранее, а когда и динамически. Нужно иметь теоретико-множественные операции над коллекциями документов и так далее. Поиск там не только по атрибутам, а смешанный, да и атрибуты сами довольно расплывчатые.

В том-то и дело, что задача, подобная задаче поиска Яндекса или Рамблера - узкая, годная для Интернета. А вообще задач поиска - полно.

Вот Вам другой пример - двуязычный словарь. Думаете, там простой поиск? Ошибётесь.

Зайдите на раздел Словари на Рамблере или купите словарь МультиЛекс на диске и посмотрите, как ищется набор переводов и как он ранжируется. Алгоритм ранжирования там разный, но в обоих случаях довольно сложный, выверенный, учитывает и длину перевода, и вес исходного слова в заголовке, и форму его, и положение в заголовке, и количество примеров в статье и так далее. А типов полей в словарной статье больше ста двадцати! В МультиЛексе особенно изощрённое ранжирование.

А поиск замены в ОРФО (проверка правописания в Word), а поиск и ранжирование букв и целых слов при распознавании текста в Finereader?

Там вот данные - динамические, и ранжирование - целая наука. Только другая.

А насчёт того, что в Интернете информации есть - это иллюзия. Там много дряни и неполных данных. В этом - проблема!

А вот полного архива периодики нет, нет нормальных баз данных адресов или они платные, нет нормальных библиотек - библиотека Мошкова сильно неполна и кренится в сторону фэнтези, нет баз данных по людям, нет нормальных карт - только кривые и медленные (и Яндексу они вообще недоступны) и так далее. Нет сколько-нибудь полных описаний, картинок и ТТХ товаров. Нет нормальных энциклопедий, точнее парочка есть (Рубрикон, Британника), но большинству искалок они недоступны, а если и доступны (как в Яндекс-энциклопедиях), то ищется через них - плохо, потому что тут нужен именно словарный поиск (учитывающий поля и связи статей), а не интернетовский!

Про Deep Web слышали? В "скрытом Интернете" вроде бы в 500 раз больше информации, но интернет-искалки её не могут видеть...

Зато полно конференций, блогов, прочей рыхлой, грубой, сырой, неграмотной ерунды.

Интернетчики просто привыкли рыться в мусоре, Рамблер/Яндекс с Гуглом слегка помогают в этом, вот все и рады донельзя.

С уважением, Игорь Ашманов Все для оптимизации (рассылка, сервисы): www.optimization.ru (www.optimization.ru) Сервис по созданию собственных поисковиков: www.flexum.ru (www.flexum.ru)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

AM

1

Atomic Max

16 мая 2003, 15:31

#22

Спасибо всем выступающим! В продолжение темы возник следующий подвопрос по отечественным искалкам.

Проводя поиск в сети, пользователи (в основном) исповедуют технику предметного поиска, то есть составляют запросы, содержащие в основном именные группы. Зачем сетевому поисковику хранить в индексе координаты глаголов, а следовательно разрешать омонимию или гипотезы для незнакомых слов в сторону глаголов (в качестве примера уже упоминавщийся в других нитках запрос "день")? Или я заблуждаюсь насчёт "предметности" типовых поисковых запросов?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол UXUkraine 2011: доклад Дэйва

66

Ashmanov

16 мая 2003, 18:29

#23

А самое важное слово "купить" забыли?

Не говоря уже об "отрмонтировать", "обменять", пр. В Яндекс-директе можно позадавать запросы из глаголов и посмотреть частотность. В общем, все глаголы просто по признаку речи выбросить нельзя. Заметим, что есть ещё названия литературных произведений.

Есть общий факт: Яндекс, Рамблер, Гугл и прочие (но не Апорт, скажем) дали "клятву полноты". Из этого вытекает большая часть лучших и худших свойств и все проблемы этих искалок.

Найдётся все.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

130

spark

17 мая 2003, 08:10

#24

Или я заблуждаюсь насчёт "предметности" типовых поисковых запросов?

А самое важное слово "купить" забыли?

купить 263949

скачать 1251531

но в основном Атомный Макс прав. Кроме нескольких инфинитивов глаголы используются только для поиска по точной цитате и на кубках Яндекса. Естественно ИМХО.

Игорь, насколько я понимаю, то что вы сейчас пропагандируете уже реализовано по отдельности Галактикой- ЗУМ в одном случае (поиск по фактам) и по крайней мере двумя киевскими разработчиками (мониторинг новостных серверов)uaport и finport. Смешно,но киевские проекты тоже под выборы делались.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

AA

70

AlexA

17 мая 2003, 10:41

#25

Ашманов: Зато полно конференций, блогов, прочей рыхлой, грубой, сырой, неграмотной ерунды.

Мы со своим Зумом давно точим зубы на этот массив данных. Мне кажется, что именно в этой ерунде можно и найти новые факты, и провести социометрию, гораздо более разумную, чем "индекс цитируемости" в Эксперте-НЭБ.

Думаю, в рамках одного из наших госпроектов ближе к концу года мы это реализуем.

Кроме нескольких инфинитивов глаголы используются только для поиска по точной цитате

Что касается координат глаголов, то экономить на спичках здесь смысла особого нет. Зачем обеднять сервис пусть даже на 0,01% запросов? Все поисковики и от стоп-словаря, наконец-то, отказались. Везде можно теперь найти "быть или не быть".[

С уважением, Антонов Александр.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

AM

1

Atomic Max

17 мая 2003, 15:31

#26

Игорь:
А самое важное слово "купить" забыли?

Нет, не забыл :) На самом деле этим утверждением вы ответили на мой вопрос о предметности.

Значит, действительно, поисковики приучили продвинутых пользователей искать не информацию, а слова.

То есть вместо того, чтобы спрашивать о "продаже отечественных авто" или "продаже книг о программировании", пользователь вынужден в большинстве систем просить "купить книга программирование С Си С Си++" или "купить автомобиль ВАЗ ГАЗ НИВА"?

AlexA:
Что касается координат глаголов, то экономить на спичках здесь смысла особого нет.

В принципе, согласен с вами. Но в целом --- не могу. Если пользователь просит "to be or not to be", то пусть поисковик найдёт либо полное совпадение, либо воспользуется стоп-словарём, если в запросе всё-таки были нагруженные термины. По крайней мере, находить фразы "to was or not to was" (или просто "to be or") мне кажется бессмысленным. Сюда напрашивается база об устойчивых словосочетаниях, куда бы входили и географические названия, и фильмы, и книги, и т.д. и т.п. Но Игорь в другой нитке уже высказывался на эту тему в духе, что держать (и главное, поддерживать) словарь на десятки миллионов словосочетаний пока никто не хочет.

Может быть, действительно нельзя отказываться от сложного поискового языка запросов, если не реализовывать некоторый диалог-настройку поисковой системы под пользователя?

Компания Amazon.com запустила книжный Джон Мюллер рассказал о Владимир Офицеров: «Если вы

M

31

mathematician

17 мая 2003, 21:45

#27

В другом треде я уже спрашивал мнения специалистов по IR, но повторю его еще раз - видите ли вы перспективы в квазиреляционном представлении WWW и в использовании языков, иммитирующих SQL (WebSQL и прочие)?

ІТ-Аналітика (http://it.ridne.net) - аналітичні матеріали світу інформаційних технологій

66

Ashmanov

18 мая 2003, 15:52

#28

Заметим, что использование глаголов - вовсе не всегда есть неуклюжая привычка пользователя к искусственному назывному языку запросов. Часто это тот самый сакраментальный запрос на естественном языке.

Лично я, вводя "купить цифровую камеру", ровно это и имею в виду.

Я, правда, избалован применением поисковиков с естественно-языковым запросом, но сейчас и Рамблер, и Яндекс вполне справляются с такой конструкцией. Кроме того на сайте также может встретиться именно это предложение - например, что-то вроде "чтобы купить камеру - нажмите сюда". В любом случае "купить" есть на сайтах во множестве именно глагольных конструкций.

Например, на сайте Киноафиша.ру при описаниях фильма есть ссылки типа "Где смотреть".

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

N

14

Nita

18 мая 2003, 18:07

#29

Searches done in April 2003

Count Search Term :

1148896 digital camera

6244 buy digital camera

Разница существенная, не правда ли ?

Но раз такие запросы существуют, то нельзя упускать их из виду.

66

Ashmanov

18 мая 2003, 19:33

#30

Рассуждение некорректное - словосочетание из любых трёх слов всегда на порядки менее частотно, чем из двух, причём неважно, как считается частота - по вхождениям на сайтах или по запросам. Закон Ципфа в разных своих проявлениях.

Как на самом деле добавление ещё одного слова смещает кликабельность, количество покупок - судить трудно. Замечу при этом, что интересно было бы посчитать эффективность по покупкам, потому что соотношение здесь уже не ципфовское, так как учитывает готовность к покупке и может резко измениться в пользу более конкретного запроса, только непонятно, как это сделать.

Ещё одно замечание к слову - например, словосочетание "куплю цифровую камеру" вообще по сути нельзя заменить общим сочетанием "цифровая камера", потому что его могут искать продавцы подержанных камер, а не покупатели. То есть это может быть попыткой найти объявления с данной фразой, а не естественно-языковым запросом.

Таким образом, я бы сказал, что общее словосочетание зачастую распадается на совершеннно семантически независимые кластеры запросов - или пользователей (куплю ц.к., купить ц.к., прочие), внутри которых эффективность для конкретных длинных запросов может быть существенно выше.

Можно предположить, что при задании общего запроса из одного или двух слов (по неграмотности или лени) эти кластеры пользователей роются в общей выдаче - каждый в поисках своего кластера результатов - пока наконец не сообразят дать более длинный запрос. А уж какой - тут как Бог даст.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Будущее IR-систем