Будущее IR-систем

MG
На сайте с 18.10.2002
Offline
27
#41
Как писал Nita


227042 web site design
7290 web site design company
5098 site design

IMHO пример из Google? Тогда пример не корректный, т.к. если вы ввели web site, то он будет искать и website и web-site. То есть с точки зрения отдельных слов web site design не является дополнением слова к запросу site design, а является усечением на часто используемый в данной области термином.

Так что я согласен с Игорем, и экспериментальные данные это подтверждают. Особенно если учесть, что большинство искалок все-таки рассматривают bag-of-words модель документа и как таковых словосочетаний не выделяют.

I
На сайте с 15.12.2000
Offline
80
#42
Как писал spark
Кроме нескольких инфинитивов глаголы используются только для поиска по точной цитате и на кубках Яндекса

Все идем на dzen. И смотрим:

[Вот как это сделала блестящая художница Ольга Левенок]

[басист ищет группу]

[скачать драйвер для телефона]

[что надо сделать чтобы прорвало нарыв]

Еще? Или хватит?

I
На сайте с 15.12.2000
Offline
80
#43
Как писал Ashmanov
Я не знаю, какой у Вас опыт работы с правовыми базами данных

Вообще-то Макс делает Кодекс уже много лет. Ты конечно знаешь, что это такое. :)

не в рамках полнотекстового поискового движка

Очень трудно провести эти рамки. Порой.

Например, одно из самых важных свойств правовой базы данных - связь с предыдущими редакциями документа

Turtle анонсировал в свое время отслеживание процента изменения документов.

На последнем WWW в работе Манасси и Бродера показано как это делать экономно и корректно.

Нужно иметь теоретико-множественные операции над коллекциями документов и так далее. Поиск там не только по атрибутам, а смешанный, да и атрибуты сами довольно расплывчатые.

Это-то как раз несложно. И большинство поисков out-of-the-box это делают очень неплохо.

Вот Вам другой пример - двуязычный словарь

А поиск по whitepages? А поиск по yellow pages? А поиск по энциклопедиям, картинкам, товарам, в конце концов?

Ты думаешь там нет кучи эвристик по ранжированию, спец. предобработке данных

и т.д. и т.п.

А насчёт того, что в Интернете информации есть - это иллюзия. Там много дряни и неполных данных. В этом - проблема!

Зато там есть жизнь. Она конечно "дрянь". Но живая. :)

Нет нормальных энциклопедий, точнее парочка есть (Рубрикон, Британника), но большинству искалок они недоступны, а если и доступны (как в Яндекс-энциклопедиях), то ищется через них - плохо, потому что тут нужен именно словарный поиск (учитывающий поля и связи статей), а не интернетовский!

Там нужен нормальный поиск с грамотным ранжированием. Аккуратно настроенным под данные и выверенным. Именно такой мы и пытались делать. Тоже самое относится и к нашей работе над поиском в Lingvo.

Сравните поиск у нас и в Рубриконе. У нас и в Аббии.

Про Deep Web слышали? В "скрытом Интернете" вроде бы в 500 раз больше информации, но интернет-искалки её не могут видеть...

Опять же - на последнем WWW - приз за лучший постер получил Turbo10. Поиск в Deep Web.

Зато полно конференций, блогов, прочей рыхлой, грубой, сырой, неграмотной ерунды.

Во-первых, блоги блогам рознь. Некоторые очень даже ничего. Во-вторых, в них часто есть RSS - очень чистый формат.

Рамблер/Яндекс с Гуглом слегка помогают в этом, вот все и рады донельзя.

Дело не в радости. Поиск в сетке (той, которая "социальная") - это кусок нашей общей жизни.

В отличии от поисков в спец. коллекциях, которые нужны спец. людям, в спец. случаях.

С уважением,

Илья

Ashmanov
На сайте с 21.11.2000
Offline
66
#44

Ты прав, Илья.

Вижу, что Интернет тебе нравится и ты в нём с удовольствием копаешься. Ну и хорошо.

Просто поисковая машина - это, на мой взгляд, фаст-фуд.

Он тоже нужен людям - люди бегают по улицам, выбегают на полчаса из офисов, нагуливают аппетит в парках и на горнолыжных горках, что-то же им нужно поесть. Это жизнь.

Более того, рестораны этого заменить не могут. Ну не пойдёт семья, запускавшая змея на Воробьёвых горах, в помпезный ресторан.

А пойдёт в МакДональдс.

Кстати, не замечали, что в МакДональдсах - очень неудобные стулья, всегда. Это для того, чтобы не задерживались, не рассиживались. В частности, поэтому и пиво там не дают. Вот в Ростиксе дают и народ торчит там заметно дольше.

Чем-то это мне смутно напоминает твою концепцию о том, что есть упрощённая и совершенно особая модель поиска в голове пользователя и главное - её не стряхнуть.

Быстренько дал слово, нашёл что-то, дал ещё слово-два (не дай Бог три), нашёл, посмотрел. Три раза не вышло найти - убежал. Главное - не заморачиваться, трясти быстрей.

Я не спорю с тем, что такая модель - реальна. Я просто хочу сказать, что да, фаст-фуд - это кусок жизни, он заводной, живой, пахучий, массовый, адреналиновый, но бывают и рестораны, и домашнее питание. Это для спецслучаев, наверно. Но их много, денег там тоже много и так далее.

С уважением, Игорь Ашманов Все для оптимизации (рассылка, сервисы): www.optimization.ru (www.optimization.ru) Сервис по созданию собственных поисковиков: www.flexum.ru (www.flexum.ru)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий