Поиск по нескольким словам

12
T
На сайте с 15.04.2003
Offline
36
3073

Не могу придумать эффективный алгоритм поиска по нескольим словам с учетом релевантности

Исходные данные:

Есть таблица:

wordid, amount, articleid

где amount -- это некоторая норма релевантности слова документу

Задача -- нужно предложить быстрый и нересурсоемкий алгоритм для поиска по нескольким словам

Он должен выдавать документы наиболее релевантные одновременно двум словам а не по отдельности

Наиболее подходящей нормой общей релевантности на мой взгляд является минимум из релевантностей всех слов но подойдет мне кажется и любая мера построенная на выпуклой вверх функции например: log(amount1) + log(amount2) + ... + log(amountN)

Подскажите пожалуйста как это делается по уму???

А то мои алгоритмы очень медленно работают

Григорий Селезнев
На сайте с 25.09.2001
Offline
298
#1

amount в каких рамках? условия поиска - "и" или "или" ?

например, если amount от 0 до 1 и условие "и", то можно посмотреть amount1*amount2*amount3*...*amountN / (k^N) , где k - некий коэффициент, ...

P.S. для качества лучше "релевантность" по документу от всего запроса, т.е. и растояние между словами считать, а это уже не функция от amountN ...

T
На сайте с 15.04.2003
Offline
36
#2

А зачем еще делить?????

Норм наверное можно придумать множество

Мне интересен сам алгоритм выемки сортировки и прочее

I
На сайте с 15.12.2000
Offline
80
#3

Самый полный набор формул на любой вкус (от любителей теорвера до законченных детерминистов) в книжечке Modern IR.

Она на амазоне недорогая (юзанная от $32, новая - $50).

Перепечатывать формулы влом. Сорри.

T
На сайте с 15.04.2003
Offline
36
#4

Еще раз пофторяю что очень интересен сам алгоритм а не формулы

Григорий Селезнев
На сайте с 25.09.2001
Offline
298
#5

а по адресу ли?

T
На сайте с 15.04.2003
Offline
36
#6

Не знаю

В других тредах иногда люди косвенно дают понять что вроде как что то понимают в таких алгоритмах

VT
На сайте с 27.01.2001
Offline
130
#7

Можно посмотреть Search and Ranking Algorithms for Locating Resources on the World Wide Web, здесь на уровне идеи рассмотрены базовые алгоритмы ранжирования, применяемые в сети.

Поисковые стратегии неплохо описаны в Information Retrieval by C. J. van RIJSBERGEN (книге 1979 года), разделе 5.

Там же можно посмотреть все формулы из теории вероятностей.

А вообще читайте труды Сэлтона.

spark
На сайте с 24.01.2001
Offline
130
#8

Слава, а что ты сам думаешь насчет "иерархически соотносящихся ключевых слов" этого ван рийсбергена?

у меня сечас похожая задача крутится. Скажем, я ищу множество документов по предмету, в котором не разбираюсь. Скажем, по экологии. Выборку мне надо корректную сделать на 200к словоупотреблений.

Для меня понятно, что поиск в лоб по "экология" вернет в основном нерелевантные страницы. Нужно искать по этим самым "иерархически соотносящимся терминам". Можно ли их как-либо получить из множества документов, которые выдаются на запрос "экология" без словаря?

Понятно, что нормальный путь - просто взять словарь соответствующий, чем я и занимаюсь. Но можно ли обойтись без него. Если да, то - как?

AA
На сайте с 16.04.2001
Offline
70
#9

Вот что дает наш "альтернативный словарям" Зум на запрос "экология". Привожу начало списка слов с весами. Если интересно, могу выслать более полный список слов и словосочетаний.

ОТХОД 16,1

НАУКА 13,2

ЗАГРЯЗНЕНИЕ 12,3

ЭКОЛОГ 11,1

ПРИРОДООХРАННЫЙ 10,9

ОКРУЖАТЬ 10,2

ВЫБРОС 10

НАУЧНЫЙ 8,99

ПРИРОДОПОЛЬЗОВАНИЕ 6,62

ЭКОЛОГИЧЕСКИ 5,88

ВЕЩЕСТВО 4,94

ВРЕДНЫЙ 4,93

РАЗРАБОТКА 4,92

ОЧИСТКА 4,67

ЯДЕРНЫЙ 4,5

ПЕРЕРАБОТКА 4,13

С уважением, Антонов Александр.
spark
На сайте с 24.01.2001
Offline
130
#10

Что Галактика-ЗУМ приличная искалка я помню :)Ей бы базу побольшше наскрести :) Это по подшивке газет поиск был, или по большей базе?

Насчет интереса - интересно, конечно. Хотя вряд ли пригодится, потому как я украинские тексты обрабатываю. И ищу, блин 😡

Хотя может соображу чего-нибудь по аналогии. Буду признателен за тексты.

Кстати, интересно, как зум работает. Это с семантическими расстояниями как-то связано?

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий