Поиск по нескольким словам

T

36

trink

29 апреля 2003, 12:08

3092

Не могу придумать эффективный алгоритм поиска по нескольим словам с учетом релевантности

Исходные данные:

Есть таблица:

wordid, amount, articleid

где amount -- это некоторая норма релевантности слова документу

Задача -- нужно предложить быстрый и нересурсоемкий алгоритм для поиска по нескольким словам

Он должен выдавать документы наиболее релевантные одновременно двум словам а не по отдельности

Наиболее подходящей нормой общей релевантности на мой взгляд является минимум из релевантностей всех слов но подойдет мне кажется и любая мера построенная на выпуклой вверх функции например: log(amount1) + log(amount2) + ... + log(amountN)

Подскажите пожалуйста как это делается по уму???

А то мои алгоритмы очень медленно работают

298

Григорий Селезнев

29 апреля 2003, 15:35

#1

amount в каких рамках? условия поиска - "и" или "или" ?

например, если amount от 0 до 1 и условие "и", то можно посмотреть amount1*amount2*amount3*...*amountN / (k^N) , где k - некий коэффициент, ...

P.S. для качества лучше "релевантность" по документу от всего запроса, т.е. и растояние между словами считать, а это уже не функция от amountN ...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

T

36

trink

29 апреля 2003, 16:43

#2

А зачем еще делить?????

Норм наверное можно придумать множество

Мне интересен сам алгоритм выемки сортировки и прочее

I

80

iseg

1 мая 2003, 10:09

#3

Самый полный набор формул на любой вкус (от любителей теорвера до законченных детерминистов) в книжечке Modern IR.

Она на амазоне недорогая (юзанная от $32, новая - $50).

Перепечатывать формулы влом. Сорри.

T

36

trink

6 мая 2003, 12:41

#4

Еще раз пофторяю что очень интересен сам алгоритм а не формулы

298

Григорий Селезнев

6 мая 2003, 19:12

#5

а по адресу ли?

T

36

trink

7 мая 2003, 15:40

#6

Не знаю

В других тредах иногда люди косвенно дают понять что вроде как что то понимают в таких алгоритмах

VT

130

Vyacheslav Tikhonov

7 мая 2003, 21:43

#7

Можно посмотреть Search and Ranking Algorithms for Locating Resources on the World Wide Web, здесь на уровне идеи рассмотрены базовые алгоритмы ранжирования, применяемые в сети.

Поисковые стратегии неплохо описаны в Information Retrieval by C. J. van RIJSBERGEN (книге 1979 года), разделе 5.

Там же можно посмотреть все формулы из теории вероятностей.

А вообще читайте труды Сэлтона.

eTarget 2011:Панельная дискуссия «Стратегия UXUkraine 2011: доклад Дэйва Отчет о конференции User

130

spark

16 мая 2003, 05:49

#8

Слава, а что ты сам думаешь насчет "иерархически соотносящихся ключевых слов" этого ван рийсбергена?

у меня сечас похожая задача крутится. Скажем, я ищу множество документов по предмету, в котором не разбираюсь. Скажем, по экологии. Выборку мне надо корректную сделать на 200к словоупотреблений.

Для меня понятно, что поиск в лоб по "экология" вернет в основном нерелевантные страницы. Нужно искать по этим самым "иерархически соотносящимся терминам". Можно ли их как-либо получить из множества документов, которые выдаются на запрос "экология" без словаря?

Понятно, что нормальный путь - просто взять словарь соответствующий, чем я и занимаюсь. Но можно ли обойтись без него. Если да, то - как?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

AA

70

AlexA

16 мая 2003, 12:28

#9

Вот что дает наш "альтернативный словарям" Зум на запрос "экология". Привожу начало списка слов с весами. Если интересно, могу выслать более полный список слов и словосочетаний.

ОТХОД 16,1

НАУКА 13,2

ЗАГРЯЗНЕНИЕ 12,3

ЭКОЛОГ 11,1

ПРИРОДООХРАННЫЙ 10,9

ОКРУЖАТЬ 10,2

ВЫБРОС 10

НАУЧНЫЙ 8,99

ПРИРОДОПОЛЬЗОВАНИЕ 6,62

ЭКОЛОГИЧЕСКИ 5,88

ВЕЩЕСТВО 4,94

ВРЕДНЫЙ 4,93

РАЗРАБОТКА 4,92

ОЧИСТКА 4,67

ЯДЕРНЫЙ 4,5

ПЕРЕРАБОТКА 4,13

С уважением, Антонов Александр.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

130

spark

16 мая 2003, 13:20

#10

Что Галактика-ЗУМ приличная искалка я помню :)Ей бы базу побольшше наскрести :) Это по подшивке газет поиск был, или по большей базе?

Насчет интереса - интересно, конечно. Хотя вряд ли пригодится, потому как я украинские тексты обрабатываю. И ищу, блин 😡

Хотя может соображу чего-нибудь по аналогии. Буду признателен за тексты.

Кстати, интересно, как зум работает. Это с семантическими расстояниями как-то связано?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Что делать, чтобы попасть в ответы Google Bard

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи