search with wildcard* (using inverted index)

16

xlex

27 апреля 2005, 06:05

3356

Простите, если дурацкий вопрос, но всё же: как поисковые системы позволяют производить поиск с использованием спец. символов совпадения любых символов (поиск* запрос*)?

Если я правильно понимаю, это возможно при использовании суфиксных деревьев, и, в то же время, если я правильно понимаю, при поиске активно используется инвертированный индекс, который с суфиксными деревьями увязать сложновато...

Не полным же перебором всех слов это происходит (ht://Dig выполняет такой поиск именно таким образом и по признанию самой команды это _очень_ медленно)?

Заранее спасибо.

E

17

eshum

27 апреля 2005, 07:20

#1

Наверное кроме как полным перебором никак не получится.

Т.е. по шаблону (поиск* запрос*) находятся все слова из словаря, затем для каждого слова извлекается постлист из индекса, после чего полученные постлисты объединяются по OR.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

X

16

xlex

27 апреля 2005, 07:32

#2

Какие-же тогда должны быть вычислительные/дисковые мощности для того, чтобы такое позволять делать... Ведь как-то же реализуется такое, или именно поэтому крупных поисковиков разрешающих такие запросы и нет?

X

16

xlex

12 мая 2005, 05:19

#3

Если кто-то будет задаваться таким же дурацким вопросом (как и я), то ответ на него можно найти в "классике" (документе об архитектуре Гугла): все (/большинство) имеющихся слов словаря держатся в оперативной памяти, доступ к которой не так уж и дорог даже при условии полного перебора.

AA

70

AlexA

13 мая 2005, 09:12

#4

Правильно ли я понимаю, что трудности вызывает именно применение шаблона (поиск*, поиск? и т.д.)?

Если так, то здесь все достаточно просто:

1. Получаем диапазон подходящих слов;

2. Объединяем соответствующие списки.

Время выполнения операции (1) пренебрежимо мало - одно обращение к словарю. Основное время операции (2) занимает чтение соответствующих списков, что также невелико.

Такие вещи реализовывались еще в поисковиках, работавших на 386-486 машинах, если кто помнит такие.

Так что проблемы, вроде, нет.

С уважением, Антонов Александр.

X

16

xlex

13 мая 2005, 09:53

#5

Правильно.

Вопрос в том, по какому принципу получить диапазон подходящих слов (если слова могут быть на разных языках и методы описанные на http://linguist.nm.ru/ и заточенные под один язык не подходят)?

Как я понимаю, в данном случае это возможно только полным перебором, который, впрочем, в оперативной памяти не так уж и дорог.

Мне кажется, что для этих задач также можно использовать суффиксные деревья...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

AA

70

AlexA

13 мая 2005, 10:51

#6

В данном случае подойдет простой словарь словоформ без всяких "заточенных под язык" методов (любое дерево здесь подойдет). Вот тогда получение диапазона для шаблона превращается в тривиальную задачу.

X

16

xlex

13 мая 2005, 11:24

#7

Спасибо за справку!

T

2

tano

28 ноября 2005, 02:19

#8

AlexA:
В данном случае подойдет простой словарь словоформ без всяких "заточенных под язык" методов (любое дерево здесь подойдет). Вот тогда получение диапазона для шаблона превращается в тривиальную задачу.

тривиальную..

Дам $500 за реализацию такого алгоритма.

На любом языке, не обязательно си, но чтобы запустить проверить можно было, перл, питон или джава подойдут.

Нужен быстрый поиск с wildcards по словарю из примерно 100-150 миллионов слов.

Набор символов [\x21-\xFF], максимальная длина слова 128 байт, на разбивку на более простые и короткие слова по каким-то границам внутри слова (пробелы,запятые,...) расчитывать не стоит.

Найти нужно все слова в словаре, подходящие под шаблон, желательно (но не обязательно) в отсортированном порядке.

В словарь могут добавляться слова, удаляться не могут - нужно апдейтить индекс без перестройки его с нуля по всему словарю.

Размер индекса критичен, желательно уложиться не более чем еще один размер словаря, время создания индекса - не очень критично.

Очень критично - время поиска и "время поиска первых n результатов подходящих под шаблон"

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

80

Keva

28 ноября 2005, 11:10

#9

За 3000 сделаю... За меньше лениво...

tano:
тривиальную..
Дам $500 за реализацию такого алгоритма.

На любом языке, не обязательно си, но чтобы запустить проверить можно было, перл, питон или джава подойдут.
...

С уважением, Андрей Коваленко aka Keva

AA

70

AlexA

28 ноября 2005, 14:43

#10

За 3000 сделаю... За меньше лениво...

Аналогично

Open AI тестирует память для ChatGPT

Переиграть и победить: как анализировать конкурентов для продвижения сайта