Используйте двоичный поиск в массиве для каждой длины слова - Поисковые технологии

Хэширование слов

lagif · 2005-02-23T15:36:35.0000000Z

Кто слышал или даст ссылки на объяснение или исходники? Есть такой алгоритм кодирования, когда слово, не превышающее определенную длину можно закодировать уникальной последовательнстью из 4-5 байт/символов. Товарищи, заранее благодарна... :)

[Удален]

6 марта 2005, 16:26

#51

Как писал lagif
Artisan,
На первых страницах треда объяснялось зачем - чтоб при индексации не дергать какие-нибудь БД для сопоставления слову(словоформе) уникальный идентификатор. Получается гораздо быстрее, если у нас есть какая-нибудь спец-функция.

Что же до количества слов, то реально выходит, что в словаре будет храниться около 500 тыс. записей (несловарные слова, английские и русские).

Простое и банальное решение, весь словарь грузить в память. Размер позволяет. Скорость работы с памятью в сотни раз быстрее, чем с винтом.

390

Artisan

6 марта 2005, 16:53

#52

Как писал Maxim Golubev
Простое и банальное решение, весь словарь грузить в память. Размер позволяет. Скорость работы с памятью в сотни раз быстрее, чем с винтом.

И при этом использовать двоичный поиск в массиве без всякого хэширования.

2^19 = 524288

То есть за 20 простых сравнений слово будет найдено что быстрее чем вычислить хэш функцию и потом разбираться с совпадениями.

█ www.leak.info / изучайте даром входящие указатели конкурентов и забытых доменов. █ Есть хороший способ подработки для умных людей, обучение даром, вопросы в личку.

Как фрилансерам из Украины CMS для потрала с Яндекс кобласит

30

lagif

7 марта 2005, 17:58

#53

В каком массиве? Тут поиск будет по слову, а это дольше, чем по идентификатору, разве нет?

И нет разницы, как искать - хоть дихотомией, хоть прямым перебором. Все равно дольше, чем в БД по ключу.

Это тоже пройдет...

390

Artisan

7 марта 2005, 19:30

#54

Как писал lagif
В каком массиве? Тут поиск будет по слову, а это дольше, чем по идентификатору, разве нет?
И нет разницы, как искать - хоть дихотомией, хоть прямым перебором. Все равно дольше, чем в БД по ключу.

@---,---`-----

Массивов может быть несколько для каждой длины слова отдельно что позволит как лучше использовать память при этом ускоряя поиск и обновление так возможно и обойтись 16 бит идентификаторами для слов при этом используя длину слова в качестве неявного расширения пространства идентификаторов. А если для Вашей задачи достаточно скорости последовательного поиска то словарь можно даже сжать причем намного плотнее чем обычный текст.

Google: длина URL не Mail.ru запускает поиск по Google BERT теперь используется

30

lagif

9 марта 2005, 07:38

#55

Artisan,

Cпасибо. Я над этим думала. Это, на мой взгляд, половинчатый выход из положения. Подумаю еще - обязательно расскажу, что придумала.

p.s. Цветок, надо полагать, к празднику. Спасибо!

[Удален]

9 марта 2005, 10:07

#56

Как писал lagif
Artisan,
Cпасибо. Я над этим думала. Это, на мой взгляд, половинчатый выход из положения.

Если не секрет, над чем работаете ? Новый поисковик ?

30

lagif

9 марта 2005, 12:26

#57

Maxim Golubev, Вроде уже рассказывала. Пока все, что я делаю - проба сил, набивание шишек и прочие неприятные вещи века.

[Удален]

9 марта 2005, 12:44

#58

Как писал lagif
Maxim Golubev, Вроде уже рассказывала. Пока все, что я делаю - проба сил, набивание шишек и прочие неприятные вещи века.

Тогда у индексатора есть более серьёзный камень преткновения, на который уходит значительно больше времени и ресурсов. Это часть обновления самого индекса на винчестере, особенно если у вас координатный индекс.

30

lagif

9 марта 2005, 13:06

#59

Maxim Golubev,

Все верно. Поиск идет по т.н. "обратному индексу". Прямой хранить, наверное, придется.

390

Artisan

9 марта 2005, 22:13

#60

Как писал lagif
Artisan,
Cпасибо. Я над этим думала. Это, на мой взгляд, половинчатый выход из положения. Подумаю еще - обязательно расскажу, что придумала.

Все зависит от точной постановки задачи, можно вообще обойтись без явных идентификаторов и вместо них использовать номера слов в массивах отдельно для каждой длины слова.

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Хэширование слов