Хэширование слов

[Удален]
#21

А вот можете, если не трудно, объяснить - зачем это нужно, id словам присвоить?

euhenio
На сайте с 21.09.2001
Offline
357
#22

Конечно, основываясь на словаре - про остальную часть слова.

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )
K
На сайте с 22.04.2003
Offline
31
Ken
#23

А может просто выписать все слова и пронумеровать?

P.S.

Максимум, что получалось в подборе хэш-функции:

для 16-битного хэширования 100 тыс. лемм -

(edit)MAX число слипаний в 1 коллизии 8.

lagif
На сайте с 15.12.2004
Offline
30
#24

Ken,

Как раз от выписывания и нумерования всех слов мы в этой теме спастись и пытаемся :)

Пока ничего не получается.

Наверное, послушаюсь euhenio и начну думать об анализаторе, похожем на Коваленко.... только кто заплатит мне за это 2 штуки баксов? :D

ps. Какие темы актуальные я придумываю :)

Это тоже пройдет...
lagif
На сайте с 15.12.2004
Offline
30
#25

Interitus,

Хэш затем, чтоб при индексировании за id каждого слова не лезть в БД (ну или в какую другую структуру). Индексирование будет летать...

Но это все мечты...

[Удален]
#26

lagif, так... а почему именно 4 байта? Почему не 8?

lagif
На сайте с 15.12.2004
Offline
30
#27

Interitus,

Потому что меньше места. Например, если мы по айдишнику ищем смещением в каком-нибудь индексном файле... вобщем, мне подходит больше всего 4 байта.

euhenio
На сайте с 21.09.2001
Offline
357
#28

Ken,

Максимум, что получалось в подборе хэш-функции:
для 16-битного хэширования 100 тыс. лемм -
(edit)MAX число слипаний в 1 коллизии 8.

-сколько самих коллизий? Почем стоит алгоритм (идея хеширования)? :) Как это может измениться при переходе к бОльшему количеству слов, в т.ч. и к несловарным "словам"?

lagif, я имел в виду не дерево по всему слову, а проверку, может ли часть символов слова позволять их хешировать алгоритмом с плотным заполнением пространства, а остальные символы - методом, похожим на дерево.

lagif
На сайте с 15.12.2004
Offline
30
#29

euhenio,

Имеешь в виду дерево Хаффмана? Как при архивировании? Н-ну... не знаю...

euhenio
На сайте с 21.09.2001
Offline
357
#30

lagif, я этих ваших :) терминов не знаю. Я имею в виду: есть множество слов языка. если их просто хешировать, он будет, 1) разреженным, 2) там будут коллизии.

Идея в том, чтобы выделить часть слова (N символов), в которой заполнение словами плотное (нуждаестя в проверке), и хешировать их по алгоритму, не производящему коллизий. Остальные символы слова искать по алгоритму типа дерева, избавляясь от разреженности.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий