Для этого нужно выписать все слова, в которых заполнение словами плотное - Поисковые технологии

Хэширование слов

lagif · 2005-02-23T15:36:35.0000000Z

Кто слышал или даст ссылки на объяснение или исходники? Есть такой алгоритм кодирования, когда слово, не превышающее определенную длину можно закодировать уникальной последовательнстью из 4-5 байт/символов. Товарищи, заранее благодарна... :)

[Удален]

1 марта 2005, 14:03

#21

А вот можете, если не трудно, объяснить - зачем это нужно, id словам присвоить?

357

euhenio

1 марта 2005, 14:04

#22

Конечно, основываясь на словаре - про остальную часть слова.

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )

K

31

Ken

1 марта 2005, 18:02

#23

А может просто выписать все слова и пронумеровать?

P.S.

Максимум, что получалось в подборе хэш-функции:

для 16-битного хэширования 100 тыс. лемм -

(edit)MAX число слипаний в 1 коллизии 8.

30

lagif

2 марта 2005, 09:15

#24

Ken,

Как раз от выписывания и нумерования всех слов мы в этой теме спастись и пытаемся :)

Пока ничего не получается.

Наверное, послушаюсь euhenio и начну думать об анализаторе, похожем на Коваленко.... только кто заплатит мне за это 2 штуки баксов? :D

ps. Какие темы актуальные я придумываю :)

Это тоже пройдет...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

30

lagif

3 марта 2005, 10:47

#25

Interitus,

Хэш затем, чтоб при индексировании за id каждого слова не лезть в БД (ну или в какую другую структуру). Индексирование будет летать...

Но это все мечты...

[Удален]

3 марта 2005, 10:59

#26

lagif, так... а почему именно 4 байта? Почему не 8?

30

lagif

3 марта 2005, 11:06

#27

Interitus,

Потому что меньше места. Например, если мы по айдишнику ищем смещением в каком-нибудь индексном файле... вобщем, мне подходит больше всего 4 байта.

357

euhenio

3 марта 2005, 11:19

#28

Ken,

Максимум, что получалось в подборе хэш-функции:
для 16-битного хэширования 100 тыс. лемм -
(edit)MAX число слипаний в 1 коллизии 8.

-сколько самих коллизий? Почем стоит алгоритм (идея хеширования)? :) Как это может измениться при переходе к бОльшему количеству слов, в т.ч. и к несловарным "словам"?

lagif, я имел в виду не дерево по всему слову, а проверку, может ли часть символов слова позволять их хешировать алгоритмом с плотным заполнением пространства, а остальные символы - методом, похожим на дерево.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

30

lagif

3 марта 2005, 11:58

#29

euhenio,

Имеешь в виду дерево Хаффмана? Как при архивировании? Н-ну... не знаю...

357

euhenio

3 марта 2005, 12:06

#30

lagif, я этих ваших :) терминов не знаю. Я имею в виду: есть множество слов языка. если их просто хешировать, он будет, 1) разреженным, 2) там будут коллизии.

Идея в том, чтобы выделить часть слова (N символов), в которой заполнение словами плотное (нуждаестя в проверке), и хешировать их по алгоритму, не производящему коллизий. Остальные символы слова искать по алгоритму типа дерева, избавляясь от разреженности.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Переиграть и победить: как анализировать конкурентов для продвижения сайта

Хэширование слов