euhenio

euhenio
Рейтинг
357
Регистрация
21.09.2001
Должность
ИП: продвижение и создание сайтов, увеличение конверсии

Ken,

Ок. Допустим, таблица состовит из одних коллизий и все они имеют 8 слипаний остальные 53тыс. ячеек пусты?
Или, допустим, все что вся таблица с коллизиями т.е. где-то 2 слипания на каждое значение?
Ну и где тут помойка?

-везде. Слипания хешей = на одно слово у вас будут искаться от 2 до 8 слов. Это не годится никак.

Нет, не мелко, но если такую штуку делать, то в одиночку и не светясь. На самом деле вопрос стоит проще - не каталоги - обмен через них слишком приближен к линкфермам.

А просто создание своих собственных хороших ресурсов и слив цитируемости с них. Собственно, все уже начали это делать. Что тут думать? :)

Что-то Анар молчит. Болеет, наверное. :)

Ken, первым в стоял вопрос - сколько вообще коллизий на весь список? Вы не ответили.

Если вы запихнули 100 тыс. слов в 65 тыс., то плевать на максимальное число коллизий. Но каждое второе слово будет слипаться с каждым третьим. Такому "научному" алгоритму место в помойке, имхо.

PS Это без учета словоформ.

lagif, я этих ваших :) терминов не знаю. Я имею в виду: есть множество слов языка. если их просто хешировать, он будет, 1) разреженным, 2) там будут коллизии.

Идея в том, чтобы выделить часть слова (N символов), в которой заполнение словами плотное (нуждаестя в проверке), и хешировать их по алгоритму, не производящему коллизий. Остальные символы слова искать по алгоритму типа дерева, избавляясь от разреженности.

Всегда готов.
И ничего я не спалился

-я к тому, что ты перешел на такую вот дискуссию. А не про "чернуху". :) Казак ни в чем не виноват, я только лишь сказал, что он жжот. :)

Женя, звезды - не ездят в метро. Пора запомнить

-а к чему это? На Кипре метро что ли, построили? :) (Или теперь надо говорить "в Кипре"? :))

Не напрягайтесь так :)

Ken,

Максимум, что получалось в подборе хэш-функции:
для 16-битного хэширования 100 тыс. лемм -
(edit)MAX число слипаний в 1 коллизии 8.

-сколько самих коллизий? Почем стоит алгоритм (идея хеширования)? :) Как это может измениться при переходе к бОльшему количеству слов, в т.ч. и к несловарным "словам"?

lagif, я имел в виду не дерево по всему слову, а проверку, может ли часть символов слова позволять их хешировать алгоритмом с плотным заполнением пространства, а остальные символы - методом, похожим на дерево.

Анар, ты спалился. Жаль. Хотя я иного ине ждал (в смысле, начиная копать говно на других ("всех остальных")), "вскрывая нарывы" (с) нельзя самому остаться в белом :)

Во благо надо принести в жертву даже себя.

Казак жжот :)

Всего: 4720