Ken,
Ну, если хотите конкретику - ни одна из хэш-функций, о которых я читала или реализовывала, не дает мне полной гарантии, что все и ВСЕГДА будет правильно. От этого мой уровень уверенности в себе падает. :)
Вывод: нужно искать компромиссы или придумывать свой вариант хэша(что тоже есть компромисс). ИМХО. :)
p.s.Скатываемся к флейму. Похоже, тема себя исчерпала.
Artisan,
Что ж, вы цели достигли :)
Склоняюсь к тому, что при желании и при необходимости нужно придумывать свой алгоритм хэширования (или просто поиска id-шника для слова), основываясь на какой-нибудь статической древовидной структуре с возможностью расширения дерева и исключения отношения "все-ко-всем" (проектировщики БД меня прибьют за вольности с терминологией), то есть прямого перечета всех символов алфавита. Возможен подход со слогами... не знаю. :)
То есть, придется взять хороший словарь, и...
Спасибо всем, интересное обсуждение.
Нет, 16 бит (65 536) не подойдут, конечно!
Вообще, кажется, для вычисления id-шника придется придумывать, как предлагал выше euhenio, какой-нибудь смешанный алгоритм...
Это надо придумывать.
Joy,
Это должно что-то означать? Если да, то, что?
Не смешивайте в кучу профессию и развлечения. Вас не поймут.
И причем тут кошка в церкви? По-моему, вопрос вполне уместен для темы. Мне нравится получать уместные ответы от умных людей...
euhenio, Долго... и лениво-лениво... 😆
Я, понимаешь, хотела, чтобы все и сразу :)
euhenio,
Имеешь в виду дерево Хаффмана? Как при архивировании? Н-ну... не знаю...
Interitus,
Потому что меньше места. Например, если мы по айдишнику ищем смещением в каком-нибудь индексном файле... вобщем, мне подходит больше всего 4 байта.
Хэш затем, чтоб при индексировании за id каждого слова не лезть в БД (ну или в какую другую структуру). Индексирование будет летать...
Но это все мечты...
Как раз от выписывания и нумерования всех слов мы в этой теме спастись и пытаемся :)
Пока ничего не получается.
Наверное, послушаюсь euhenio и начну думать об анализаторе, похожем на Коваленко.... только кто заплатит мне за это 2 штуки баксов? :D
ps. Какие темы актуальные я придумываю :)
16-байтный id-шник - это здорово... :)
Древовидная структура - у того же Коваленко в его анализаторе. Но дело в том, что у него это дерево основано на словаре, а нам придется устраивать перечет всех возможных буквосочетаний. Или я ошибаюсь?