несловарная нумерация слов, возможно ли это?

I
На сайте с 26.05.2001
Offline
64
#41

большой это в данном случае сравнимый с размером самих данных.

изначально дискуссия шла про словарь в 300 кб, а каждому слову нужен айди. так вот если хранить этот самый айди этот минимум 100-200кб только на это самой айди. так вот если его вычислять, то будет гораздо быстрее.

плотная хеш - это в точности то, что изготовляет gperf.

сейчас вот запустил его на множестве 100 тысяч строк и жду результата. ну и в нашем случае абсолютно не нужен плотный хеш. достаточно, чтобы хеш попадал в диапазон скажем от нуля до одного миллиарда, а всем новым словам можно выдавать айди, начиная с миллиарда.

Приходите завтра, завтра будет! (http://itman666.livejournal.com)
ЗодчийТеней
На сайте с 13.02.2006
Offline
11
#42

отступление от темы, а как в этом случае быть бедным китайцем с их 100 тысячным списком базовых иероглифов?

itman:
достаточно, чтобы хеш попадал в диапазон скажем от нуля до одного миллиарда, а всем новым словам можно выдавать айди, начиная с миллиарда.

з.ы. интересно кто это на меня так обиделся что ежедневно добавляет мне минусы в репутацию на основании темы о размере словаря? ;-)

Я, однако, не скажу, что все иллюзии или бред нашего ума нужно называть сумасшествием. Эразм Роттердамский "Похвала глупости".
I
На сайте с 26.05.2001
Offline
64
#43

поиск иероглифов - это совершенно отдельная тема. там нет однозначной границы слов. кстати, мне тоже кто-то минусов понадобавлял в теме про словарь в 300К. думаю, что это тот же самый человек. сейчас пойдем навалимся на него дружно сбросим ему репутацию вообще до нуля :-)

О опять кто-то шлет отрицательные отзывы. Боюсь, что теперь уж точно кой у кого репутация окажется нулевой.

ЗодчийТеней
На сайте с 13.02.2006
Offline
11
#44
itman:
достаточно, чтобы хеш попадал в диапазон скажем от нуля до одного миллиарда, а всем новым словам можно выдавать айди, начиная с миллиарда.

из 750 тыс проиндексированных страниц удалось собрать словарь размером в 138 тыс. уникальных слов, поэтому думаю что цифра в 1 миллиард очень уж избыточная

itman:
О опять кто-то шлет отрицательные отзывы. Боюсь, что теперь уж точно кой у кого репутация окажется нулевой.

мдя, видимо у кого то из участников не хватает смелости высказать претензии в лицо и он предпочитает инкогнито понижать рейтинг, за сегодня аж три раза покусился, что ж каждый по своему проявляет свою слабость

euhenio
На сайте с 21.09.2001
Offline
357
#45

itman,

euhenio, понятие реально существующего слова в интернете - это миф.

-ну почему же. Дайте мне любое буквосочетание, и я в поисковике найду, использовал его кто-то или нет, есть оно в нете или нет. :) Все вполне реально.

Мне кажется, что Вы неправильно поставили себе задачу.

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )
I
На сайте с 26.05.2001
Offline
64
#46

А где гарантия, что эти самые поисковики не проиндексируют завтра какое-то новое слово?

euhenio:
itman,

-ну почему же. Дайте мне любое буквосочетание, и я в поисковике найду, использовал его кто-то или нет, есть оно в нете или нет. :) Все вполне реально.

Мне кажется, что Вы неправильно поставили себе задачу.
!Иван FXS
На сайте с 16.11.2001
Offline
119
#47
itman:
А где гарантия, что эти самые поисковики не проиндексируют завтра какое-то новое слово?

- ну так, значит - ЗАВТРА оно и появится!

Завтра, завтра - не сегодня!

D
На сайте с 16.03.2006
Offline
3
Dip
#48

1) Слово рассматриваете как последовательность целых (unsigned long). Можно и байтов.

2) Считаете его контрольную S сумму по mod P , где P - простое и i-е с конца в (unsigned long)
Повторяете циклически 0< i <=n до тех пор пока не достигнете нужной вероятности коллизий.
Массив S[0..n] - будет искомым индексом.

D
На сайте с 16.03.2006
Offline
3
Dip
#49
Dip:
1) Слово рассматриваете как последовательность целых (unsigned long). Можно и байтов.
2) Считаете его контрольную S сумму по mod P , где P - простое и i-е с конца в (unsigned long)
Повторяете циклически 0< i <=n до тех пор пока не достигнете нужной вероятности коллизий.
Массив S[0..n] - будет искомым индексом.

С байтами наверное правильнее будет , чтобы не терять на выравнивании слов .

!Иван FXS
На сайте с 16.11.2001
Offline
119
#50
Dip:
Считаете его контрольную S сумму по mod P , где P - простое и i-е с конца в (unsigned long)

- поясните, пожалуйста, выделенное. Это означает, что "основание" для mod ищем по нисходящей среди простых чисел начиная с самого большого, "умещающегося" в формат (unsigned long)?

А список этих простых чисел - как получать будем, не надорвемся?

И еще: Вы в своем постере дважды употребили обозначение n. Это - описка или в самом деле одно и то же число?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий