несловарная нумерация слов, возможно ли это?

lagif
На сайте с 15.12.2004
Offline
30
#11

Не верю, что интернетных слов так много.

Все равно 2^32 не наберется. Запас большой. Поверьте.

А если уж вам не хватит - так уж лонг-инт используйте. :) (я бы посмотрела на этот словарь :))

Это тоже пройдет...
I
На сайте с 26.05.2001
Offline
64
#12
lagif:
Не верю, что интернетных слов так много.
Все равно 2^32 не наберется. Запас большой. Поверьте.
А если уж вам не хватит - так уж лонг-инт используйте. :) (я бы посмотрела на этот словарь :))

Господа и дамы, Лагиф и Евгенио. Прочитайте, пожалуйста, внимательно название темы. Эта тема не о том, много или нет слов. Нет интернет-слов не очень много. В русском интернете миллионов сто. Но дело не в этом, а в том, что нельзя придумать хеш-функцию, которая для всех возможных слов генерирует уникальный идентификатор. Потому что в природе существует очень много слово разных слов, гораздо больше чем 4 млрда. если такую функцию можно было бы придумть, то она для каждых слов генерировала бы разные айди. Но тогда по принципу Дирихле найдутся как минимум два слова, для которых наша замечательная функция выдает одинаковые айди. И никто не может запретить появление этих двух слов на интернет-странице. Надеюсь, что теперь стало понятнее.

Приходите завтра, завтра будет! (http://itman666.livejournal.com)
!Иван FXS
На сайте с 16.11.2001
Offline
119
#13
itman:
Прочитайте, пожалуйста, внимательно название темы.

- название темы, кстати, весьма неудачно: что такое "несловарная нумерация" - как задача - я плохо понимаю!

И еще, itman, Вы просто перестаньте называть "словами" произвольные наборы символов. Будете приятно удивлены, как повысится уровень Вашего взаимопонимания с собеседниками! ;-)

lagif
На сайте с 15.12.2004
Offline
30
#14

itman, Это уже совсем другая задача! Вы называете словами не те слова :)

I
На сайте с 26.05.2001
Offline
64
#15

Хорошо давайте будем называть их строками, хотя принципильной разницы нет. И в контексте поисковых машин это довольно очевидно. Потому что поисковик все строки заносит в словарь (При определенных ограничениях на длину). А все то, что лежит в словаре можно считать словом! Так что не такая уж и неудачная терминология.

lagif:
itman, Это уже совсем другая задача! Вы называете словами не те слова :)
lagif:
itman, Это уже совсем другая задача! Вы называете словами не те слова :)

даже если слова заменить на строки, то в чем принцпиальное отличие для алгоритма несловарной нумерации?

lagif
На сайте с 15.12.2004
Offline
30
#16

itman, вы все запутываете. никто не спорит, что любая хэш-функция нестабильна для любого большого набора слов. Размер словаря здесь имеет второстепенное значение.

I
На сайте с 26.05.2001
Offline
64
#17

Лагиф, я ничего не запутываю 😡 😡 😡 Это Вы, извините, читате с середины темы. В том-то и дело, что спорит! Артизан утверждает, что он такую функцию изобрел. Но детали естественно не говорит, потому что это коммерческая тайна. Вот я и делаю лирическое отступление на тему того, как много таких вот коммерческих тайн на самом деле дутые.

lagif:
itman, вы все запутываете. никто не спорит, что любая хэш-функция нестабильна для любого большого набора слов. Размер словаря здесь имеет второстепенное значение.
lagif
На сайте с 15.12.2004
Offline
30
#18

lagif,

oб одной частной задаче решение которой применимо для той темы в которой этот разговор начался

Думается, мне тут речь совсем не о хэшировании.

I
На сайте с 26.05.2001
Offline
64
#19

Лагиф, посмотрите, пожалуйста мое сообщение на первой странице где-то посередине. Там цитата моего поста и слов Артизана. Артизан утверждает, что он знает алгоритм генерации уникального айди из слова (строки). Предполагалось наличие алгоритма, имеющего практическую ценность. То бишь айди длиной 128 бит не является практически ценным.

А как называется такой алгоритм: хеширование, интерполяция или даже интегрирование абсолютно не важно. Здесь принципиально важным является только то, что он отображает строки (в частности слова) в числа. Но поскольку на вход ему могут подаваться не только слова, но и произвольные строки, в том числе и нечто, например

ПОЧВЕНСТВУЮЩИХ

СУЖЕСКОМ

ХРОНОВОГО

ТЕПЛОТНОСНАЯ

ВОДОБОДИВШИЕСЯ

словами русского языка не являющимися, но на слова очень похожее.

lagif
На сайте с 15.12.2004
Offline
30
#20

itman, не нашла там такого утверждения. да я и не об этом говорила, а о вашем убеждении, что не хватит одного инта для всех найденных на просторах Сети слов.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий