Прочитайте название темы, кстати, весьма неудачно - Поисковые технологии

несловарная нумерация слов, возможно ли это?

itman · 2006-02-22T06:50:25.0000000Z

Небольшое лирическое отступление: любят же у нас напускать туману и говорить про всяческие ноухау, суперпупер достижения в виде реализованных алгоритмов итд итп, не обозначая конкретных деталей. Чтобы враг денюжку заплатил. Но по моему опыту оно врагу и бесплатно не нужно, а тщательно скрываемые алгоритмы не вполне корректны. Теперь по делу: Аристан недавно анонсировал некую идеальную функцию хеширования, которая может быть использована для присвоения словам уникальных номеров, которые зависят только от слова. При этом никакие два слова не имеют одинаковое значение функции!! Упорно отказался прояснить детали. Тем не менее, вполне очевидно, что функций, имеющих практическое значение, то есть возвращащих значения ну хотя бы в пределах 4-байтного инта не существует. Просто потому, что не очень длинных слов (<20 символов) очень много. И их гораздо больше чем интов. Это значит, что всегда будут два слова с одинаковым значением функции. Итого, заявленная функция не сможет нумеровать произвольные строки. А если вспомнить, что в некоторых коллекциях а-ля медицинские или химические термины часто встречаются длинные слова, и ограничиваться 20 символами нельзя, то даже 8 байтного инта не хватит. Если сделать предположение, что все генерируемые слова удовлетворяют русской n-граммной статистике (то есть другими словами, данным, что в такой-то позиции слова такой-то длины, при условии того, что этой позиции предшествует такая-то n-грамма могут встречаться далеко не все буквы алфавита), и что таких слов не очень много (а я в ближайшие день два точно посчитаю сколько их и назову цифру), и соответственно придумать какое-нибудь правило нумерации вроде позиционной системы счисления с переменным основанием, с основанием, меняющимся в зависимости от предыдущих разрядов), то все равно это правило будет абсолютно не применимо для интернет поисковика, в котором в силу разных причин слова могут встречаться абсолютно произвольные. То бишь, в общем случае функция не существует, а существует какой-то паллиатив, который работает на подмножестве всех строк. Что и лишний раз укрепляет мое мнение, что когда напускают туману или алгоритм дохлый или не все корректно с постановкой задачи.

30

lagif

23 февраля 2006, 12:53

#11

Не верю, что интернетных слов так много.

Все равно 2^32 не наберется. Запас большой. Поверьте.

А если уж вам не хватит - так уж лонг-инт используйте. :) (я бы посмотрела на этот словарь :))

Это тоже пройдет...

I

64

itman

23 февраля 2006, 13:00

#12

lagif:
Не верю, что интернетных слов так много.
Все равно 2^32 не наберется. Запас большой. Поверьте.
А если уж вам не хватит - так уж лонг-инт используйте. :) (я бы посмотрела на этот словарь :))

Господа и дамы, Лагиф и Евгенио. Прочитайте, пожалуйста, внимательно название темы. Эта тема не о том, много или нет слов. Нет интернет-слов не очень много. В русском интернете миллионов сто. Но дело не в этом, а в том, что нельзя придумать хеш-функцию, которая для всех возможных слов генерирует уникальный идентификатор. Потому что в природе существует очень много слово разных слов, гораздо больше чем 4 млрда. если такую функцию можно было бы придумть, то она для каждых слов генерировала бы разные айди. Но тогда по принципу Дирихле найдутся как минимум два слова, для которых наша замечательная функция выдает одинаковые айди. И никто не может запретить появление этих двух слов на интернет-странице. Надеюсь, что теперь стало понятнее.

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

119

!Иван FXS

23 февраля 2006, 13:31

#13

itman:
Прочитайте, пожалуйста, внимательно название темы.

- название темы, кстати, весьма неудачно: что такое "несловарная нумерация" - как задача - я плохо понимаю!

И еще, itman, Вы просто перестаньте называть "словами" произвольные наборы символов. Будете приятно удивлены, как повысится уровень Вашего взаимопонимания с собеседниками! ;-)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

30

lagif

23 февраля 2006, 13:34

#14

itman, Это уже совсем другая задача! Вы называете словами не те слова :)

I

64

itman

23 февраля 2006, 13:43

#15

Хорошо давайте будем называть их строками, хотя принципильной разницы нет. И в контексте поисковых машин это довольно очевидно. Потому что поисковик все строки заносит в словарь (При определенных ограничениях на длину). А все то, что лежит в словаре можно считать словом! Так что не такая уж и неудачная терминология.

lagif:
itman, Это уже совсем другая задача! Вы называете словами не те слова :)

даже если слова заменить на строки, то в чем принцпиальное отличие для алгоритма несловарной нумерации?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

30

lagif

23 февраля 2006, 14:19

#16

itman, вы все запутываете. никто не спорит, что любая хэш-функция нестабильна для любого большого набора слов. Размер словаря здесь имеет второстепенное значение.

I

64

itman

23 февраля 2006, 14:23

#17

Лагиф, я ничего не запутываю 😡 😡 😡 Это Вы, извините, читате с середины темы. В том-то и дело, что спорит! Артизан утверждает, что он такую функцию изобрел. Но детали естественно не говорит, потому что это коммерческая тайна. Вот я и делаю лирическое отступление на тему того, как много таких вот коммерческих тайн на самом деле дутые.

lagif:
itman, вы все запутываете. никто не спорит, что любая хэш-функция нестабильна для любого большого набора слов. Размер словаря здесь имеет второстепенное значение.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

30

lagif

23 февраля 2006, 14:26

#18

lagif,

oб одной частной задаче решение которой применимо для той темы в которой этот разговор начался

Думается, мне тут речь совсем не о хэшировании.

I

64

itman

23 февраля 2006, 14:34

#19

Лагиф, посмотрите, пожалуйста мое сообщение на первой странице где-то посередине. Там цитата моего поста и слов Артизана. Артизан утверждает, что он знает алгоритм генерации уникального айди из слова (строки). Предполагалось наличие алгоритма, имеющего практическую ценность. То бишь айди длиной 128 бит не является практически ценным.

А как называется такой алгоритм: хеширование, интерполяция или даже интегрирование абсолютно не важно. Здесь принципиально важным является только то, что он отображает строки (в частности слова) в числа. Но поскольку на вход ему могут подаваться не только слова, но и произвольные строки, в том числе и нечто, например

ПОЧВЕНСТВУЮЩИХ

СУЖЕСКОМ

ХРОНОВОГО

ТЕПЛОТНОСНАЯ

ВОДОБОДИВШИЕСЯ

словами русского языка не являющимися, но на слова очень похожее.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

30

lagif

23 февраля 2006, 14:40

#20

itman, не нашла там такого утверждения. да я и не об этом говорила, а о вашем убеждении, что не хватит одного инта для всех найденных на просторах Сети слов.

Что делать, чтобы попасть в ответы Google Bard

Дзен реализовал для авторов возможность вывода денег через СПБ

несловарная нумерация слов, возможно ли это?