Впихнуть в 300Кб словарь с учетом морфологии русского языка - Поисковые технологии

несловарная нумерация слов, возможно ли это?

itman · 2006-02-22T06:50:25.0000000Z

Небольшое лирическое отступление: любят же у нас напускать туману и говорить про всяческие ноухау, суперпупер достижения в виде реализованных алгоритмов итд итп, не обозначая конкретных деталей. Чтобы враг денюжку заплатил. Но по моему опыту оно врагу и бесплатно не нужно, а тщательно скрываемые алгоритмы не вполне корректны. Теперь по делу: Аристан недавно анонсировал некую идеальную функцию хеширования, которая может быть использована для присвоения словам уникальных номеров, которые зависят только от слова. При этом никакие два слова не имеют одинаковое значение функции!! Упорно отказался прояснить детали. Тем не менее, вполне очевидно, что функций, имеющих практическое значение, то есть возвращащих значения ну хотя бы в пределах 4-байтного инта не существует. Просто потому, что не очень длинных слов (<20 символов) очень много. И их гораздо больше чем интов. Это значит, что всегда будут два слова с одинаковым значением функции. Итого, заявленная функция не сможет нумеровать произвольные строки. А если вспомнить, что в некоторых коллекциях а-ля медицинские или химические термины часто встречаются длинные слова, и ограничиваться 20 символами нельзя, то даже 8 байтного инта не хватит. Если сделать предположение, что все генерируемые слова удовлетворяют русской n-граммной статистике (то есть другими словами, данным, что в такой-то позиции слова такой-то длины, при условии того, что этой позиции предшествует такая-то n-грамма могут встречаться далеко не все буквы алфавита), и что таких слов не очень много (а я в ближайшие день два точно посчитаю сколько их и назову цифру), и соответственно придумать какое-нибудь правило нумерации вроде позиционной системы счисления с переменным основанием, с основанием, меняющимся в зависимости от предыдущих разрядов), то все равно это правило будет абсолютно не применимо для интернет поисковика, в котором в силу разных причин слова могут встречаться абсолютно произвольные. То бишь, в общем случае функция не существует, а существует какой-то паллиатив, который работает на подмножестве всех строк. Что и лишний раз укрепляет мое мнение, что когда напускают туману или алгоритм дохлый или не все корректно с постановкой задачи.

11

ЗодчийТеней

23 февраля 2006, 22:19

#31

InSAn:
Я это тоже утверждаю.


my $id = join '', map {ord($_)} split //, $word;

Задача решена? ;)

PS: О "длине" айди в утверждении ничего не было сказано.

оригинальный метод, но тогда стоит вернуться к первоначальному вопросу, а именно методе позволяющем впихнуть в 300Кб словарь с учетом морфологии русского языка, и именно алгоритм позволяющий реализовать это по утверждениям Артизана им и упоминался.

Хотя с моей точки зрения обе темы уже утратили свою актуальность и перешли в плоскость обсуждения "необоснованных" высказыванию некоторых форумян, это уже просто ребячество. ИМХО.

Я, однако, не скажу, что все иллюзии или бред нашего ума нужно называть сумасшествием. Эразм Роттердамский "Похвала глупости".

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

64

itman

23 февраля 2006, 23:22

#32

Кстати, Зодчий со словарем все очень непросто. Вполне можно придумать простую функцию хеширования, которая именно на этом словаре дает уникальность. Особенно если словарь маленький. Смотрите берется обычная хорошая функция хеширования, вычисляем ее значения на словаре. Получаем там парочку коллизий. Запоминаем слова, для которых коллизии и выдаем им номера из числа свободных. И все. Так что номера статического словаря хранить действительно не обязательно. Но работать это будет гарантированно только для заданного набора слов. И вполне может быть, что именно этот нехитрый и никому ненужный прием нам боялись поведать. Ну так теперь мы его знаем :-)

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

119

!Иван FXS

24 февраля 2006, 06:50

#33

Более того, поскорльку хэш-функция - вещь достаточно произвольная, то ее можно сделать многопараметрической. А потом - варьируя эти параметры (потратив на это ОДИН РАЗ достаточно много времени) - ПОСТОРИТЬ (выбрать) такую хэш-функцию, которая вообще не будет иметь коллизий на данном статическом словаре.

Наверное, это и есть то решение, которое нужно Зодчему.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

30

lagif

24 февраля 2006, 07:52

#34

!Иван FXS, это смотря сколько и какие параметры...

itman, а вы говорили "никаких ослов"... :)

Это тоже пройдет...

119

!Иван FXS

24 февраля 2006, 08:05

#35

Параметры-то численые, и алгоритм хеширования к ним очень чувствителен!

30

lagif

24 февраля 2006, 08:19

#36

!Иван FXS, статический словарь - лучше уж в виде дерева... и, имхо, это утопия - чтоб словарь был статическим при лазании по нету... :)

119

!Иван FXS

24 февраля 2006, 08:26

#37

в виде дерева - лучше тем, что можно сделать "плотную" нумерацию. А если для статического словаря - так еще и упорядочееную по алфавиту (или - с каким-либо еще ... дополнительным полезным свойством).

Но на основе хэш функции, конечно же, (алгоритм) будет и компактнее, и быстрее ... в одну сторону. Обратно-то все-равно придется - так или иначе - через таблицу!

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

357

euhenio

24 февраля 2006, 09:23

#38

itman, я одного не пойму. Зачем Вам понадобилось делать "хеш-функцию, которая работает для всех немыслимых буквосочетаний"?

Это всё практической пользы не имеет. Сравните длину уникального хэша (если взять 32-ричную систему счисления (примерно столько букв в русском алфавите), то что-то вроде 32^20, где 20-число букв в слове) и количество реально употребляемых в инете слов. Результат превзойдет ожидания :)

И вообще, откуда взялась цифра в 20 букв? А если у меня на сайте есть слова из 40 букв? Давайте уж сразу до 100 букв хеш делайте, чтобы до конца света работало! :)

Если по теме, конечно, не может существовать хеш-функций, укладывающих любые буквосочетания в 4 байта. Но могут существовать хеш-функции, укладывающие реально существующие слова в 4 байта с заданным небольшим уровнем слипаний.

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

64

itman

24 февраля 2006, 11:31

#39

euhenio, понятие реально существующего слова в интернете - это миф. В принципе, если бы проблема была разрешима, то алгоритмы индексации и поиска можно было бы немножечко упростить.

!Иван FXS, gperf вроде бы делает это, но он, кажется, генерирует в результате табличку большого размера. а контекст был такой, что хотелось бы генерировать айди из слова практически не затрачивая дополнительной памяти.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

119

!Иван FXS

24 февраля 2006, 11:36

#40

itman:
gperf вроде бы делает это, но он, кажется, генерирует в результате табличку большого размера..

- большого - в каком смысле? Большого - по сравнению с чем?

_____________________

Я сунулся вот тут:

"Плотный" хэш. (Задачка.)

- посмотрим, что скажут "программисты" ...

Open AI тестирует память для ChatGPT

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

несловарная нумерация слов, возможно ли это?