В этом случае вычислите словарь размером в 138 тыс. Уникальных слов - Поисковые технологии

несловарная нумерация слов, возможно ли это?

itman · 2006-02-22T06:50:25.0000000Z

Небольшое лирическое отступление: любят же у нас напускать туману и говорить про всяческие ноухау, суперпупер достижения в виде реализованных алгоритмов итд итп, не обозначая конкретных деталей. Чтобы враг денюжку заплатил. Но по моему опыту оно врагу и бесплатно не нужно, а тщательно скрываемые алгоритмы не вполне корректны. Теперь по делу: Аристан недавно анонсировал некую идеальную функцию хеширования, которая может быть использована для присвоения словам уникальных номеров, которые зависят только от слова. При этом никакие два слова не имеют одинаковое значение функции!! Упорно отказался прояснить детали. Тем не менее, вполне очевидно, что функций, имеющих практическое значение, то есть возвращащих значения ну хотя бы в пределах 4-байтного инта не существует. Просто потому, что не очень длинных слов (<20 символов) очень много. И их гораздо больше чем интов. Это значит, что всегда будут два слова с одинаковым значением функции. Итого, заявленная функция не сможет нумеровать произвольные строки. А если вспомнить, что в некоторых коллекциях а-ля медицинские или химические термины часто встречаются длинные слова, и ограничиваться 20 символами нельзя, то даже 8 байтного инта не хватит. Если сделать предположение, что все генерируемые слова удовлетворяют русской n-граммной статистике (то есть другими словами, данным, что в такой-то позиции слова такой-то длины, при условии того, что этой позиции предшествует такая-то n-грамма могут встречаться далеко не все буквы алфавита), и что таких слов не очень много (а я в ближайшие день два точно посчитаю сколько их и назову цифру), и соответственно придумать какое-нибудь правило нумерации вроде позиционной системы счисления с переменным основанием, с основанием, меняющимся в зависимости от предыдущих разрядов), то все равно это правило будет абсолютно не применимо для интернет поисковика, в котором в силу разных причин слова могут встречаться абсолютно произвольные. То бишь, в общем случае функция не существует, а существует какой-то паллиатив, который работает на подмножестве всех строк. Что и лишний раз укрепляет мое мнение, что когда напускают туману или алгоритм дохлый или не все корректно с постановкой задачи.

I

64

itman

24 февраля 2006, 23:12

#41

большой это в данном случае сравнимый с размером самих данных.

изначально дискуссия шла про словарь в 300 кб, а каждому слову нужен айди. так вот если хранить этот самый айди этот минимум 100-200кб только на это самой айди. так вот если его вычислять, то будет гораздо быстрее.

плотная хеш - это в точности то, что изготовляет gperf.

сейчас вот запустил его на множестве 100 тысяч строк и жду результата. ну и в нашем случае абсолютно не нужен плотный хеш. достаточно, чтобы хеш попадал в диапазон скажем от нуля до одного миллиарда, а всем новым словам можно выдавать айди, начиная с миллиарда.

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

11

ЗодчийТеней

25 февраля 2006, 08:12

#42

отступление от темы, а как в этом случае быть бедным китайцем с их 100 тысячным списком базовых иероглифов?

itman:
достаточно, чтобы хеш попадал в диапазон скажем от нуля до одного миллиарда, а всем новым словам можно выдавать айди, начиная с миллиарда.

з.ы. интересно кто это на меня так обиделся что ежедневно добавляет мне минусы в репутацию на основании темы о размере словаря? ;-)

Я, однако, не скажу, что все иллюзии или бред нашего ума нужно называть сумасшествием. Эразм Роттердамский "Похвала глупости".

I

64

itman

25 февраля 2006, 09:53

#43

поиск иероглифов - это совершенно отдельная тема. там нет однозначной границы слов. кстати, мне тоже кто-то минусов понадобавлял в теме про словарь в 300К. думаю, что это тот же самый человек. сейчас пойдем навалимся на него дружно сбросим ему репутацию вообще до нуля :-)

О опять кто-то шлет отрицательные отзывы. Боюсь, что теперь уж точно кой у кого репутация окажется нулевой.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

11

ЗодчийТеней

25 февраля 2006, 20:27

#44

itman:
достаточно, чтобы хеш попадал в диапазон скажем от нуля до одного миллиарда, а всем новым словам можно выдавать айди, начиная с миллиарда.

из 750 тыс проиндексированных страниц удалось собрать словарь размером в 138 тыс. уникальных слов, поэтому думаю что цифра в 1 миллиард очень уж избыточная

itman:
О опять кто-то шлет отрицательные отзывы. Боюсь, что теперь уж точно кой у кого репутация окажется нулевой.

мдя, видимо у кого то из участников не хватает смелости высказать претензии в лицо и он предпочитает инкогнито понижать рейтинг, за сегодня аж три раза покусился, что ж каждый по своему проявляет свою слабость

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

357

euhenio

26 февраля 2006, 11:02

#45

itman,

euhenio, понятие реально существующего слова в интернете - это миф.

-ну почему же. Дайте мне любое буквосочетание, и я в поисковике найду, использовал его кто-то или нет, есть оно в нете или нет. :) Все вполне реально.

Мне кажется, что Вы неправильно поставили себе задачу.

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

64

itman

26 февраля 2006, 12:20

#46

А где гарантия, что эти самые поисковики не проиндексируют завтра какое-то новое слово?

euhenio:
itman,

-ну почему же. Дайте мне любое буквосочетание, и я в поисковике найду, использовал его кто-то или нет, есть оно в нете или нет. :) Все вполне реально.

Мне кажется, что Вы неправильно поставили себе задачу.

119

!Иван FXS

26 февраля 2006, 17:24

#47

itman:
А где гарантия, что эти самые поисковики не проиндексируют завтра какое-то новое слово?

- ну так, значит - ЗАВТРА оно и появится!

Завтра, завтра - не сегодня!

D

3

Dip

16 марта 2006, 11:28

#48

1) Слово рассматриваете как последовательность целых (unsigned long). Можно и байтов.

2) Считаете его контрольную S сумму по mod P , где P - простое и i-е с конца в (unsigned long)
Повторяете циклически 0< i <=n до тех пор пока не достигнете нужной вероятности коллизий.
Массив S[0..n] - будет искомым индексом.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

D

3

Dip

16 марта 2006, 11:37

#49

Dip:
1) Слово рассматриваете как последовательность целых (unsigned long). Можно и байтов.
2) Считаете его контрольную S сумму по mod P , где P - простое и i-е с конца в (unsigned long)
Повторяете циклически 0< i <=n до тех пор пока не достигнете нужной вероятности коллизий.
Массив S[0..n] - будет искомым индексом.

С байтами наверное правильнее будет , чтобы не терять на выравнивании слов .

119

!Иван FXS

16 марта 2006, 11:58

#50

Dip:
Считаете его контрольную S сумму по mod P , где P - простое и i-е с конца в (unsigned long)

- поясните, пожалуйста, выделенное. Это означает, что "основание" для mod ищем по нисходящей среди простых чисел начиная с самого большого, "умещающегося" в формат (unsigned long)?

А список этих простых чисел - как получать будем, не надорвемся?

И еще: Вы в своем постере дважды употребили обозначение n. Это - описка или в самом деле одно и то же число?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

VK приобрела 70% в структуре компании-разработчика red_mad_robot

несловарная нумерация слов, возможно ли это?