- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Не верю, что интернетных слов так много.
Все равно 2^32 не наберется. Запас большой. Поверьте.
А если уж вам не хватит - так уж лонг-инт используйте. :) (я бы посмотрела на этот словарь :))
Не верю, что интернетных слов так много.
Все равно 2^32 не наберется. Запас большой. Поверьте.
А если уж вам не хватит - так уж лонг-инт используйте. :) (я бы посмотрела на этот словарь :))
Господа и дамы, Лагиф и Евгенио. Прочитайте, пожалуйста, внимательно название темы. Эта тема не о том, много или нет слов. Нет интернет-слов не очень много. В русском интернете миллионов сто. Но дело не в этом, а в том, что нельзя придумать хеш-функцию, которая для всех возможных слов генерирует уникальный идентификатор. Потому что в природе существует очень много слово разных слов, гораздо больше чем 4 млрда. если такую функцию можно было бы придумть, то она для каждых слов генерировала бы разные айди. Но тогда по принципу Дирихле найдутся как минимум два слова, для которых наша замечательная функция выдает одинаковые айди. И никто не может запретить появление этих двух слов на интернет-странице. Надеюсь, что теперь стало понятнее.
Прочитайте, пожалуйста, внимательно название темы.
- название темы, кстати, весьма неудачно: что такое "несловарная нумерация" - как задача - я плохо понимаю!
И еще, itman, Вы просто перестаньте называть "словами" произвольные наборы символов. Будете приятно удивлены, как повысится уровень Вашего взаимопонимания с собеседниками! ;-)
itman, Это уже совсем другая задача! Вы называете словами не те слова :)
Хорошо давайте будем называть их строками, хотя принципильной разницы нет. И в контексте поисковых машин это довольно очевидно. Потому что поисковик все строки заносит в словарь (При определенных ограничениях на длину). А все то, что лежит в словаре можно считать словом! Так что не такая уж и неудачная терминология.
itman, Это уже совсем другая задача! Вы называете словами не те слова :)
itman, Это уже совсем другая задача! Вы называете словами не те слова :)
даже если слова заменить на строки, то в чем принцпиальное отличие для алгоритма несловарной нумерации?
itman, вы все запутываете. никто не спорит, что любая хэш-функция нестабильна для любого большого набора слов. Размер словаря здесь имеет второстепенное значение.
Лагиф, я ничего не запутываю 😡 😡 😡 Это Вы, извините, читате с середины темы. В том-то и дело, что спорит! Артизан утверждает, что он такую функцию изобрел. Но детали естественно не говорит, потому что это коммерческая тайна. Вот я и делаю лирическое отступление на тему того, как много таких вот коммерческих тайн на самом деле дутые.
itman, вы все запутываете. никто не спорит, что любая хэш-функция нестабильна для любого большого набора слов. Размер словаря здесь имеет второстепенное значение.
lagif,
Думается, мне тут речь совсем не о хэшировании.
Лагиф, посмотрите, пожалуйста мое сообщение на первой странице где-то посередине. Там цитата моего поста и слов Артизана. Артизан утверждает, что он знает алгоритм генерации уникального айди из слова (строки). Предполагалось наличие алгоритма, имеющего практическую ценность. То бишь айди длиной 128 бит не является практически ценным.
А как называется такой алгоритм: хеширование, интерполяция или даже интегрирование абсолютно не важно. Здесь принципиально важным является только то, что он отображает строки (в частности слова) в числа. Но поскольку на вход ему могут подаваться не только слова, но и произвольные строки, в том числе и нечто, например
ПОЧВЕНСТВУЮЩИХ
СУЖЕСКОМ
ХРОНОВОГО
ТЕПЛОТНОСНАЯ
ВОДОБОДИВШИЕСЯ
словами русского языка не являющимися, но на слова очень похожее.
itman, не нашла там такого утверждения. да я и не об этом говорила, а о вашем убеждении, что не хватит одного инта для всех найденных на просторах Сети слов.