- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
А вот можете, если не трудно, объяснить - зачем это нужно, id словам присвоить?
Конечно, основываясь на словаре - про остальную часть слова.
А может просто выписать все слова и пронумеровать?
P.S.
Максимум, что получалось в подборе хэш-функции:
для 16-битного хэширования 100 тыс. лемм -
(edit)MAX число слипаний в 1 коллизии 8.
Ken,
Как раз от выписывания и нумерования всех слов мы в этой теме спастись и пытаемся :)
Пока ничего не получается.
Наверное, послушаюсь euhenio и начну думать об анализаторе, похожем на Коваленко.... только кто заплатит мне за это 2 штуки баксов? :D
ps. Какие темы актуальные я придумываю :)
Interitus,
Хэш затем, чтоб при индексировании за id каждого слова не лезть в БД (ну или в какую другую структуру). Индексирование будет летать...
Но это все мечты...
lagif, так... а почему именно 4 байта? Почему не 8?
Interitus,
Потому что меньше места. Например, если мы по айдишнику ищем смещением в каком-нибудь индексном файле... вобщем, мне подходит больше всего 4 байта.
Ken,
для 16-битного хэширования 100 тыс. лемм -
(edit)MAX число слипаний в 1 коллизии 8.
-сколько самих коллизий? Почем стоит алгоритм (идея хеширования)? :) Как это может измениться при переходе к бОльшему количеству слов, в т.ч. и к несловарным "словам"?
lagif, я имел в виду не дерево по всему слову, а проверку, может ли часть символов слова позволять их хешировать алгоритмом с плотным заполнением пространства, а остальные символы - методом, похожим на дерево.
euhenio,
Имеешь в виду дерево Хаффмана? Как при архивировании? Н-ну... не знаю...
lagif, я этих ваших :) терминов не знаю. Я имею в виду: есть множество слов языка. если их просто хешировать, он будет, 1) разреженным, 2) там будут коллизии.
Идея в том, чтобы выделить часть слова (N символов), в которой заполнение словами плотное (нуждаестя в проверке), и хешировать их по алгоритму, не производящему коллизий. Остальные символы слова искать по алгоритму типа дерева, избавляясь от разреженности.