Wandex

Wandex
Рейтинг
19
Регистрация
15.04.2012
Должность
Стартапы, Разработка, Инвестиции
Интересы
Поисковые системы, Инвестиции, Стартапы

В данный момент плотность ключевых слов играет важную роль при ранжировании.

SkyNET69:
неизменяемая часть слова

Если нужна основа слова, то стеммер портера - оптимальный вариант.

Нахождение основы слова для чего нужно тебе? Зная конечную цель можно найти альтернативу, подходящую для задачи.

SkyNET69:
Задача состоит в том, что нужно определять термы слов. Хочу узнать какие есть для этой задачи алгоритмы, и описание к ним.

Что такое термы слов?

Опиши задачу по корректнее, и тогда можешь рассчитывать на совет.

Простейший вариант, взять одну из функций ранжирования, для которой задачей ИНС будет подбор коэффициентов, на основе обучающей выборки.

Значимость поведенческих факторов еще не настолько велика, так что необходимость "манипуляции" фактически отсутствует...

Rubicam, что именно в поиске должно производиться с помощью нейросетей. Релевантность? Приведение запроса? Кластеризация?

SkyNET69, стеммер портера дает довольно таки хорошее качество выборки, особенно в связке со словарем. С альтернативными алгоритмами стемминга для словянских языков, дела не имел, да и особая необходимость в подобных реализациях отсутствует.

---

Лемматизация - достойная альтернатива стеммингу, однако ее реализацию для украинского вы навряд ли найдете.

---------- Добавлено 29.04.2012 в 00:05 ----------

SkyNET69:
нормальную реализацию его алгритма)?

А существующие реализации, многие из которых Портером и написаны - ненормальные? 😂

AZV, естественно возможно, однако наверняка у 98% пользователей используется выдача в 10 результатов. На мой взгляд подобная мера не имеет смысла, ибо не выгодна владельцам поисковых систем. Как вариант вообще убрать постраничную навигацию, заменив ее на подгрузку страницы.

слова->документ - это называется инвертированный индекс.

Какой ориентировочный размер базы?

Всего: 55