Алгоритм определения ключевиков?

Segey
На сайте с 23.08.2005
Offline
404
678

Никак немогу сообразить, как простыми методами без доп баз определить по статье, какие в ней ключевики и из них выбрать ключевики для keywords?

php

Brexit - уже совсем рядом. (https://about-this-model.blogspot.com/2019/03/brexit.html)
maximkuk
На сайте с 14.09.2005
Offline
72
#1

можно попытаться по количеству вхождений токена без учета приставки и окончания.

Just another WordPress weblog (http://maxkuk.ru)
NB
На сайте с 14.09.2004
Offline
95
#2

Совсем просто не получается. Я делал так:

1. Отбрасываем стоп-слова (предлоги, союзы, местоимения и т.п.)

2. Нормализуем оставшиеся. Если без словаря -- используем к-л алгоритм стемминга. Я использовал стеммер Портера ( http://snowball.tartarus.org/algorithms/russian/stemmer.html ). Хотя лучше все-таки нормализовать по ispell-овской базе (т.е., со словарем)

3. Сортируем то, что получилось, по частоте.

4. Отбрасываем все, что выше 10% (м.б., 9 или 8 -- в зависимости от объема текста)

5. Из оставшегося первая десятка (или сколько нужно -- м.б., все, что не ниже какого-то %) -- искомое множество.

6. Дополнительно сюда еще можно добавить слова из заголовка/названия (если не вошли)

Segey
На сайте с 23.08.2005
Offline
404
#3
Nick Bubelo:
Хотя лучше все-таки нормализовать по ispell-овской базе (т.е., со словарем)

А что за база?

Сорри а русской версии нет?

И еще может какие-то ссылочки по теме, почитать интересно :)

NB
На сайте с 14.09.2004
Offline
95
#4

Segey, это база, изначально предназначенная для проверки русской орфографии. Там есть словарь основных словоформ русского языка (около 100000), и формализованные правила их изменения. Обычно по ним строят полную базу всех словоформ русского языка (с аффиксами) -- около миллиона, и затем по ней нормализуют слова, найденные в тексте. Сам ispell-словарь найти в инете не поблема, возможно, найдутся и какие-то примеры использования. Гугл рулит ;)

Segey
На сайте с 23.08.2005
Offline
404
#5

Nick Bubelo,

Спасибо еще раз :)

Logistic
На сайте с 14.04.2005
Offline
322
#6
Segey:
Никак немогу сообразить, как простыми методами без доп баз определить по статье, какие в ней ключевики и из них выбрать ключевики для keywords?

никак не могу понять - разве нужно идти не от ключевиков, по которым нужно продвигать сайт?... ИМХО, текст страницы можно и поменять...

С уважением, Logistic
Segey
На сайте с 23.08.2005
Offline
404
#7

Logistic,

Ничего не понял?

K
На сайте с 31.01.2001
Offline
737
#8
Segey:
как простыми методами без доп баз определить по статье, какие в ней ключевики и из них выбрать ключевики для keywords

Тут решается только первая задача - список слов по убыванию частоты.

А вторую задачу должен решать оптимизатор, используя еще и свою голову.

Выделенные полосы в Москве (http://www.probkovorot.info) привели к снижению скорости до 23%.
Logistic
На сайте с 14.04.2005
Offline
322
#9
Segey:
Ничего не понял?

ну я, например, сначала подбираю ключевики, и только потом подгоняю под них тексты...

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий