Алгоритм определения ключевиков?

404

Segey

13 сентября 2006, 04:30

692

Никак немогу сообразить, как простыми методами без доп баз определить по статье, какие в ней ключевики и из них выбрать ключевики для keywords?

php

Brexit - уже совсем рядом. (https://about-this-model.blogspot.com/2019/03/brexit.html)

72

maximkuk

13 сентября 2006, 05:34

#1

можно попытаться по количеству вхождений токена без учета приставки и окончания.

Just another WordPress weblog (http://maxkuk.ru)

NB

95

Nick Bubelo

13 сентября 2006, 06:42

#2

Совсем просто не получается. Я делал так:

1. Отбрасываем стоп-слова (предлоги, союзы, местоимения и т.п.)

2. Нормализуем оставшиеся. Если без словаря -- используем к-л алгоритм стемминга. Я использовал стеммер Портера ( http://snowball.tartarus.org/algorithms/russian/stemmer.html ). Хотя лучше все-таки нормализовать по ispell-овской базе (т.е., со словарем)

3. Сортируем то, что получилось, по частоте.

4. Отбрасываем все, что выше 10% (м.б., 9 или 8 -- в зависимости от объема текста)

5. Из оставшегося первая десятка (или сколько нужно -- м.б., все, что не ниже какого-то %) -- искомое множество.

6. Дополнительно сюда еще можно добавить слова из заголовка/названия (если не вошли)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

404

Segey

13 сентября 2006, 06:46

#3

Nick Bubelo:
Хотя лучше все-таки нормализовать по ispell-овской базе (т.е., со словарем)

А что за база?

Сорри а русской версии нет?

И еще может какие-то ссылочки по теме, почитать интересно :)

NB

95

Nick Bubelo

13 сентября 2006, 07:01

#4

Segey, это база, изначально предназначенная для проверки русской орфографии. Там есть словарь основных словоформ русского языка (около 100000), и формализованные правила их изменения. Обычно по ним строят полную базу всех словоформ русского языка (с аффиксами) -- около миллиона, и затем по ней нормализуют слова, найденные в тексте. Сам ispell-словарь найти в инете не поблема, возможно, найдутся и какие-то примеры использования. Гугл рулит ;)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

404

Segey

13 сентября 2006, 07:02

#5

Nick Bubelo,

Спасибо еще раз :)

322

Logistic

13 сентября 2006, 12:19

#6

Segey:
Никак немогу сообразить, как простыми методами без доп баз определить по статье, какие в ней ключевики и из них выбрать ключевики для keywords?

никак не могу понять - разве нужно идти не от ключевиков, по которым нужно продвигать сайт?... ИМХО, текст страницы можно и поменять...

С уважением, Logistic

404

Segey

13 сентября 2006, 12:24

#7

Logistic,

Ничего не понял?

K

737

Kost

13 сентября 2006, 12:28

#8

Segey:
как простыми методами без доп баз определить по статье, какие в ней ключевики и из них выбрать ключевики для keywords

Тут решается только первая задача - список слов по убыванию частоты.

А вторую задачу должен решать оптимизатор, используя еще и свою голову.

Выделенные полосы в Москве (http://www.probkovorot.info) привели к снижению скорости до 23%.

322

Logistic

13 сентября 2006, 12:31

#9

Segey:
Ничего не понял?

ну я, например, сначала подбираю ключевики, и только потом подгоняю под них тексты...

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Что делать, если ваша email-рассылка попала в спам