Плотность ключевых фраз

dimok
На сайте с 08.11.2002
Offline
291
1095

Как постчитать плотность какого-то слова в тексте - понятно. Но вот как определить плотность фразы, например, из двух слов?

Определить плотность каждого слова и оценить по меньшей плотности?

Или взять среднее?

А как правильно?

CLICKBAZA: есть траф - будут и деньги (https://clickbaza.com/)
U
На сайте с 30.12.2002
Offline
116
#1

А зачем, если не секрет?

Вообще, плотность фразы я вижу как суммарное число слов фразы, встречающейся на странице / общее число слов на странице

С уважением, Евгений
[Удален]
#2
Как писал UEvgeny
Вообще, плотность фразы я вижу как суммарное число слов фразы, встречающейся на странице / общее число слов на странице

Скорее (Число раз, которое фраза встречается на странице * число слов во фразе )/ число слов на странице.

Только это действительно нет смысла считать. Оптимальная частота какой-то фразы на странице зависит как от слов этой фразы, так и от остальных слов страницы (ну и от остальных слов проиндексированного интернета).

dimok
На сайте с 08.11.2002
Offline
291
#3

вот например, "поисковая система". В таком виде фраза употребляется столько-то раз, но слова "поисковая" употребляется столько-то раз без слова "система" и наоборот. Как считать?

[Удален]
#4

В такой постановке вопроса - считать так, как удобнее.

U
На сайте с 30.12.2002
Offline
116
#5

dimok, ты объясни, зачем тебе это считать?

Я уже говорил, как я это вижу:

число слов "поисковая" + число слов "система" / общее число слов.

I
На сайте с 28.10.2002
Offline
108
#6

вот например, "поисковая система". В таком виде фраза употребляется столько-то раз, но слова "поисковая" употребляется столько-то раз без слова "система" и наоборот. Как считать?

dimok , у гугл тулбара есть такая полезная фича, как подсветка ("highlight") Вы сразу увидите свои слова в фразе и плотность их распределения. Минус - падежи не различает, с реестром проблема. Но для работы с сайтами-иностранцами сгодится.

NL
На сайте с 29.01.2003
Offline
212
#7
число слов "поисковая" + число слов "система" / общее число слов.

Такой способ подсчета даст одинаковый показатель и для страницы, на которой 2 раза встречается фраза "поисковая система" и для страницы, на которой есть 3 слова "поисковая" и одно слово "система" при одинаковом количестве слов. Хотя первая страница с точки зрения здравого смысла должна иметь более высокий показатель "плотности фразы" (при всей непонятности определения последней). Не зря же Яндекс учитывает расстояние между словами.

dimok, ты объясни, зачем тебе это считать?

Интерес, наверное, почти академический :)

dimok
На сайте с 08.11.2002
Offline
291
#8

Интерес не только акедемический. Да, я занимаюсь некоторыми исследованиями в этой области в рамках научной работы. Но это не главное.

Вопрос вот, в чем: по некоторому запросу я имею набор результатов, которые расставлены в порядке убывания релевантности. Алгоритма, естественно, никто не знает, но можно попробовать изучить некоторые параметры релевантности. В частности, плотность. Вот мне и интересно узнать, как определить плотность фразы - возможно, результаты наведут на какие-либо интересные мысли и идей.

число слов "поисковая" + число слов "система" / общее число слов.

Так любой может. Тут не учитывается близость слов. Согласен с замечанием NULL.

Нужен другой способ!

Smile
На сайте с 23.08.2002
Offline
206
#9
Как писал dimok
Так любой может. Тут не учитывается близость слов.

На счет близости согласен полностью. Без неё никак 🚬

Вообще это очень неоднозначно и бесполезно для русского языка имхо.. В некоторых случаях словосочетание без какого либо одного слова просто теряет смысл или меняет его.

Поэтому плотность во вногих случаях не синоним релевантности документа.

И потом, в каких ед. измерения ты предлагаешь вычислять плотность словосочетаний?

С уважением, Вячеслав Гайсин aka Smile. http://websitesales.ru (http://websitesales.su)
dimok
На сайте с 08.11.2002
Offline
291
#10
Поэтому плотность во вногих случаях не синоним релевантности документа

Об этом нет и речи. Я лишь упоминал о плотности как об одном из критериев.

И потом, в каких ед. измерения ты предлагаешь вычислять плотность словосочетаний?

В процентах. А есть варианты?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий