5 - это отклонение от вектора оптимальных позиций
Эксперименты показывают, что это не так - корреляция маленькая...
Я описал гипотезу и результаты эксперимента. (Сайты выложить не могу, начальство не разрешает...)
Вообще-то я хотел организовать некий диалог... Результаты - приаттачу. Я не прошу рассказать мне формулу-я прошу людей, разбирающихся в мат.статистике подсказать, как можно еще оценить меру близости. В данном случае - позиций ключевых слов и оптимальных позиций, заданных в запросе. Я предложил одно - не работает. Проверил, как написано в Яндекс на РОМИП-2004 - тоже не очень подходит.
- искал, к сожалению не нашел. Где-то на этом сайте...
____________________________
Может, Яндекс использует не непрерывную функцию, а просто таблицу коэффициентов? Надо проверить...
В файле проде все понятно. 20 идентичных сайтов, в каждом один пассаж из пяти слов. Был задан запрос из этих пяти слов, ограничения (-4 6). Слева в файлике - инвертированный список с указанием позиций ключевых слов в пассаже для каждого сайта.
Будем думать...😕
Да лана, хуже не будет, зато - реклама бесплатная! ;)
Ах, да. Еще один вопрос (в первую очередь это к господам, дискутирующим по поводу текстовой релевантности)
А как считать кворум при && ???
Может быть расчет такой? - Если были найдены слова из запроса (может быть и не все), удовлетворяющие контекстным ограничениям (назовем их "подсвеченные" слова) и проходящие кворум, то все пассажи, где есть "подсвеченные" слова - релевантные и по ним считается текстовый вес.
Например, запрос "мумие лечебное купить". Находим "мумие". От него ищем "лечебное", находим, ищем "купить" - не находим, однако "мумие" и "лечебное" кворум проходят, поэтому два найденных слова учтутся при расчете релевантности. Ищем дальше. Находим еще одно "мумие", больше в окрестностях, заданных ограничениями, нет слов из запроса. Одно слово "мумие" кворум не проходит, поэтому при подстчете релевантности его не учитываем...
_________________________
Как Вам такая гипотеза? никто не проверял?
Пойду дальше думать...
😕
Вообще-то при прочих равных, <h2> дает "дополнительные баллы" примерно в таком же количестве, как и прочие зааголовки. <strong> поменьше. Однако. все дело в том, что излишне частое употребление может привести к небольшой пессимизации сайта. Все дело в "естественности" оформления и текста!
🚬
_____________________________________
Ну хорошо, а то думал, я совсем тупень.
Кстати, не из-за этой же ступенчатости возникают небольшие погрешности при расчете кворума? ;)
Вот только не пойму одного (простите, если что не так с точки зрения терминологии-не математик я :-( ))- функция текстовой релевантности линейная (непрерывная?), почему же тогда возникают ступеньки?
________________________________
В первой эксельке - просто по формуле, чтобы наглядно увидень нормализацию, во второй - уже проверка на практике.
_______________________________________
Вкладываю еще одну эксельку - там с комментами, все понятно.
Корреляция = 0.94 это из-за того, что значения весов у многих сайтов одинаковы. По Спирмену чуть меньше - 71%, но тенденция видна.
Отсюда я сделал вывод о некоем штрафе за большое КСЧВС -количество самого часто встречаемого слова. (Ну и еще по некоторым наблюдениям)
По поводу сайтов - идентичные во всем (один генератор текста :)
Мож быть это и из-за количества ключевых слов... Они же и самые часто встречаемые слова
______________________________
А-а-а.. точно. Вроде ХРНС так писал, тока в другой теме... или я что-то неправильно понял... В принципе, смысла от этой семерки никакого в плане того, что на результат она не влияет, просто видимо из-за того, что количество самого часто встречающегося слова (КСЧВС), по мнению ХРНС, берется не ниже 7, видимо делить на 7 надо для нормировки к единице.
А вообще, в эксельке набросал - по диаграмме все понятно. И корень и начало КСЧВС с семерки - для нормировки.
Вот...
Собственно, я ничего нового не придумал, просто из формулы ХРНС убрал вес слова. Вы сами уже предлагали эту формулу:
Да одно из двух: 1) по барабану - Nкл / Nтош 2) чем больше, тем лучше - Nкл / sqrt(Nтош)