Analitik2000

Analitik2000
Рейтинг
5
Регистрация
11.09.2006
5 - это вы расчитали оптимальное расстояние м/у словами?

5 - это отклонение от вектора оптимальных позиций

А эксперименты что показывают?

Эксперименты показывают, что это не так - корреляция маленькая...

Зачем тогда неправильные догадки писать?

Я описал гипотезу и результаты эксперимента. (Сайты выложить не могу, начальство не разрешает...)

Analitik2000, я не понимаю вашего поста... Вы результаты своих экспериментов выкладывать не можете, а все должны разбежаться и вам свои наработки выложить?

Вообще-то я хотел организовать некий диалог... Результаты - приаттачу. Я не прошу рассказать мне формулу-я прошу людей, разбирающихся в мат.статистике подсказать, как можно еще оценить меру близости. В данном случае - позиций ключевых слов и оптимальных позиций, заданных в запросе. Я предложил одно - не работает. Проверил, как написано в Яндекс на РОМИП-2004 - тоже не очень подходит.

киньте ссылкой с работами Миныча, потерял.

- искал, к сожалению не нашел. Где-то на этом сайте...

____________________________

Может, Яндекс использует не непрерывную функцию, а просто таблицу коэффициентов? Надо проверить...

В файле проде все понятно. 20 идентичных сайтов, в каждом один пассаж из пяти слов. Был задан запрос из этих пяти слов, ограничения (-4 6). Слева в файлике - инвертированный список с указанием позиций ключевых слов в пассаже для каждого сайта.

Будем думать...😕

zip 3432.zip
Ой, с моим сайтом экспериментируют

Да лана, хуже не будет, зато - реклама бесплатная! ;)

Ах, да. Еще один вопрос (в первую очередь это к господам, дискутирующим по поводу текстовой релевантности)

А как считать кворум при && ???

Может быть расчет такой? - Если были найдены слова из запроса (может быть и не все), удовлетворяющие контекстным ограничениям (назовем их "подсвеченные" слова) и проходящие кворум, то все пассажи, где есть "подсвеченные" слова - релевантные и по ним считается текстовый вес.

Например, запрос "мумие лечебное купить". Находим "мумие". От него ищем "лечебное", находим, ищем "купить" - не находим, однако "мумие" и "лечебное" кворум проходят, поэтому два найденных слова учтутся при расчете релевантности. Ищем дальше. Находим еще одно "мумие", больше в окрестностях, заданных ограничениями, нет слов из запроса. Одно слово "мумие" кворум не проходит, поэтому при подстчете релевантности его не учитываем...

_________________________

Как Вам такая гипотеза? никто не проверял?

Пойду дальше думать...

😕

Вообще-то при прочих равных, <h2> дает "дополнительные баллы" примерно в таком же количестве, как и прочие зааголовки. <strong> поменьше. Однако. все дело в том, что излишне частое употребление может привести к небольшой пессимизации сайта. Все дело в "естественности" оформления и текста!

🚬

ХренРедькиНеСлаще:
Это надо у Яндекса спрашивать, как у ЛПР (лицо, принимающее решение).

_____________________________________

Ну хорошо, а то думал, я совсем тупень.

Кстати, не из-за этой же ступенчатости возникают небольшие погрешности при расчете кворума? ;)

Вот только не пойму одного (простите, если что не так с точки зрения терминологии-не математик я :-( ))- функция текстовой релевантности линейная (непрерывная?), почему же тогда возникают ступеньки?

nickspring:
Analitik2000, как я понял. Вы берете определенный текст. В нем ключевик всегда повторяется один раз. Затем Вы меняете число самого частого слова от 1 (кстати, неверно в формуле, там она всегда не меньше 7, об этом шла речь вроде бы, а не о делении) до 30. В итоге получается что с ростом "тошноты" при прочих равных релевантность контента падает, о чем ХРНС, собственно, и писал уже. Вы это на практике проверяли или просто график по формуле построили ? :)

________________________________

В первой эксельке - просто по формуле, чтобы наглядно увидень нормализацию, во второй - уже проверка на практике.

nickspring:
Analitik2000, опишите поточнее Ваш эксперимент. Помоему мало кто понял что Вы фиксировали, что меняли в контенте.

_______________________________________

Вкладываю еще одну эксельку - там с комментами, все понятно.

Корреляция = 0.94 это из-за того, что значения весов у многих сайтов одинаковы. По Спирмену чуть меньше - 71%, но тенденция видна.

Отсюда я сделал вывод о некоем штрафе за большое КСЧВС -количество самого часто встречаемого слова. (Ну и еще по некоторым наблюдениям)

По поводу сайтов - идентичные во всем (один генератор текста :)

_______________________________________

Мож быть это и из-за количества ключевых слов... Они же и самые часто встречаемые слова

zip 2975.zip
nickspring:
Analitik2000, нет, я только привел то, что нашел на форуме. А в вашей меня смущает /7 - откуда взялось и что значит?

______________________________

А-а-а.. точно. Вроде ХРНС так писал, тока в другой теме... или я что-то неправильно понял... В принципе, смысла от этой семерки никакого в плане того, что на результат она не влияет, просто видимо из-за того, что количество самого часто встречающегося слова (КСЧВС), по мнению ХРНС, берется не ниже 7, видимо делить на 7 надо для нормировки к единице.

А вообще, в эксельке набросал - по диаграмме все понятно. И корень и начало КСЧВС с семерки - для нормировки.

Вот...

zip 2973.zip
nickspring:
Analitik2000, я пытался понять вашу формулу, но так и не понял смысла. Если есть желание обсудить - велкам в аську :).

________________________________

Собственно, я ничего нового не придумал, просто из формулы ХРНС убрал вес слова. Вы сами уже предлагали эту формулу:

Да одно из двух:

1) по барабану - Nкл / Nтош
2) чем больше, тем лучше - Nкл / sqrt(Nтош)

12 3
Всего: 24