Экспериментальные данные о "новом" алгоритме Яндекса

nickspring
На сайте с 29.03.2006
Offline
228
#201

Analitik2000, опишите поточнее Ваш эксперимент. Помоему мало кто понял что Вы фиксировали, что меняли в контенте.

Analitik2000
На сайте с 11.09.2006
Offline
5
#202
nickspring:
Analitik2000, нет, я только привел то, что нашел на форуме. А в вашей меня смущает /7 - откуда взялось и что значит?

______________________________

А-а-а.. точно. Вроде ХРНС так писал, тока в другой теме... или я что-то неправильно понял... В принципе, смысла от этой семерки никакого в плане того, что на результат она не влияет, просто видимо из-за того, что количество самого часто встречающегося слова (КСЧВС), по мнению ХРНС, берется не ниже 7, видимо делить на 7 надо для нормировки к единице.

А вообще, в эксельке набросал - по диаграмме все понятно. И корень и начало КСЧВС с семерки - для нормировки.

Вот...

zip 2973.zip
ХренРедькиНеСлаще
На сайте с 27.07.2006
Offline
57
#203

Итак. продолжим.

Выкладываю еще несколько опытов (см файл внизу, а в нем начните с самого низа читать).

Выводы.

Еще раз убеждаемся, что стопслова учитываются в тошноте.

Так как число стоп слов ( в нашем примере ниже это предлог "в" 67 и 232 раза соответственно) не подгонялось специально, а страницы для эксперимента взяты почти с потолка, то цифры совпадений впечатляют.

2. Другие опыты на наших тестовых страницах показывают, что страницы с числом ключевика самого частого (НО НЕ ПРЕДЛОГА!!!) 40, 30 и 20, практически идентичны при запросе по этому ключевику.

Миныч предложил проверить такую штуку:

Яндекс анализирует самое частое слово и если это не стопслово, то очень критически к этому относится, вплоть до введения другой формулы для запроса по самому частому слову. Для стопслов и запроса по стопслову, мы проверили, модификации нет.

Для "другой" формулы ее вид получен, но пока повременим выкладывать.

Еще более интересный вопрос по двусловным запросам. Миныч считает, что Яндекс может слова из двусловных запросов таким же макаром сравнивать с числом стоп слов и если они выбиваются из "естественной" статистики !естественного" текста, также вводить "альтернативную формулу" для двусловных запросов, тем самым ударяя по дорвеям и прочим любителям спама :)

Скоро займемся проверкой таких штук. Прошу двусловные запросы обсасывать в другой теме!!! :

/ru/forum/98225

Приведу некоторые слова из текста файлика:

Грубые измерения ступенек Миныча смотрим со строки 380, более точные следуют далее

Величина ступеньки Миныча из данных измерений (берем одно из самых точных измерений) для урла url1 = "bourabai.georisk.kz/tyapkin/ruzichka.htm"

0,06394806852234

Величина ступеньки Миныча из данных измерений (берем одно из самых точных измерений) для урла url2 = "bourabai.georisk.kz/tyapkin/biography.htm"

0,11899645481176

Самое частое слово в урле1: слово "в" 67 раз

Самое частое слово в урле2: слово "в" 232 раза

Квадрат отношения ступенек урла 2 к урлу 1 равен:

3,46268656992025

Отношение самых частых слов равно 332/67:

3,46268656716418

Сравниваем два числа красного цвета, которые получены совершенно разным способом, но как ни странно практически равны :)

Что прекрасно согласуется с теорией Миныча.

Из этих же экспериментов следует аддитивность и линейность по вкладу в релевантность членов вида (если отбросить "округление" из-за ступенек):

Релевентность=КОНСТ*(число ключей)*sqrt(ln(вес ключа)/sqrt(частота самого частого слова)

Однако, другие эксперименты показывают, что Яндекс модифицирует данную формулу, если сочтет страницу спамной :)

🚬

zip 2974.zip
Дайте мне рюмку опоры и мир засветится всеми цветами радуги.
nickspring
На сайте с 29.03.2006
Offline
228
#204

Analitik2000, как я понял. Вы берете определенный текст. В нем ключевик всегда повторяется один раз. Затем Вы меняете число самого частого слова от 1 (кстати, неверно в формуле, там она всегда не меньше 7, об этом шла речь вроде бы, а не о делении) до 30. В итоге получается что с ростом "тошноты" при прочих равных релевантность контента падает, о чем ХРНС, собственно, и писал уже. Вы это на практике проверяли или просто график по формуле построили ? :)

nickspring
На сайте с 29.03.2006
Offline
228
#205

ХренРедькиНеСлаще, т.е Nкл/sqrt(Nтош) все же работает, но только до определенных пороговых (спамовых) значений? Тогда Ваш вопрос про 40 и 50 некорректен, правильное значение - некая золотая середина.

Analitik2000
На сайте с 11.09.2006
Offline
5
#206
nickspring:
Analitik2000, опишите поточнее Ваш эксперимент. Помоему мало кто понял что Вы фиксировали, что меняли в контенте.

_______________________________________

Вкладываю еще одну эксельку - там с комментами, все понятно.

Корреляция = 0.94 это из-за того, что значения весов у многих сайтов одинаковы. По Спирмену чуть меньше - 71%, но тенденция видна.

Отсюда я сделал вывод о некоем штрафе за большое КСЧВС -количество самого часто встречаемого слова. (Ну и еще по некоторым наблюдениям)

По поводу сайтов - идентичные во всем (один генератор текста :)

_______________________________________

Мож быть это и из-за количества ключевых слов... Они же и самые часто встречаемые слова

zip 2975.zip
nickspring
На сайте с 29.03.2006
Offline
228
#207

Analitik2000, где экселька? :)

ХренРедькиНеСлаще
На сайте с 27.07.2006
Offline
57
#208
nickspring:
ХренРедькиНеСлаще, т.е Nкл/sqrt(Nтош) все же работает, но только до определенных пороговых (спамовых) значений? Тогда Ваш вопрос про 40 и 50 некорректен, правильное значение - некая золотая середина.

А кто бы знал. что вопрос некорректен, если бы я сам не сказал? :)

Точнее так скажем, оказывается, что 40 или 50 для естественных, сделанных для людей сайтов, однозначно в сторону 50.

А вот для сделанных не для людей :) Там что 40, что 50 практически все равно :)

Analitik2000
На сайте с 11.09.2006
Offline
5
#209
nickspring:
Analitik2000, как я понял. Вы берете определенный текст. В нем ключевик всегда повторяется один раз. Затем Вы меняете число самого частого слова от 1 (кстати, неверно в формуле, там она всегда не меньше 7, об этом шла речь вроде бы, а не о делении) до 30. В итоге получается что с ростом "тошноты" при прочих равных релевантность контента падает, о чем ХРНС, собственно, и писал уже. Вы это на практике проверяли или просто график по формуле построили ? :)

________________________________

В первой эксельке - просто по формуле, чтобы наглядно увидень нормализацию, во второй - уже проверка на практике.

nickspring
На сайте с 29.03.2006
Offline
228
#210
ХренРедькиНеСлаще:
А вот для сделанных не для людей Там что 40, что 50 практически все равно

Не корень ли убирается из знаменателя для таких сайтов? ;) А то какой-то удачный симбиоз этой темы с Вашей темой про "Я знаю чем Яндекс ударил по дорам".

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий