Попробуйте вывести формулу релевантности. Сравните результаты между собой. Обсудите возможность ее получения. Проанализируйте выдачу по запросу - Яндекс

Формула релевантности

Cage · 2020-07-28T15:09:56.0000000Z

На создание данной темы меня натолкнули две другие темы форума, которые я случайно нашел: Растолкованный ТИЦ и Ставим эксперимент по тИЦ . Меня интересует ответ на вопрос, заданный pro-maker Может кто объяснить почему до сих пор не "прокоррелирована" формула тИЦ на выборке сайтов каталога, близости в рубриках, динамике значений? :) Думаю, вместо "прокоррелирована" нужно читать, "получена/выведена/восстановлена". К сожалению, этот вопрос остался без ответа... Меня также интересует более общий вопрос вывода формулы расчета релевантности, зависящей от характеристик сайта. Мне, например, не понятно (но интересно :)) зачем оптимизаторы проводят различные эксперименты и опыты, если у всех на виду _огромное_ количество информации: и значения характеристик десятков тысяч сайтов можно получить, и выдачу по любому запросу. Я смотрю, что очень многих интересуют вопросы влияния факторов, восстановления формул (зависимостей) и т.д. Так в чем же проблема определения этих зависимостей? Очень хотелось бы обсудить эту тему...

292

anser06

2 июня 2006, 19:53

#41

Cage:
Зная формулу, Вы могли бы действовать оптимально еще и в том смысле, что Вы бы достигали по всем характеристикам сайта _достаточные_ показатели, не тратя лишние силы, деньги и время.

Уверен, что никакой экономии сил, денег и времени не будет, т.к. 99% оптимизаторов этого форума тут же воспользуются этой формулой. И всех, что ли, в топ?

A

219

alut

3 июня 2006, 07:01

#42

Cage,

То есть Ваша позиция: это сделать невозможно (потому что сложно, потому что не понятно как это сделать), но это было бы полезно. Я правильно понял?

1) Даже в любой науке (не говоря уж о технологии, как верно заметили) есть задачи принципиально неразрешимые. ИМХО но Ваша относится именно к таким.

2) Полная зависимость (а не формула) от разных факторов - бесполезна. Даже если это произойдет - Яндекс будет вынужден значительно изменить алгоритм (аналог - шифры коммерческих и госструктур), как только становится известно об утечке - они сразу изменяются.

C

82

Cage

3 июня 2006, 09:20

#43

The WishMaster:
Тут тоже есть слишком много факторов. Модель будет слишком сложной, проще экспериментировать в реальных условиях.

С этим, в некотором смысле, можно согласиться. Но, с другой стороны, факторов для анализа (у самих поисковых систем) не так много, имхо.

anser06:
Уверен, что никакой экономии сил, денег и времени не будет, т.к. 99% оптимизаторов этого форума тут же воспользуются этой формулой. И всех, что ли, в топ?

Вопрос интересный. Формула не обязательно должна быть публичной. Мы тут скорее обсуждаем возможность ее получения.

alut:
есть задачи принципиально неразрешимые. ИМХО но Ваша относится именно к таким

Я вот как раз и интересуюсь, в чем ее "принципиальная неразрешимость". Я уже задавал этот вопрос в этой теме (повторяемся :)). Вот Вы, alut, как думаете?

Наверное, люди раньше думали, что вычислить скорость света тоже "принципиально невозможно". На данный момент у меня сложилось мнение, что многие считают, что получить формулу релевантности невозможно только потому, что они не знают, как ее получить...

По методике Миныча тоже что-то никто не высказался, к сожалению :).

alut:
Полная зависимость (а не формула) от разных факторов - бесполезна. Даже если это произойдет - Яндекс будет вынужден значительно изменить алгоритм

Я уже говорил (опять повторяюсь :)), имея метод, формулу можно получать после каждой смены алгоритма. Там же я заметил, что не давать информацию об алгоритме Яндекс _не_может_ (!). Яндекс отображает выдачу пользуясь характеристиками сайтов. И то, и другое нам доступно, и это не скроешь :)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

A

219

alut

3 июня 2006, 09:41

#44

Cage,

Прежде, чем вычислить скорость света, люди научились измерять просто скорость, затем определили среду, в которой свет распростаняется и т.д.

По отношению к Вашей задаче из этого и следует важность небольших предварительных экспериментов для выяснения основополагающих вещей.

2542

The WishMaster

3 июня 2006, 18:48

#45

Cage:
С этим, в некотором смысле, можно согласиться. Но, с другой стороны, факторов для анализа (у самих поисковых систем) не так много, имхо.

Не так много?:) А ну попробуй перечислить те, которые ты знаешь и приведи пример их ЧИСЛЕННЫХ значений, так как для формулы нужны именно числа.

Кому старенького креативного копирайтера? Тематики - туризм, СЕО, творчество, кулинария, шизотерика :)

1030

Каширин

3 июня 2006, 19:05

#46

Cage, так в чем проблема-то? Выводите формулу, мы вас отговаривать больше не будем. Как выведете - запостите в этот топик.

Тогда обсудим :)

14

Миныч

4 июня 2006, 21:38

#47

Cage:
Наверное, правильнее было бы адресовать свои вопросы Минычу, но все же адресую их всем.
Откуда взялись цифры в поле "Вес тестового запроса"? Почему, если взять произвольные цифры (100, 70, 30, 20, 10, 9, 8, 7, 6, 5), посчитать для них КОРЕНЬ(LN(X)), нормировать по единице, то примерно получится "искомый" результат (невязка 0,000653184)? Это нормально? Тестировалась ли методика для других запросов?

Откуда вообще взялась формула КОРЕНЬ(LN(X))? Я проверил, куда лучше использовать формулу КОРЕНЬ(КОРЕНЬ(X)) (невязка всего 0,000314848)! Можно также воспользоваться формулой LN(LN(X)), но этот вариант несколько хуже, т.к. LN(LN(X)) вычисляется не всегда даже для положительных X. Не универсальная формула получается...

Рад тому, что почти земляки мои стали чаще попадаться. Как никак в Ст. Петергофе 4,5 года прожил и даже один год в новом Университете обучался... Да и красивые парки возле Биологического Института, у моря, всегда вспоминаю, не говоря уже о Петергофских фонтанах.

1. А почему именно 100, 70, ? В данных результат измерений, а не высосанные из пальца цифры. Главное - что какую бы линейку мы не взяли (download.ru,...), в пределах погрешности графики совпадают. Тестовый запрос для каждой "измерительной линейки" был разным, от "бухучета", до "математики", причем в запросе, как правило, было не одно слово, а взятые с оператором ИЛИ несколько слов. Плюс использовался для перекрестного контроля оператор процента %, параметр мягкости, оператор расстояния между словами,... И еще кое что :)

2. Корень из логарифма, насколько я знаю, можно смело относить на мой счет :))) И я считаю это своим достижением.

Собственно, любая монотонная функция может быть ранжирующей, но математики любят линейные функции, так вот именно эта функция "линеаризует" релевантность, т.е релевантность при такой функции становится пропорциональной числу найденных слов, умноженному на корень из логарифма веса (для однословных запросов). О "тошноте", как коэффициенте спама (или, иначе, "контрастности") мы здесь не говорим. Как и о "ступеньках".

3. Отличное совпадение разных измерительных линеек для такого спамного слова как "недвижимость" для топ10 говорит о том, что эта же формула для корня из логарифма веса используется и в ссылочном ранжировании.

4. Можно взять и другую функцию, как предложено выше, но она не будет линейна по числу найденных слов в ссылках и в тексте страницы!

Это неудобно, например, для ответа на вопрос: сколько еще мне слов "недвижимость" добавить в стоящие уже ссылки и текст страницы, чтобы догнать конкурента? Если известно, что я от него отстаю в два раза при использовании функции "корень из логарифма"? Ответ будет: в два раза больше :)

5. И, наконец, не верьте полностью пункту 4, так как он имеет одно ограничение: мы считаем, что коэффициент "тошноты" не изменится, если мы увеличим вдвое число слов "недвижимость", а это неверно! (при определенных условиях), т.к. такая вставка слов может изменить "тошноту" :)

Любовь превыше всего (http://love.minich.ru/s-isaac-newton-optics.htm) # Мне нужны новые горы # И это пройдет... "Значит это любовь с первого взгляда? А разве бывает другая любовь? Гyттиэpe, Ихтиандр - моя любовь с первого взгляда." Алгоритм Яндекса поиска и ранжирования документов y M (http://www.minich.ru/business/seo)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

120

umklaidet

5 июня 2006, 09:14

#48

Основная проблема - определить ВИЦ. Все остальное представлено в открытом виде: внутренние факторы (кол-во слов в тэгах, ссылках, словообразование), внешние (кол-во ссылок с морд, внутренних, по ключевику, без ключевика).

Варианты с ВИЦ:

1) экспериментально (ставим ссылки с уникальными словами, после апдейта смотрим серп, вариант плох большими временными затратами и отсутствием универсальности)

2) ориентир - PR ссылающихся морд, т.к. из-за редких апдейтов погрешность велика, необходимо собрать данные по ссылающимся на морды, которые ссылаются на целевой сайт. Чем больше итераций, тем меньше погрешность. (минус - погрешности все равно будут большие =), большие тех. требования)

Usability исследование вашего сайта. (http://usabiliti.ru)

C

82

Cage

5 июня 2006, 13:24

#49

Миныч:
А почему именно 100, 70, ? В данных результат измерений, а не высосанные из пальца цифры. Главное - что какую бы линейку мы не взяли (download.ru,...), в пределах погрешности графики совпадают.

Откуда взялись мои цифры, я уже говорил. Они произвольные.

Вы делаете свои выводы на основании того, что Вы берете разный набор цифр (разные линейки в Вашей терминологии), проделываете над ними нехитрые операции (X'=КОРЕНЬ(LN(X)) и нормировка) и получаете почти одинаковые результаты. Я Вам показал, что ничего необычного в том, что результаты одинаковые, нет. Они часто будут получаться одинаковыми. Вы только вдумайтесь! Результаты почти совпали с Вашими даже с _произвольными_ числами :)

А Вы ведь используйте тот факт, что результаты одинаковые и делаете многозначительные выводы.

Такая "одинаковость" результатов обеспечивается особенностью придуманных Вами преобразований (функция + нормировка).

Миныч:
Корень из логарифма, насколько я знаю, можно смело относить на мой счет )) И я считаю это своим достижением.

Я поздравляю Вас с достижением, но вот только Вы не сказали, откуда эта формула взялась?

Миныч:
Собственно, любая монотонная функция может быть ранжирующей, но математики любят линейные функции, так вот именно эта функция "линеаризует" релевантность, т.е релевантность при такой функции становится пропорциональной числу найденных слов, умноженному на корень из логарифма веса (для однословных запросов).

Здесь Ваши термины становятся совершенно не понятны. Что означает

- функция "линеаризует" релевантность

- релевантность становится пропорциональной числу найденных слов (слов, найденных где?)

- "тошнота", как коэффициент спама

Но мы оставим вопрос обсуждения Вашей терминологии, т.к. есть более интересные вопросы. Например, с чего Вы взяли, что

вот именно эта функция "линеаризует" релевантность

?

Миныч:
Можно взять и другую функцию

Взять функцию y=x (т.е. обойтись одной нормировкой без преобразований) можно? Попробуйте! Сравните результаты между собой! Удивитесь! :)

К сожалению, Вы не ответили на мои самые главные вопросы:

На каком основании Вы из рангов вычитаете ранги? Это делать нельзя...

Имеет ли значение запрос?

Проанализируйте выдачу по запросу "недвижимость|вышивание". Сравните полученные результаты с Вашими...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

14

Миныч

6 июня 2006, 20:32

#50

Cage:
Откуда взялись мои цифры, я уже говорил. Они произвольные.
Вы делаете свои выводы на основании того, что Вы берете разный набор цифр (разные линейки в Вашей терминологии), проделываете над ними нехитрые операции (X'=КОРЕНЬ(LN(X)) и нормировка) и получаете почти одинаковые результаты. Я Вам показал, что ничего необычного в том, что результаты одинаковые, нет. Они часто будут получаться одинаковыми. Вы только вдумайтесь! Результаты почти совпали с Вашими даже с _произвольными_ числами

Ничего такого доказательного Вы не привели. Возьмете произвольные цифры: получите произвольные результаты.

Подтвердите конкретным расчетом на примере, а то я даже затрудняюсь Вам разъяснить свою позицию. : не сочтите за агрессивность :)

Если же Вы возьмете другую ФУНКЦИЮ (НЕ РЕЗУЛЬТАТЫ ИЗМЕРЕНИЙ, а ИХ ОБСЧЕТ ИНОЙ формулой), то повторяемость БУДЕТ 100%, что и ДОКАЗЫВАЕТ универсальность МЕТОДИКИ ИЗМЕРЕНИЯ, а НЕ ФОРМУЛЫ!!!!

Формула же корня квадратного из логарифма имеет единственное, но УНИКАЛЬНОЕ достоинство: ОНА ЛИНЕЙНАЯ ПО ЧИСЛУ НАЙДЕННЫХ КЛЮЧЕВИКОВ!!!!

Поясню на примере:

На двух страницах есть:

на первой одно слово БОЛЬШОЙ и нет слова МАЛЕНЬКИЙ

на второй два слова МАЛЕНЬКИЙ и нет слова БОЛЬШОЙ

Допустим, что страницы НЕСПАМНЫЕ, т.е. коэффициент "тошноты" у них одинаков.

Если нет внешних ссылок, (или они все эквивалентны), то какая страница будет выше в выдаче по запросу:

БОЛЬШОЙ | МАЛЕНЬКИЙ ???

Ну-ка определите это с помощью Ваших других с потолка взятых цифр!!!

А мой ответ такой:

Если ОДИН*sqrt(ln(вес_слова_БОЛЬШОЙ))>ДВА*sqrt(ln(вес_слова_МАленький), то первой в выдаче будет будет страница со словом БОЛЬШОЙ.

К сожалению, этот ответ не совсем точен, так как Яндекс производит округления своих вычислений до целого числа, которые могут привести к РАВЕНСТВУ и тогда вступает в силу следующий критерий сортировки.

Показательные примеры таких округлений (ступенек) Вы можете увидеть здесь:

Алгоритм Яндекса поиска и ранжирования документов и сайтов

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

Формула релевантности