Формула релевантности 2

12
C
На сайте с 17.08.2002
Offline
82
1820

И вот опять я со своей "формулой релевантности" :)

Хочу поделиться со всеми методом получения такой формулы.

Пусть релевантность страницы на i-й позиции выдачи y1.

Пусть релевантность страницы на (i+1)-й позиции выдачи y2.

y1 = f1(x11)+...+fn(xn1)

y2 = f1(x12)+...+fn(xn2)

где

n - количество факторов

f1 - функция влияния 1-го фактора

...

fn - функция влияния n-го фактора

x11 - численное значение 1-го фактора для сайта 1

...

xn1 - численное значение n-го фактора для сайта 1

x12...xn2 - то же самое для сайта 2

Если выдача отсортирована по убыванию релевантности, то y1>y2.

Если f1...f2 линейны, то их можно представить как коэффициенты a1...an влияния каждого фактора. Тогда

y1 = a1*(x11)+...+an*(xn1)

y2 = a1*(x12)+...+an*(xn2)

y1>y2 откуда следует

a1*(x11)+...+an*(xn1) > a1*(x12)+...+an*(xn2)

a1*(x12-x11) + ... + an*(xn2-xn1) < 0

Для выдачи из 50 сайтов мы можем составить 49 таких неравенств и, таким образом, получить задачу линейного программирования (ЗЛП), в результате решения которой с условием нормировки коэффициентов (a1...an) по единице, мы получим степень влияния каждого фактора (в процентах).

Пример.

Таблица


--------------------------------
№ сайта в выдаче |x1 | x2 | x3 |
--------------------------------
1. | 2 | 2 | 4 |
2. | 3 | 0 | 4 |
3. | 4 | 0 | 3 |
4. | 4 | 4 | 0 |
5. | 0 | 1 | 3 |
6. | 3 | 3 | 0 |
7. | 2 | 2 | 1 |
8. | 1 | 2 | 1 |
9. | 3 | 2 | 0 |
--------------------------------

Составляем ЗЛП. Решаем ее. Получаем:

a1 = 0,234103946

a2 = 0,281897515

a3 = 0,483998539

Но у метода есть и недостатки.

Во-первых, трудно выбрать нужные факторы.

Во-вторых, не известны численные значения некоторых из них.

В-третьих, каждая из функций f1...fn зависит от одного фактора, а не от их совокупного влияния.

В-четвертых, f1...fn не обязательно линейные функции. Например, функцию влияния плотности ключ. слова на странице разумно было бы использовать нелинейную, например, корень из x. Или даже сделать ее убывающей, начиная с какого-то значения.

Контраргументы:

1. В модели могут использоваться неограниченное количество факторов.

2. В некоторых случаях достаточно знать ранг значения фактора для данной страницы (т.е. достаточно знать, что для одной страницы значение больше, чем для другой). Соответствующий метод, оперирующий некоторыми факторами, как рангами, _сложнее_, чем метод, описанный выше.

3. Различные комбинации влияния факторов можно рассматривать как новые факторы.

4. К счастью, существует метод, рассматривающий функции f1...fn как нелинейные и идентифицирующий их. Эта модификация _значительно_сложнее_, чем рассматриваемый метод.

Спасибо за внимание ;)

asdfqwer
На сайте с 09.07.2006
Offline
26
#1

эээ, я конечно понимаю, что вопрос может немного глупый, но все же:

каким образом я могу теперь это использовать и что мне дает твоя формула? :)

[Удален]
#2

asdfqwer, обьясняю проще. Есть функция F(x1,...,xn), где x1...xn - факторы, влияющие на ранжирования. Получить ее невозможно по определению (ибо нужно во-первых иметь полностью аналогичную базу, во-вторых, мы не знаем какие факторы, кроме общеизвестных яндекс вообще использует). Недоалгебра очередная, короче.

SZ
На сайте с 14.03.2005
Offline
129
#3

Немного в другого бока. но обсуждалось:

/ru/forum/37145

Я лично очень согласен с этим:

/ru/forum/comment/1074282

Технологии нефтепереработки (http://www.oil-solutions.ru) Технологии виртуализации (http://www.VDI-Tech.ru)
Shema
На сайте с 01.12.2005
Offline
176
#4

Зависимость с большой вероятностью линейная (ресурсы-то не резиновые у Яндекса!)

Но есть всякого рода форс-мажорные (понижающие) факторы, я бы к ним отнёс фильтры и глюки базы. Притом фильтры могут быть как на сами сайты, так и на сайты, ссылающиеся на исследуемый.

Вышеуказанным методом можно разве что проанализировать как влияют внутренние факторы, читай, разные теги, да это и так более менее известно и не представляет большого интереса.

Студия Design Coda (http://www.designcoda.ru/). Личные контакты: +7(903)1367564, skype:andrey.oshemkov, telegram:@oshemkov. WMID: 492025973671 (https://passport.webmoney.ru/asp/certview4.asp?wmid=492025973671), делаем и рекламируем сайты, мобильные приложения, ботов для Telegram.
C
На сайте с 17.08.2002
Offline
82
#5
asdfqwer:
каким образом я могу теперь это использовать и что мне дает твоя формула?

Как это использовать Вы должны решить сами в меру своих потребностей и способностей. А на вопрос, что дает формула, есть ответ в моей теме "Формула релевантности".

Miha Kuzmin (KMY):
ибо нужно во-первых иметь полностью аналогичную базу

Не понятно зачем. В моем методе это не нужно :)

Miha Kuzmin (KMY):
во-вторых, мы не знаем какие факторы, кроме общеизвестных яндекс вообще использует

Это действительно так. Но не стоит забывать, что количество характеристик сайта, доступных Яндексу для анализа ограничено. Большинство из них доступны для анализа.

Sergey_Z:
Я лично очень согласен с этим...

Вы согласны с тем, что решив прямую задачу не всегда можно решить обратную. Я тоже с этим согласен. Только в данном случае это не так. Рассматриваемая задача очень похожа на задачу параметрической идентификации, которые успешно решаются. Не вдаваясь в подробности, предлагаю Вам обратить внимание на пример (я же привел пример ☝). В нем решена обратная задача. По-моему более наглядное доказательство того, что обратная задача в данном случае имеет решение, и представить сложно :).

Shema:
Зависимость с большой вероятностью линейная (ресурсы-то не резиновые у Яндекса!)

Когда-то давно мы разговаривали с Казаком про его теорию разных d (при расчете PR). Я предположил, что поисковой системе так считать было бы очень трудно. Он мне задал вопрос, который я теперь хочу задать Вам. А хранить копию каждой (!) страницы в Интернете легче?

На мой взгляд, нелинейные зависимости - это обязательное условие адекватного формирования выдачи. Можно взять ту же плотность слова в тексте. Неужели это правильно, что с увеличением плотности до 100% страница получает наибольшую прибавку к релевантности "за плотность"? Конечно нет! Плотность слова в тексте равная 100%, это 100% поисковый спам.

По-моему гораздо более адекватно себя бы вела функция

=33*A1+3000*A1^2-280000*A1^3+8*10^6*A1^4-6*10^7*A1^5

(можете построеть ее в Excel для значений от 0 до 0,09).

Релевантность плавно растет до 7%, а потом резкий спад. Если бы она не уходила сильно в минус при плотности >%9, она была бы почти совершенна :). Но подобрать более удачную формулу - дело техники.

Shema:
есть всякого рода форс-мажорные (понижающие) факторы, я бы к ним отнёс фильтры и глюки базы

Я уже когда-то писал, что фильтры и глюки, в результате действия которых страницы выпадают из выдачи или опускаются слишком сильно вниз вообще не оказывают влияния на результат. Они просто не участвуют в расчетах.

Shema:
Вышеуказанным методом можно разве что проанализировать как влияют внутренние факторы, читай, разные теги, да это и так более менее известно и не представляет большого интереса.

Ключевые слова здесь "более менее". В SEO вообще все "более менее" известно. Уверен, что, казалось бы, на простой вопрос, оказывает ли влияние на выдачу тег <i> или <em>, Ваш ответ был бы "...ну..., может быть..., но это влияние очень мало..." :). Что касается более сложных вопросов, например,

1. На сколько более сильное влияние оказывают слова в теге <title>, чем в тексте страницы.

2. На сколько должен увеличиться ссылочный бюджет, если заказчик не хочет, чтобы слово употреблялось на сайте.

то я вообще сомневаюсь, что кто-то знает на них ответы.

Исследовать таким образом можно не только внутренние факторы, конечно же.

Но понадеемся на Миху

Недоалгебра очередная, короче.

Человек во всем разобрался и знает, о чем говорит! :)

kozlodoy
На сайте с 06.03.2006
Offline
174
#6

Понаписал то сколько...

Это типа как в карты математики пытаюстся вывести формулу выигрыша :) Или описать вселенную одним уравнением :)

Виктор Нагайцев SeoProvider (http://seoprovider.ru) - cервис продвижения по коммерческим, социальным, контентным и поведенческим факторам ранжирования.
Recluse
На сайте с 23.03.2006
Offline
93
#7

На самом деле все придельно просто:

Имеем черный ящик, читай Яндекс, есть факторы на входе (ссылочное, плотность ключивиков и т.п.) есть факторы на выходе (позиции в выдаче).

Кто сумет правильно подобрать коэфициенты и зависимости , таму будет щастье....

Recluse
На сайте с 23.03.2006
Offline
93
#8

В рассылке от Ашманова была неплохая статья по этому поводу, называлась чтото, типа: "Метод уникальных ключевых слов". Это когда придумываешь слова, которые нигде не встречаются (нужно для чистоты эксперементов), создаешь несколько сайтов, используя эти слова как ключевики, и манипулируя факторами, пытаешься выяснить степень влияния того или другого.

Минус только один: за то время, пока проводится эсперемент, в Я успевает все поменяться на столько, что требуется проведение нового эксперимента для выяснения того, чтоже поменялось, и так до бесконечности....

И еще одно, на всякий выявленый фактор, найдется с десяток других (неучтенных или приобретенных путем наложения фильтра), которые все потуги сведут на нет...

T
На сайте с 30.05.2006
Offline
25
#9

полностью согласен, но для внутренних факторов можно пользовать яндекс десктоп, кажется так называется, самое сложное - понять что яше нужно во внешних факторах, а не во внутренних, вот тут действительно не разберешься без поллитры=( то у них база попадает, то еще что

весь мир - игра... нашего воображения
greenwood
На сайте с 08.09.2003
Offline
519
#10
Recluse:
"Метод уникальных ключевых слов". Это когда придумываешь слова, которые нигде не встречаются (нужно для чистоты эксперементов), создаешь несколько сайтов, используя эти слова как ключевики, и манипулируя факторами, пытаешься выяснить степень влияния того или другого.

а учет конкуренции где ?

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий