Теркин

Рейтинг
53
Регистрация
16.01.2005

у меня по недвижимости все спокойно.

У меня один сайт с мордами стоит там же где и был,

а второй вылетел, но там главная сайта вылетела.

alut,

I. Цель.

Не совсем так, коэффициент передачи PR со страницы на страницу внутри домена мы хотим рассчитать из результатов эксперимента. Цель первого эксперимента узнать сколько нужно ссылок (L) со страницы, чтобы получить ПР на единичку меньше. В последующем (их) эксперименте мы проверяем сохраняется ли количество ссылок L для других значений ПР. Если да, то ПР на две единички ниже, должен получаться из L*L. Если это не так, то тут и встает вопрос действительно ли начальный ПР был "маленьким". Далее можно построить обратный эксперимент (ы) чтобы выяснить сколько нужно страниц, чтобы собрать ПР на единичку (на две) больше на одной странице.

III Действия

1) Берем домен1 (без внешних ссылок) – PR=5. Внешние ссылки на домен будут (одна -две).

пунк 3 нужно поменять местами с пунктом 4. Иначе гугл не проиндексирует все страницы.

Исходя из структуры ссылок Пр должен дойти до каждой страницы, соответственно проблем с индексацией не должно быть.

V Помехи

Я так понимаю помехи - не влияют на чистоту эксперимента.

Так как эти пункты влияют только на время проведения эксперимента.

Я не думаю, что минимум год. Нужно дождаться индексации всех страниц. После чего Дождаться пересчета пр на тулбаре. Думаю максимум год.

Cage:
Я считаю, что такая ситуация возможна: слагаемое (1-d) больше, чем d*sum(...).
Но ничего конкретного о них (слагаемых) я сказать не могу. Вообще-то как раз Ваш эксперимент должен был бы пролить свет на этот вопрос...

Рад что вы это заметили сами. С остальным вполне согласен..

Cage:
Нет. Вот там где Вы придумали и выделяли множества различных PR, Вы можете выделить еще одно множество: PR посчитан для всех страниц, но не нормирован по единице. Такой PR можно посчитать по формуле
PR = (1-d) + d*sum(...)

Но после такого подсчета понадобится нормировка, т.к. в результате решения системы таких равенств сумма всех PR может быть больше 1. Здесь значение (1-d) ~ 0,15 и PR имеет сравнительно большое значение.

Но можно воспользоваться формулой
PR = (1-d)/N + d*sum(...)

Здесь в результате решения системы PR будет нормирован по единице, т.е. значения PR будут очень маленькими, но (обратите внимание) слагаемое (1-d) в свою очередь делится на N (число страниц в интернете, очень большое число).

Таким образом, оба слагаемых (и начальный "бонус" страницы за ее существование, и PR, передаваемый внешними ссылками) могут оказаться "сопоставимыми" друг другу (для страниц с очень низким PR).

Тут я не спрашиваю, так ли на самом деле, я спрашиваю возможность такой ситуации.

Когда я говорил "большой" и "маленькая часть" я не имел в виду численные значения. Большой в смысле во много раз больше чем маленький. Но это могут быть очень маленькие числа.

Теперь непонятно если начальный маленький, а по ссылке передается его основная часть. То почему нельзя пренебречь маленьким значением?

Cage:
Считается, что PR - это вероятность нахождения пользователя на какой-то странице в интернете. Также считается, что на какой-то странице он находится в любом случае, поэтому sum(PR)=1.

Ну если вероятность, то сумма действительно должна равняться 1.

Теперь представьте ситуацию, что во всем интернете найдется сайт визитка, внутренняя страница или еще что-нибудь на которых (на этих страницах) нет ссылок (любых внешних или внутренних), при этом на них могут ссылаться. Эти страницы не передают свой ПР никому, даже часть.

Мы сложили весь ПР получили 1.

Теперь все эти страницы поставили по одной ссылке на другие страницы. Соответственно ПР на других страницах вырос. Количество страниц не изменилось. Сумма ПР тоже выросла и уже больше 1.

По-моему нельзя предугадать сумму ПР. Можно определить самое большое значение суммы ПР и нормировать. С этим я не спорю, но сумма будет меньше либо равна 1. Она не может быть постоянной.

Cage:
Конечно ее стоит почитать. И даже ссылку не плохо бы оставить, чтобы ее могли почитать все, в том числе и я

Почитал статью, про формулу там ничего нет, да и вообще статья не очень интересная. Ссылку не размещу, так как (насколько знаю) владелец сайта довольно известный человек на этом форуме. Мало ли ему не понравится это. Если все еще заинтересованы скину ссылку в личку.

alut, Я тоже не совсем понял ваши пункты. Не ответил потому, что надеялся, что Cage все объяснит.

Cage:
Вот не понятно, почему Вы так решили. x1 - вот это действительно маленькая величина.

Выходит что начальный ПР очень большой, а по ссылке передается очень маленькая его часть?

Cage:
Сумма реальных PR всех страниц в интернете равна 1.

Вот здесь я не понял, почему сумма равна 1. Вы наверное хотели сказать не больше 1. А вообще первый раз слышу об этом. Формулу с N видел недавно в одной статье, но не придал этому значения. Видимо все-таки придется прочитать ту статью. =)

skat, А "ожидалась минимум 4" это не прогноз?

И откуда он мог ожидать 4? Думаю, что он и раньше это делал, а это своего рода эксперимент.

Если работать по вашей схеме, то можно было бы работать только с контентом и не задумываться, что еще влияет на релевантность документа.

Cage:
Гораздо более логично (на мой взгляд) было бы записать:
x1 = (1-d) + d*(x2/50)
x2 = (1-d) + d*60*x1

Здесь уже так просто все не сокращается. Это система из двух уравнений с тремя неизвестными.

Вернемся к Вашему равенству
PR(x1) = PR((1-d) + d*(x2/50))

PR(x1)=1
PR(x2)=2

Как из PR(x2)=2 Вы можете найти
PR((1-d) + d*(x2/50)) ?

Вы не могли бы записать это в виде равенства
PR((1-d) + d*(x2/50)) = ... ?

Нет не могу. Так как вначале нужно доказать некоторые предположения, которые я выдвинул. Возможно эти предположения не верны.

Я лучше создам свой бар со своим PR. Назовем его ТR ;)

ТR = log(PR)

ТR1 = log(PR1)

ТR2 = log(PR2)

ТR1+ТR2 = log(PR1*PR2) (1)

ТR1-ТR2 = log(PR1/PR2) (2)

Мне даже не нужно знать формулу пересчета, нужно только доказать два последних равенства.

TR(x1) = TR((1-d) + d*(x2/50)) (3)

Операции сложения у нас нет, поэтому от нее нужно избавиться. (1-d) это маленькая величина по отношению к x1 думаю она будет соизмерима с погрешностью получения единички из эксперимента. Поэтому ею можно пренебречь. Если вас это смущает, то можно взять не единичку и двойку, а двойку и тройку. Тогда (1-d) будет меньше погрешности для получения двойки. Чего вполне достаточно.

Пренебрегая (1-d) переписываем формулу (3).

TR(x1) = TR(d*(x2/50))

Откуда согласно (1) и (2)

TR(x1) = TR(d)+TR(x2)-TR(50)

подставляем наши 1 и 2 можно 2 и 3, кому что больше нравится. :)

1 = TR(d) + 2 - TR(50)

TR(50) - TR(d) = 1

Cage:
Вообще-то весь мой 21 пост в этой теме посвящен тому, что так делать нельзя. Подставлял для наглядности :)

Ну я то точно так не делал. :)

Cage:

Давайте для начала уточним, что Вы имеете в виду под функцией PR(). Что в ней аргумент, а что - зависимая переменная?

это "функция для получения точного, не округленного ПР" (реального), зависящая от PR на баре
x1 = PR(B)

или это функция получения округленного PR на баре, зависящая от реального PR
B = PR(x1)

?

Не то и не другое.

B = PR(x1)

Но В - это не округленный ПР на баре.

Дело в том что округленный ПР на баре не позволяет вернуться к истинному ПР. Это из дискретной математики. Теорию я не помню это давно было. Попробую объяснить своими словами.

Представьте три множества.

Первое Истинный ПР.

Второе не округленный ПР на баре. Одному элементу из первого множества соответствует один элемент из второго, полученный путем преобразования по функции B = PR(x1). Мы можем как перейти во второе множество, так и вернуться из него.

Третье множество это округленный ПР на баре. Нескольким элементам из первого множества соответствует один элемент из третьего. И назад вернуться уже нельзя.

Соответственно округленный ПР абсолютно бесполезная вещь. Эксперимент позволяет перейти во второе множество, откуда уже можно перейти в первое, зная функцию B = PR(x1). Ее мы не знаем, я предполагаю, что это логарифм с константами или нет. Думаю, что серия экспериментов поможет это выяснить.

В расчете d где-то ошибка, а где понять не могу.

Cage:

1. Ну это же не повод придумать новую, неправильную формулу :)
2. Эта информация сомнительной полезности :)
Ведь ее не получится интерпретировать для страниц с бОльшим PR...
3. Пересчитайте еще раз CageRank :)
2!=200
50!=0.5

1. Новую не нужно придумывать. У вас ошибка. Формула для истинного ПР, а вы подставляете баровский. Обозначим функцию для получения точного, не округленного ПР через PR(). Откуда

1=PR(x1), 2=PR(x2), где x1, x2 истинный ПР.

Вашу формулу можно записать в другом виде произведя преобразования над левой и правой частью согласно функции PR().

PR(x1) = PR((1-d) + d*(x2/50))

надеюсь с этим никто спорить не будет? ;)

и только тогда PR(x1) можно заменить на 1

1 = PR((1-d) + d*(x2/50))

Но PR(x2) у нас нет.

2. Вот тут и появляется необходимость в этой информации "сомнительной полезности". А именно чтобы выделить величину PR(x2). А точнее нужно провести не один эксперимент чтобы это сделать. Есть основание думать, что операции умножения в баре заменены на сложение, а деления на разность. Соответственно функция для пересчета истинного ПР в баровский логарифмическая. Это и хочу определить, но объяснять это мне совсем не охота, так как это еще доказать нужно. И к эксперименту это мало относится, а стоится все на информации "сомнительной полезности".

3. С CR я действительно ошибся. Мешает 100, но зависимость все равно остается.

CR(x1 * x2) = CR(x1) * CR(x2)/100

CR(x1 / x2) = CR(x1) / CR(x2)*100

Как вам такой вариант использования данных с двух экспериментов прямого и обратного. Мы знаем, что из 2-ки по одной из 50-ти ссылок передается 1, но нам нужно 60 единичек, чтобы собрать 2-ку. Откуда мы потеряли 10 ссылок потери в обоих случаях были равны. Следовательно, без потерь нам бы понадобилось 55 ссылок в обоих случаях.

x1 = (1-d) + d*(x2/50) с потерями

x1 = (1-d) + x2/55 без потерь

откуда

(1-d) + d*(x2/50) = (1-d) + x2/55

d*(x2/50) = x2/55

d/50 = 1/55

d = 50/55

Всего: 245