Форум Практика оптимизации Общие вопросы оптимизации

Возраст и траст сайта: дискретны или непрерывны?

Mantius · 2009-03-07T18:44:15.0000000Z

Возник такой вопрос: какой характер поведения(дискретный/непрерывный) у этих величин при расчете влияния на выдачу? Скажем, есть ли набор каких-то четких отметок возраст, переходя через которые сайт совершает "скачек" в выдаче или он просто становится авторитнее с каждым днем/часом и такие отсечки выделить нельзя? Также с трастом: скажем, сайт продвигается по запросам "рога" и "копыта", но среди внутренних страниц есть страница про "комбикорм", которая не имеет ни одной ссылки извне на себя. По мере роста авторитетности сайта эта страница поднимается в выдаче: будет ли этот подъем плавным по мере прибавления количества ссылок(за каждую ссылку) на другие страницы сайта или он будет носить скачкообразный характер, например, прибавляя одну у.е.(условную единицу) авторитетности за каждую сотню входящих ссылок?

drCurpatov

14 марта 2009, 08:54

#51

мое мнение, что все доверительные коэффициенты если и есть, то строятся как обычно по правилу порога, поясню, на примере, показательной пороговой функции:

Y=1-1/(X+1) рассмотрим при X >= 0 - например, это возраст сайта

тогда сначала рост существенный, но потом не существенный. Если X например считать в месяцах, то порог "0.5" будет пройден через месяц, а порог 0.9 через 9 месяцев (страшный срок прямо) и через 12 месяцев значение такого коэфф. будет 0,92. Дальнейшее значение будет медленно приближаться к 1, но не достигнет ее.

Теперь положим, что мы нам нужно отсеять ссылки с новоиспеченных сайтов и мы вешаем такую функцию на веса, исходящих ссылок. Это могло бы быть логично, потому что она именно отсеит молодые сайты. Тогда возможна ситуация когда скачки роста вначале есть, а потом стихают - кстати такая ситуация часто и наблюдается.

Пороговых функций много, я привел самую простую, они определяются как правило статистикой, но все характеризуются скоростью роста и периодом полуроста - это точка где график переваливает за 0.5 (ну если нормированно на единицу). В хвосте они все ведут себя очень похоже и хвост не интересен обычно.

есть пороговые функции которые просто растут не к единице, а к y = x или что-то в таком духе, но это отдельная история.

Поэтому я склонен думать что дискретность в некотором смысле есть при малых значениях - там малые изменения дают большой рост, но пропадает с ростом величин.

xant

14 марта 2009, 15:35

#52

Dryoma:
Ну и словечки!! Совокупное влияние 😮 Это еще что? А что если мне не нужно ваше совокупное влияние а нужно просто произведение?

Что значит "нужно"? Если вы просто так балуетесь - то конечно пожалуйста, берите хоть произведение, хоть косинус между словами вычисляйте (с) яндекс. Но вот если вам нужно получить математически обоснованный результат при обсчете большого количества данных, то такое баловство уже не пройдет.

Чтобы вы поняли, приведу максимально наглядный пример. Возьмем изображения, самые обычные картинки. В качестве "совокупного влияния" рассмотрим такую операцию, как смешивание изображений с полупрозрачностью. Та самая opacity в CSS и фотошопе. Пусть у нас изображения - это две матрицы A и В, а степень полупрозрачности обозначим как alfa, 0<=alfa<=1.

Тогда операция смешивания изображений будет иметь вид:

C = alfa*A + (1-alfa)*B

Почему? Потому что обычные изображения оптического диапазона имеют нормальное распределение шумов.

Если взять радиолокационные изображения, которые подчинены гамма-распределению, то там эта формула работать не будет и нужно будет использовать произведение вместо суммирования.

И наоборот, если вы используете произведение вместо суммирования для оптических изображений, вы получите фигню, а не полупрозрачность. Так понятнее?

Эксклюзивные сайты и веб-2.0 приложения под ключ. Дорого.

Растолкованный PageRank, часть 6 Нужен ли более дешевый Google: добавление новых страниц

Dryoma

14 марта 2009, 17:47

#53

drCurpatov:
Если вы оцениваете влияние нескольких стат факторов на конечную величину, то наиболее вероятно (опять же так обычно себя ведут статистические законы) ваше влияние описано функцией вида "сумма(коэффициент*фактор влияния)"

Можно ссылку на это утверждение в авторитетных источниках?

drCurpatov:
Чтобы коэффициент распадался на множители нужны тоже очень веские доводы связности этих множителей и зависимости их друг от друга, как правило такие связи очень редки.

drCurpatov:
связь xy как правило говорит о эффективности на кол-во, например число рабочих на время - это человеко часы производства чего либо. А вот возраст домена на кол-во ссылок - это что? что-то вменяемое?
Именно поэтому теория ху не вызывает доверия - нет доводов.

В формуле TF*IDF кто эффективность а кто рабочие? Если вы вдруг скажете, что IDF это эффективность, а TF --- это рабочие, то почему бы трасту не умножаться на виц (например, траст это эффективность, а ВИЦ --- рабочие):)

Если вы таким образом аргументируете умножение, интересно, как вы аргументируете, например логарифмы.

drCurpatov:
мое мнение, что все доверительные коэффициенты если и есть, то строятся как обычно по правилу порога, поясню, на примере, показательной пороговой функции:
Y=1-1/(X+1) рассмотрим при X >= 0 - например, это возраст сайта

Я никакого порога на гиперболах не вижу.

xant:
Что значит "нужно"? Если вы просто так балуетесь - то конечно пожалуйста, берите хоть произведение, хоть косинус между словами вычисляйте (с) яндекс. Но вот если вам нужно получить математически обоснованный результат при обсчете большого количества данных, то такое баловство уже не пройдет.

В физике значения почти всех величин распределены по Гауссу, тем не менее формулы бывают достаточно сложными.

Уверен, что для Яндекса важнее чтобы в топе были релевантные сайты, чем чтобы погрешности величин которые входят в их формулу складывались так как вам нравится.

Я не агитирую ни за какие произведения, просто ваши аргументы неубедительны.

xant:
Тогда операция смешивания изображений будет иметь вид:
C = alfa*A + (1-alfa)*B

Шумы тут ни при чем.

Яндекс кобласит Не платил налоги к Джон Мюллер о роли

Зачем быть уникальным в мире, где все можно скопировать

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Возраст и траст сайта: дискретны или непрерывны?