Возраст и траст сайта: дискретны или непрерывны?

DC
На сайте с 29.04.2008
Offline
13
#51

мое мнение, что все доверительные коэффициенты если и есть, то строятся как обычно по правилу порога, поясню, на примере, показательной пороговой функции:

Y=1-1/(X+1) рассмотрим при X >= 0 - например, это возраст сайта

тогда сначала рост существенный, но потом не существенный. Если X например считать в месяцах, то порог "0.5" будет пройден через месяц, а порог 0.9 через 9 месяцев (страшный срок прямо) и через 12 месяцев значение такого коэфф. будет 0,92. Дальнейшее значение будет медленно приближаться к 1, но не достигнет ее.

Теперь положим, что мы нам нужно отсеять ссылки с новоиспеченных сайтов и мы вешаем такую функцию на веса, исходящих ссылок. Это могло бы быть логично, потому что она именно отсеит молодые сайты. Тогда возможна ситуация когда скачки роста вначале есть, а потом стихают - кстати такая ситуация часто и наблюдается.

Пороговых функций много, я привел самую простую, они определяются как правило статистикой, но все характеризуются скоростью роста и периодом полуроста - это точка где график переваливает за 0.5 (ну если нормированно на единицу). В хвосте они все ведут себя очень похоже и хвост не интересен обычно.

есть пороговые функции которые просто растут не к единице, а к y = x или что-то в таком духе, но это отдельная история.

Поэтому я склонен думать что дискретность в некотором смысле есть при малых значениях - там малые изменения дают большой рост, но пропадает с ростом величин.

xant
На сайте с 17.12.2008
Offline
65
#52
Dryoma:
Ну и словечки!! Совокупное влияние 😮 Это еще что? А что если мне не нужно ваше совокупное влияние а нужно просто произведение?

Что значит "нужно"? Если вы просто так балуетесь - то конечно пожалуйста, берите хоть произведение, хоть косинус между словами вычисляйте (с) яндекс. Но вот если вам нужно получить математически обоснованный результат при обсчете большого количества данных, то такое баловство уже не пройдет.

Чтобы вы поняли, приведу максимально наглядный пример. Возьмем изображения, самые обычные картинки. В качестве "совокупного влияния" рассмотрим такую операцию, как смешивание изображений с полупрозрачностью. Та самая opacity в CSS и фотошопе. Пусть у нас изображения - это две матрицы A и В, а степень полупрозрачности обозначим как alfa, 0<=alfa<=1.

Тогда операция смешивания изображений будет иметь вид:

C = alfa*A + (1-alfa)*B

Почему? Потому что обычные изображения оптического диапазона имеют нормальное распределение шумов.

Если взять радиолокационные изображения, которые подчинены гамма-распределению, то там эта формула работать не будет и нужно будет использовать произведение вместо суммирования.

И наоборот, если вы используете произведение вместо суммирования для оптических изображений, вы получите фигню, а не полупрозрачность. Так понятнее?

Эксклюзивные сайты и веб-2.0 приложения под ключ. Дорого.
Dryoma
На сайте с 24.12.2007
Offline
12
#53
drCurpatov:
Если вы оцениваете влияние нескольких стат факторов на конечную величину, то наиболее вероятно (опять же так обычно себя ведут статистические законы) ваше влияние описано функцией вида "сумма(коэффициент*фактор влияния)"

Можно ссылку на это утверждение в авторитетных источниках?

drCurpatov:
Чтобы коэффициент распадался на множители нужны тоже очень веские доводы связности этих множителей и зависимости их друг от друга, как правило такие связи очень редки.
drCurpatov:
связь xy как правило говорит о эффективности на кол-во, например число рабочих на время - это человеко часы производства чего либо. А вот возраст домена на кол-во ссылок - это что? что-то вменяемое?
Именно поэтому теория ху не вызывает доверия - нет доводов.

В формуле TF*IDF кто эффективность а кто рабочие? Если вы вдруг скажете, что IDF это эффективность, а TF --- это рабочие, то почему бы трасту не умножаться на виц (например, траст это эффективность, а ВИЦ --- рабочие):)

Если вы таким образом аргументируете умножение, интересно, как вы аргументируете, например логарифмы.

drCurpatov:
мое мнение, что все доверительные коэффициенты если и есть, то строятся как обычно по правилу порога, поясню, на примере, показательной пороговой функции:
Y=1-1/(X+1) рассмотрим при X >= 0 - например, это возраст сайта

Я никакого порога на гиперболах не вижу.

xant:
Что значит "нужно"? Если вы просто так балуетесь - то конечно пожалуйста, берите хоть произведение, хоть косинус между словами вычисляйте (с) яндекс. Но вот если вам нужно получить математически обоснованный результат при обсчете большого количества данных, то такое баловство уже не пройдет.

В физике значения почти всех величин распределены по Гауссу, тем не менее формулы бывают достаточно сложными.

Уверен, что для Яндекса важнее чтобы в топе были релевантные сайты, чем чтобы погрешности величин которые входят в их формулу складывались так как вам нравится.

Я не агитирую ни за какие произведения, просто ваши аргументы неубедительны.

xant:
Тогда операция смешивания изображений будет иметь вид:
C = alfa*A + (1-alfa)*B

Шумы тут ни при чем.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий