а кто тут статистику знает? :)

44

Cheko

11 июля 2011, 11:18

#61

Mauser:
Итак, у нас есть страна, в ней живет N интернет юзеров. M из них установили себе наш тулбар, который сообщает обо всех посещенных ими УРЛов. Они образуют нашу панель. Cкажем УРЛы нас интересуют с точностью до домена. Доменов у нас имеется всего K. Участники панели за сути посетили домен Х m раз. Соответственно мы предсказываем суточную посещаемость домена как n=m*(N/M)
Итак, вопрос: какова зависимость между посещаемостью домена X и необходимым размером панели, что бы полученная панелью оценка посещаемости отличалась от настоящей с точностью +-5% с вероятностью более 95%?

В бой вступает школота:

Т.к. условий, ограничивающих значения нет, то пусть:

N=2 (Бывают и такие страны)

M=?

K=1

m=?, m(и)=1 m(и) - истинная посещаемость.

По условию задачи: n = m(и) +- 0,05m(и) = m(и) = 1;

значит m*(N/M) = 1;

т.к. m - целое, натуральное и меньше или равно m(и), то может принимать значения 1 или 0;

0 отбрасываем, остаётся 1;

Значит: N/M = 1;

Значит: если N = M вероятность правильного расчёта 100%, что нас устраивает, если N != M, вероятность правильного расчёта 0%, что нас не устраивает;

Значит для нашего случая, что бы условие выполнялось выборка должна составлять 100% населения страны. Т.к. случай является неотъемлемой частью целого, то выборка должна всегда составлять не менее 100%.

Теперь про зависимость m и M.

m=0, M=2; m=0*M;

m=6, M=2; m=3*M;

m=8, M=2; m=4*M; и т.д.

Ответ: посещаемость домена и размер панели не зависят друг от друга, а предсказания будущего на основе статистики двух факторов - лженаука и мракобесие.

С уважением, Арсений.

Проблемы с $_POST на Ответ платона по поводу Новая, уникальная программа для

M

130

Mauser

11 июля 2011, 14:10

#62

UZPN:
Не совсем понял наверное. Если есть достаточно наборов mi ni, то берете и просто усредняете (можно сложно усреднить - взвешивать с учетом вероятности отклонения от M/N, но здесь это наверное не нужно совсем) , ...
Или нужно оценить минимальное количество таких пар, при некотором минимальном значении mi, при котором оценка M/N будет иметь необходимую точность?

Достаточно их никогда не бывает. Вопрос именно в том, что бы по наборам понять точность нашей оценки. То есть задача строго обратная, но отягощенная наличием нескольких исходных точек. Среднее то мы возьмем, но во-первых как его брать? Скажем n1/m1=1000000 при m1=1, n1=1000000, а n2/m2=2000000 на базе в 10000. И как бы не брали, вопрос сохраняется. Вот взяли как-то, оценили - и насколько мы можем верить этому?

Золото (http://www.shopxml.com) | Реальность (http://shopxml.com/page_100.html) | Серебро (http://www.shopxml.com/catalog/catalog.html?StID=14) | denaq (http://www.denaq.com/)

Как именно производится повторная Смена доменного имени без Мониторинг размера искалок -

PY

84

porque-yo

11 июля 2011, 14:50

#63

Mauser:
Ответа - это рано :) Но ссылку дам :) Вот http://sider.home.nov.ru/book/side2/ch5_3.htm , пример 5.5. http://sider.home.nov.ru/book/side2/ch5_4.htm пример 5.9.

ну оттуда вроде получается M >= (1.96/0.05)^2 * (1/p - 1) где p - оценка посещаемости?

UN

58

UZPN

11 июля 2011, 16:10

#64

Mauser:
Достаточно их никогда не бывает. Вопрос именно в том, что бы по наборам понять точность нашей оценки. То есть задача строго обратная, но отягощенная наличием нескольких исходных точек. Среднее то мы возьмем, но во-первых как его брать? Скажем n1/m1=1000000 при m1=1, n1=1000000, а n2/m2=2000000 на базе в 10000. И как бы не брали, вопрос сохраняется. Вот взяли как-то, оценили - и насколько мы можем верить этому?

1. Удобнее оперировать не n/m, все же, а m/n - не принципиально но гораздо удобнее.

2. Если m = 1, то на таких данных ничего путного не посчитать - это очевидно - где всего 1, там могло быть и 2 и 3 - как видим соотношение m/n от такого незначительного изменения будет меняться в разы. Т.е. m должно быть что-то типа 1000 и тогда можно уже не плохо мерить.

Если уж учитывать такие мелкие сайты, то как я говорил: взвешивать с учетом вероятности отклонения от M/N - для таких сайтов вероятность будет очень высока и они будут мало вклада давать в конечный результат - т.е. имеет смысл их включать в расчет только если их очень много по сравнению с более посещаемыми сайтами (и кстати тогда придется формулами через факториалы пользоваться - то что я раньше приводил не подходит)

3. "На сколько можем верить" (тупая лобовая проверка, уже предложена выше):

3.1 для полученного M/N строим теоретическое распределение m/n.

3.2 Берем имеющуюся выборку mi/ni и смотрим на сколько её распределение соответствует теоретическому - если ничего общего - результат на помойку, если похоже - можем верить.

Но это тупо в лоб. Лучше конечно посчитать заранее, в той постановке, которую я предлагал:

"оценить минимальное количество таких пар, при некотором минимальном значении mi, при котором оценка M/N будет иметь необходимую точность?"

- но это надо подумать - сейчас не могу. Да и вообще мне нравится ход ваших мыслей :) Поэтому я сначала подумаю над тем не стоит ли мне приватизировать эту идею :)

К тому же в моей формулировке - это мало, для практических вычислений, нужно уже смотреть реальные данные (их распределение по m) и для них делать нормальную оценку.

Новая, уникальная программа для Как вам такой эксперимент? Колдунщик жив?

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта