а кто тут статистику знает? :)

asto
На сайте с 13.10.2005
Offline
180
#11

Mauser, Вы бы хоть условия задачи по-русски написали;)

Итак, вопрос: какова зависимость между посещаемостью домена X и необходимым размером панели, что бы полученная панель оценка посещаемости отличалась от настоящей с точностью +-5% с верноятностью более 95%?

Что за размер панели? Количество установленных панели/плагина у пользователей? Размер панельки в браузере? Или что?

Имхо формула помоему левая. Если Вы собираетесь предсказывать посещаемость сайтов, то с точностью в 95% предсказать при помощи указанных формул вряд ли получится.

M
На сайте с 12.01.2003
Offline
130
#12

Pelvis +1 в стан не понявших задачу.

Итого двое поняли, двое не поняли, решить не может никто пока.

asto, да, "размер панели" это сколько народу поставило себе следилку. Звыняйте, англицизмы прут из меня. "Панель" тут - это группа людей, с которых собираются данные. Насчет неполучиться ты не прав :) скажем N=M или, в переводе на русский тулбар поставили себе абсолютно все. Тогда m=n и у нас 100% точность. Если предположить что не поставил всего один человек в стране, то есть M=N-1, ну и N исчисляется дестятками миллионов, то уже ясно - если этот один безтулбарный заходил или не заходил на сайт, то это может повлиять на разницу между n и m. Но не более чем на десятитысячную процента. И так далее :)

Психиатр
На сайте с 16.11.2010
Offline
360
#13
Mauser:
вопрос: какова зависимость?

Ответ: зависимость прямая, если только отношение их значений остается неизменным при любых обстоятельствах.

M
На сайте с 12.01.2003
Offline
130
#14

Психиатр, ответ неверный. И сильно неверный :)

pelvis
На сайте с 01.09.2005
Offline
345
#15
Психиатр:
зависимость прямая, если только отношение их значений остается неизменным при любых обстоятельствах.

А такого не бывает, поэтому прогнозы никогда линейными не бывают, особенно, если распределение подразумевает эмпирические величины в виде юзеров. Сорри, отвод от топика.

Продаю вывески. Задарма и задорого (https://www.ledsvetzavod.ru/)
Психиатр
На сайте с 16.11.2010
Offline
360
#16

Ну, всё что знал, всё рассказал. (c)

asto
На сайте с 13.10.2005
Offline
180
#17

Mauser, формула левая. Зависимости от посещаемости домена X и количества пользователей панели не будет никакой, как минимум, по той причине, что далеко не все посетители сайта будут пользоваться Вашей панелью. Кроме того, сама формула n=m*(N/M) некорректная. Имхо из-за недостатка достоверных статистических данных ничего не выйдет, точнее, статистические данные будут достоверными, но только по отношению к пользователями панели. То есть, Вы сможете достоверно только отследить число посетителей сайта, у которых была установлена Ваша панель в браузере, при заходе на него. Вы не сможете добиться того, чтобы у 100% посетителей была установлена Ваша панель, слеловательно, если панель будет стоять всего, например, у 5% пользователей, то достоверной статистики Вы не получите.

Да и само соотношение количества пользователей сети Интернет и количества пользователей Вашей панельки, в данном случае, ничего толгового не даст.

Mauser, попробуйте покопать в сторону сопоставления статистики посещаемости сайтов, например, в li.ru, со статистическими данными Вашей панели. Если она есть:) Ну и дальше алгоритмы строить на основе такого сопоставления, даст более точные результаты прогноза, чем указанная формула имхо.

M
На сайте с 12.01.2003
Offline
130
#18

Так, asto тоже не понимает условий задачи :)

Трое не понимают, двое (кажется) понимают.

Слава Шевцов
На сайте с 23.07.2005
Offline
370
#19
Mauser:
В процессе работы под руку подвернулась довольно стандартная задача о достоверности выборки. И вдруг стало интересно: а сколько серчан могут ее решить?

Итак, у нас есть страна, в ней живет N интернет юзеров. M из них установили себе наш тулбар, который сообщает обо всех посещенных ими УРЛов. Они образуют нашу панель. Cкажем УРЛы нас интересуют с точностью до домена. Доменов у нас имеется всего K. Участники панели за сути посетили домен Х m раз. Соответственно мы предсказываем суточную посещаемость домена как n=m*(N/M)
Итак, вопрос: какова зависимость между посещаемостью домена X и необходимым размером панели, что бы полученная панелью оценка посещаемости отличалась от настоящей с точностью +-5% с вероятностью более 95%?

Вообще, кто из серчан может понять условия задачи?

Количество жителей нам не важно. Нам важно, чтобы каждый домен посещало не менее 400 человек в сутки (погрешность 5%). То есть для каждого домена нужно m > 400 . Соответственно, при равномерном посещении доменов нужно m*К/r панелей, где r - среднее количество доменов, которое пользователь посещает за сутки.

Неизменность точки зрения неизменно порождает иллюзию понимания.
M
На сайте с 12.01.2003
Offline
130
#20

Слава Шевцов, ответ неверный :) Но задачу явно понял.

смотри: если сайт Х имеет всего одного посетителя в день. Точность +-5% означает оценку от 0.95 до 1.05. Сайт Y имеет 2 посетителя в день. Соответственно оценка должрна лечь в 1.90-2.10. Однако если страна Россия со скажем 50 миллионами пользователей, а панель пусть даже в 500 тысяч, то считая что в сутки посетитель посещает всего 10 сайтов в среднем имеем грубо: n будет = 0 для обоих сайтов с вероятностью ~81%. То есть мы не в состоянии даже с такой астрономической панелью оценивать малопосещаемые сайты с достаточной точностью.

С другой стороны: скажем в стране всего 300 человек живет. Тогда имей всего 100 человек в панели, что менее твоих 400, сайт с 200 посетителями в день будет оценен по трафику с требуемой точностью - и даже намного выше.

Итого +1 в стан понявших задачу, но умеющие ее решить все еще не появились :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий