- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева
Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков
Итак, у нас есть страна, в ней живет N интернет юзеров. M из них установили себе наш тулбар, который сообщает обо всех посещенных ими УРЛов. Они образуют нашу панель. Cкажем УРЛы нас интересуют с точностью до домена. Доменов у нас имеется всего K. Участники панели за сути посетили домен Х m раз. Соответственно мы предсказываем суточную посещаемость домена как n=m*(N/M)
Итак, вопрос: какова зависимость между посещаемостью домена X и необходимым размером панели, что бы полученная панелью оценка посещаемости отличалась от настоящей с точностью +-5% с вероятностью более 95%?
В бой вступает школота:
Т.к. условий, ограничивающих значения нет, то пусть:
N=2 (Бывают и такие страны)
M=?
K=1
m=?, m(и)=1 m(и) - истинная посещаемость.
По условию задачи: n = m(и) +- 0,05m(и) = m(и) = 1;
значит m*(N/M) = 1;
т.к. m - целое, натуральное и меньше или равно m(и), то может принимать значения 1 или 0;
0 отбрасываем, остаётся 1;
Значит: N/M = 1;
Значит: если N = M вероятность правильного расчёта 100%, что нас устраивает, если N != M, вероятность правильного расчёта 0%, что нас не устраивает;
Значит для нашего случая, что бы условие выполнялось выборка должна составлять 100% населения страны. Т.к. случай является неотъемлемой частью целого, то выборка должна всегда составлять не менее 100%.
Теперь про зависимость m и M.
m=0, M=2; m=0*M;
m=6, M=2; m=3*M;
m=8, M=2; m=4*M; и т.д.
Ответ: посещаемость домена и размер панели не зависят друг от друга, а предсказания будущего на основе статистики двух факторов - лженаука и мракобесие.
Не совсем понял наверное. Если есть достаточно наборов mi ni, то берете и просто усредняете (можно сложно усреднить - взвешивать с учетом вероятности отклонения от M/N, но здесь это наверное не нужно совсем) , ...
Или нужно оценить минимальное количество таких пар, при некотором минимальном значении mi, при котором оценка M/N будет иметь необходимую точность?
Достаточно их никогда не бывает. Вопрос именно в том, что бы по наборам понять точность нашей оценки. То есть задача строго обратная, но отягощенная наличием нескольких исходных точек. Среднее то мы возьмем, но во-первых как его брать? Скажем n1/m1=1000000 при m1=1, n1=1000000, а n2/m2=2000000 на базе в 10000. И как бы не брали, вопрос сохраняется. Вот взяли как-то, оценили - и насколько мы можем верить этому?
Ответа - это рано :) Но ссылку дам :) Вот http://sider.home.nov.ru/book/side2/ch5_3.htm , пример 5.5. http://sider.home.nov.ru/book/side2/ch5_4.htm пример 5.9.
ну оттуда вроде получается M >= (1.96/0.05)^2 * (1/p - 1) где p - оценка посещаемости?
Достаточно их никогда не бывает. Вопрос именно в том, что бы по наборам понять точность нашей оценки. То есть задача строго обратная, но отягощенная наличием нескольких исходных точек. Среднее то мы возьмем, но во-первых как его брать? Скажем n1/m1=1000000 при m1=1, n1=1000000, а n2/m2=2000000 на базе в 10000. И как бы не брали, вопрос сохраняется. Вот взяли как-то, оценили - и насколько мы можем верить этому?
1. Удобнее оперировать не n/m, все же, а m/n - не принципиально но гораздо удобнее.
2. Если m = 1, то на таких данных ничего путного не посчитать - это очевидно - где всего 1, там могло быть и 2 и 3 - как видим соотношение m/n от такого незначительного изменения будет меняться в разы. Т.е. m должно быть что-то типа 1000 и тогда можно уже не плохо мерить.
Если уж учитывать такие мелкие сайты, то как я говорил: взвешивать с учетом вероятности отклонения от M/N - для таких сайтов вероятность будет очень высока и они будут мало вклада давать в конечный результат - т.е. имеет смысл их включать в расчет только если их очень много по сравнению с более посещаемыми сайтами (и кстати тогда придется формулами через факториалы пользоваться - то что я раньше приводил не подходит)
3. "На сколько можем верить" (тупая лобовая проверка, уже предложена выше):
3.1 для полученного M/N строим теоретическое распределение m/n.
3.2 Берем имеющуюся выборку mi/ni и смотрим на сколько её распределение соответствует теоретическому - если ничего общего - результат на помойку, если похоже - можем верить.
Но это тупо в лоб. Лучше конечно посчитать заранее, в той постановке, которую я предлагал:
"оценить минимальное количество таких пар, при некотором минимальном значении mi, при котором оценка M/N будет иметь необходимую точность?"
- но это надо подумать - сейчас не могу. Да и вообще мне нравится ход ваших мыслей :) Поэтому я сначала подумаю над тем не стоит ли мне приватизировать эту идею :)
К тому же в моей формулировке - это мало, для практических вычислений, нужно уже смотреть реальные данные (их распределение по m) и для них делать нормальную оценку.