- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
Скорее всего, общая видимость (называйте ее трастовостью если хотите) уменьшилась.
Сомнительно. Суммарный траф с Яндекса растет, да и по запросам, которые двигаются через Сапу, динамика положительная.
schegloff, скиньте в личку - гляну.
euhenio, Жень, пруфлинк есть?
MiRaj, какой пруфлинк. Может, в презентации Гулина что-то есть. Должно быть.
schegloff, скиньте в личку - гляну.
все оказалось проще. отображающиеся в списке позиции не соответствуют действительности.
скрин прилагается.
schegloff, тю. Сейчас мы как раз обновляем позиции, должно быть все ок.
tar729?
Ну, а кто же еще носится с "поведенческими факторами", как тот дурак с писаной торбой? :)
А вот меня другое поражает. Неужели это типа стратегия такая у него, а не реальное психическое заболевание?
А при чем тут нейронные сети?
Да почти ни причем - просто у них для этого случая нашелся удачный термин хорошо отражающий суть проблемы. (как я уже писал проблема общая для всех задач использующих "обучение с учителем")
Для решения такой задачи проще всего взять табличную функцию, тогда и вычислительных возможностей не нужно, и совпадение будет 100%.
Можно, конечно. Такая функция со 100% точностью отранжирует обучающую выборку, а для остальных документов мало чем будет полезна.
Правильный ответ не 1 или 0, обычно ответов больше, о чем в ветке уже писалось.
Я думаю Вы согласитесь с тем что не имеет принципиального значения два ответа или четыре.
Никакого рандома не будет и функция ранжирования ничего не запомнила, она все значения высчитала сама.
Мнение вижу, аргументов не вижу (да посчитала... но по памяти :) )
Поясню на простом примере эффект "запоминания":
есть зависимость величины Y от величины X наблюдаемая экспериментально и с некоторой погрешностью (пусть это будет Y=X^2). У нас в распоряжении данные 100 экспериментов. Мы хотим каким-то из методов "обучения с учителем" найти эту зависимость. Что бы в дальнейшем предсказывать значения Y зная значение X. Критерием качества будет упомянутый Вами минимум квадратов разностей.
Пусть наш алгоритм поиска имеет возможность для поиска подходящей функции только среди постоянных функций Y=const. Тогда результатом поиска зависимости Y(X) будет просто среднее значение величины Y в обучающей сотне экспериментов. Довольно фиговое приближение квадратичной функции. И это будет видно на самой же обучающей выборке - критерий качества неизбежно будет иметь очень большое значение.
Теперь пусть наш алгоритм поиска позволяет искать функции в классе кусочно постоянных с одной ступенькой - приближение будет лучше. (это же покажет и критерий качества на обучающей выборке).
Далее увеличиваем наши возможности - 3 ступеньки, 4, 5... 50, ... 90 - на 90 результат поиска будет хорошим. Опять же критерий качества на обучающей выборке будет это показывать. Для того же алгоритма но с количеством ступенек например 1 такое маленькое значение этого критерия недостижимо.
А если увеличиваем наши возможности до 200 ступенек. Результат будет лучше чем на 90?
После обучения критерий качества будет равен 0 - 100% совпадение на обучающей выборке.
Но прогнозы этот алгоритм будет делать хуже чем при 90 ступеньках. Потому что алгоритм подберет для 100 значений X из обучающей выборки 100 идеально соответствующих им значений Y (руководствуясь критерием качества). Но у него есть еще 100 неиспользованных значений, которые не оказывают никакого влияния на критерий качества на обучающей выборке. А раз нет влияния то он выберет их произвольным образом. Поэтому и будет после обучения давать произвольные прогнозы.
Вот это и есть эффект "переобучения" и "запоминания".
А если мы все же хотим существенно лучшую точность предсказаний чем позволяет нам модель с 90 ступеньками? Тогда нужно не 100 экспериментов, а например 1000. Но мы договорились что наши экспериментальные данные изначально имеют некоторую погрешность. Поэтому увеличивая количество экспериментов и сложность модели мы на каком-то этапе все-равно упремся в это порог и не сможем улучшать качество прогнозов изначально искомой нами зависимости Y=X^2. (мы лишь со все большей подробностью начнем описывать случайные погрешности эксперимента).
Теперь вернемся к плотности значений функции релевантности для сайтов в топе яндекс:
Учитывая, что почти наверняка критерий качества жесткий, получаем, что вычисленная с помощью формулы ранжирования релевантность будет очень близка к 1, т.е. плотность значений в топе будет максимальной, при наличии достаточного количества релевантных документов. По некоторым ВК она может быть и на топ-100 значительной, т.к. много релевантных документов.
Ну и, учитывая объем и качество обучающего множества, получается, что при такой метрике качества у любого релевантного документа вычисленная релевантность будет болтаться в 1 +- нано. И плотность, особенно в топе, будет высокой.
Если я правильно Вас понял свое мнение о высокой плотности значений ф.рел. в топах Вы основываете на том что "почти наверняка критерий качества жесткий" (причем настолько жесткий что значения ф.рел. на обучающей выборке для релевантных сайтов равны 1+-нано).
1. А зачем ему быть жестким?
2. Как видно из примера приведенного выше жесткость критерия "обученности" алгоритма можно получить только увеличивая "подробность" модели. При этом с увеличением сложности мы получаем и увеличение эффекта "переобучения".
3 и главное:
Улучшения качества модели невозможно добиваться одним лишь ужесточением критерия качества. Необходимо опережающее увеличение тестовой выборки.
Одновременно увеличивая тестовую выборку и жесткость критерия качества (а с ними сложность модели) в какой-то момент мы столкнемся с проблемой погрешности самой тестовой выборки (как в последнем абзаце моего примера). А она при определении релевантности сайта асессором крайне высока. Т.е. задолго до того как "у любого релевантного документа вычисленная релевантность будет болтаться в 1 +- нано" метод перестанет улучшать функцию ранжирования.
MiRaj, по вашим наблюдениям, покупные ссылки еще вообще влияют на некоммерческие тематики, или сбылся мадридский доклад и их влияние минимизировано?
Если я правильно Вас понял свое мнение о высокой плотности значений ф.рел. в топах Вы основываете на том что "почти наверняка критерий качества жесткий" (причем настолько жесткий что значения ф.рел. на обучающей выборке для релевантных сайтов равны 1+-нано).
Ну да.
1. А зачем ему быть жестким?
Если функция подгоняется жестко, то это же лучше. :)
2. Как видно из примера приведенного выше жесткость критерия "обученности" алгоритма можно получить только увеличивая "подробность" модели. При этом с увеличением сложности мы получаем и увеличение эффекта "переобучения".
Не, пример не катит совсем. Тот факт, что какую-то функцию сложно приблизить каким-то набором - он ни о чем не говорит. В теории подгонок (или "машинного обучения" по другому) нет каких-то общих методик, многие задачи достаточно специфичны и приходится придумывать что-то особенное. В нашем случае разработчики расчитывают на то, что до переобученности еще далеко и с ней можно будет бороться. :)
3 и главное:
Улучшения качества модели невозможно добиваться одним лишь ужесточением критерия качества. Необходимо опережающее увеличение тестовой выборки.
Улучшение качества идет именно за счет увеличения обучающей выборки, а также за счет введения новых параметров ранжирующей функции.
Одновременно увеличивая тестовую выборку и жесткость критерия качества (а с ними сложность модели) в какой-то момент мы столкнемся с проблемой погрешности самой тестовой выборки (как в последнем абзаце моего примера). А она при определении релевантности сайта асессором крайне высока. Т.е. задолго до того как "у любого релевантного документа вычисленная релевантность будет болтаться в 1 +- нано" метод перестанет улучшать функцию ранжирования.
Не нужно увеличивать одновременно. Вы немного попутали - асессор не оценивает релевантность сайта, он оценивает релевантность документа. И качество такой оценки очень высокое, как мне кажется. Метод еще долго будет улучшать функцию ранжирования, потому что он удачно придуман. :)