Что такое прогнозный процент выпадения ссылок, зафиксированный у элементов обучающей выборки? - Общие вопросы оптимизации

Wolf vs Goodman - у кого математичнее

wolf · 2010-08-26T08:23:32.0000000Z

G00DMAN: datot, обучаются работе с нейропакетами студенты и прочие неспециалисты. В аналитическом отделе Рук работает Андрей Канунников, кандидат наук, который на машинном обучении стадо собак съел. Понятно. Взяли бы спеца, скажем, по сплайнам, приближали бы всё сплайнами :) Что-то и я из пространного репортажа не совсем всё понял. Можно разъяснить некоторые моменты? Типа задались целью определять сайты под АГС? Взять обучающую выборку, составленную ручками - вот это сайты с АГС, вот это - без АГС, снять с них пицот параметров и заслать в алгоритм. Ну, он там что-то посчитает, по каким-то своим метрикам даст своим результатам оценку. Хинт: с метриками можно играться, чтоб нужную оценку получить. :) И типа сказать - мы теперь любой сайт можем взять и по этим пицот параметрам определить, под АГС ли он. Я всё правильно понял? Только вот какой смысл, когда уже наложенный АГС и без этого метода определить можно, без пицот параметров? :)

1183

wolf

29 августа 2010, 21:35

#161

Fresher:
А тебе то он зачем?

В команде шестого отряда замена? 😂

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )

127

fireone

29 августа 2010, 21:35

#162

MiRaj:
fireone, Пока сеопульт зарабатывает бабло и отмывает средства пользователей на собственных псевдобиржах, вебэффектор продвигает сайты. Улавливаешь разницу?

Нет, Миш, не улавливаю. Это все красивые слова, а результат работы бизнеса Сеопульта по сравнению с конкурентами, как говорится, на табло ;)

Нужны люди: пом-ик оптимизатора () и оптимизатор () Вливайтесь в сильнейшую команду страны ;) 89057335033, Александр Шокуров;

369

basilic

29 августа 2010, 21:36

#163

Насколько я понял топик создавался с целью померяться пиписьками - у кого длиннее оказалась?

150

stabuev

29 августа 2010, 21:37

#164

basilic:
Насколько я понял топик создавался с целью померяться пиписьками - у кого длиннее оказалась?

В данном конкретном топике, процесс гораздо интереснее чем результат 🚬

Швейцарские часы (http://www.horlogerie.ru/)

122

G00DMAN

29 августа 2010, 21:37

#165

fireone:
пока Rookee с Вэбэффектором выясняют у кого "математичнее" Сеопульт спокойно зарабатывает нормальное бабло... ;)

Это да. Коля молодец, у него остальным агрегаторам еще многому можно научиться. :)

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)

369

basilic

29 августа 2010, 21:40

#166

G00DMAN:
Это да. Коля молодец, у него остальным агрегаторам еще многому можно научиться. :)

А чему там можно поучиться? Новое всегда является модной фишкой. Или ты о математике?

Я скоро свои наблюдения выложу - вот это будет интересно.

122

G00DMAN

29 августа 2010, 21:43

#167

basilic:
А чему там можно поучиться? Новое всегда является модной фишкой. Или ты о математике?

Это только кажется. Ты просто пока не сделал свой агрегатор, потому и непонятно. :)

1183

wolf

29 августа 2010, 21:45

#168

G00DMAN:
Примерно так. Ссылочная у меня равна нулю.

Ссылочная динамическая или ссылочная статическая? Или обе разом? И кроме ссылочных и текстовых мы ничего больше не знаем? Или не хотим знать?

G00DMAN:
Слова гудман не было - факт, но идеолухом статьи в ветке выступал именно я, без вариантов, потому и воспринято было соответственно. Ну и видимо еще приплюсовано к обвинению в идейном пЕАразме.

Понятно. Переход на личности без личностей. Ловко, но я уже ничему не удивляюсь :)

G00DMAN:
Что такое "текущий процент"? В моем посте не было такого словосочетания. Тонкости я не вижу смысла озвучивать нахаляву, так как там есть хитрые моменты, до которых еще додуматься нужно.

В твоем посте было словосочетание "прогнозный процент выпадания ссылок" как мера эффективности. Значит, логично предположить, что обучение идет на некоем текущем проценте выпадания этих ссылок, зафиксированном у элементов обучающей выборки. Или обучаем на бузине, а эффективность меряем по дядьке?

G00DMAN:
Яндексоиды раньше брали произведения, они об этом официально говорили. Сейчас скорее всего тоже, но инфы точной нет. Я также брал произведения.

Произведения, говоришь... Ну, вот они, полиномчики, и выскочили, родимые, правда в другом ракурсе... :) По сколько факторов кучковал, если не секрет?

G00DMAN:
Но объективно на сегодня между нами тремя к математику как-то близок только я, что и было в ветке показано не раз

Объективно на субъективный гудмановский взгляд :)

Как Яндекс отличает seo-ссылки Работают или нет SEO-ссылки? Можно ли доверять данным

693

dlyanachalas

29 августа 2010, 21:47

#169

G00DMAN:

Не понял вопроса.

Поясню. Ваши исследования показали, что вы разнесли сайты на группы по каким-то параметрам, в которых расчетный процент выпадения ссылок совпал с реальным. Так?

Если так, то получается, что допустим, у сайтов с тиц 100500 (условно, понятно, что параметров больше и они другие) вероятность выпада ссылки 5% . Но в тоже время, у сайта с тиц 100500 pr 1 вероятность выпада 10%, а у тиц 100500 pr 10 - 0% (pr условно считаем неучтенным фактором).

Вы же эти данные усреднили и получили (возможно) неверные данные.

5 спорных вопросов о Sape: Как влияют безанкорные SEO-агрегаторы. Какие цифры превращаются

333

XPraptor

29 августа 2010, 21:48

#170

G00DMAN:
Не, ну факторов не 420+, этого явно не хватит... 420 - это основных, и стопиццот производных от них. В каждом дереве - 10 факторов.
В обучающей и тестовой выборке - сайты, а не документы. По данным сайтам есть как длинная история параметров самого сайта, так и история всех купленных на нем когда-либо ссылок. По некоторым параметрам история не очень длинная, но она тоже есть. Слов типа "вектор" я не буду употреблять, чтобы больше народу поняло. Из этой большой истории сайта и ссылок, а также из других свойств сайта формируется набор факторов, который задействован в обучении. На выходе - прогнозный процент выпадания ссылок.

Все сайты в обучающей и тестовой выборке были разбиты на группы по этому проценту выпадания, т.е. от и до. Правильным считался прогноз, при котором прогнозный и реальный проценты попадали в ту же группу. Эффективность измерялась, как процент правильных прогнозов.

Примерно так. :)

Сорри конечно что вмешиваюсь в вашу высоко-интеллектуалку, но ваш метод это школьный уровень в нейротехнологиях. Этот способ обучения и составления факторов попахивает сферичностью лошадиной, ибо - никогда не достичь рабочего состояния сети, обученного таким способом. Это первый постулат нейропрограммера.

Ваша выборка после обучения начнет работать и давать результаты даже на новых представленных массивах сайтов (но только на тех, которые вы опять же сами отберете) а при анализе реальной группы сайтов без выборки - начнутся сбои. Вы начнете дообучать сеть и менять параметры - в итоге, опять получите приемлимый результат на новой выборке, но! - на старой выборке уже будет полный расколбас.

Это именно так и будет.

Ибо! - нельзя обучить сеть в которой имеется большое количество признаков (у которых имеются также собственные признаки) на основе заранее отобранных данных и составления признаков именно на основе этой выборки. Вы должны изначально задать признаки на основе ассесорского мышления, и лишь за тем, на их основе планировать сеть и обучение. Редактировать в такой сети можно только условия входа и условия анализа результата. Но сами признаки и факторы после развертывания сети уже не изменяются. Иначе, нужно заново планировать сеть с новыми параметрами.

P.S>в нейропрограмминге уже более 8-и лет, и ваш метод напоминает мне мои первые 3-5 месяцев в этой теме, когда приходишь в восторг от того, что пару обратных перцептронов могут сами проанализировать десяток параметров и выдать правильный результат (в основном цифровой, по первости неумения работать с более обширными структурами признаков и приводить их в числовой или функциональный вид).

Wolf вам верно всю ветку пытается втемяшить - это ошибка метода, а не реальность определения вероятности. А ошибка заключается именно в том, что вы строите сеть на конкретной выборке сайтов двух полюсов, которые в момент построения сети имеют всего два полюса - да и нет. А полюсов реально не два, а на много больше окажется, когда будет запущена обработка шумной выдачи, потому, как в ней будут куча экземпляров, которые не будут иметь нужных факторов совсем, и куча, которые будут иметь перекрывающиеся факторы относительно текущего плана сети, а также, будет основная масса, которая будет иметь слишком мало нужных факторов текущего плана и постоянно будет зашумлять результирующий вектор.

Вот как то так. Сорри еще раз.

Внутренние поведенческие факторы сайта Optimization.ru 2012: исследования поисковых Яндекс.Директ о сертификации рекламных

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Что такое Power BI и зачем это нужно бизнесу

Wolf vs Goodman - у кого математичнее