Wolf vs Goodman - у кого математичнее

wolf
На сайте с 13.03.2001
Offline
1183
36427
G00DMAN:
datot, обучаются работе с нейропакетами студенты и прочие неспециалисты. В аналитическом отделе Рук работает Андрей Канунников, кандидат наук, который на машинном обучении стадо собак съел.

Понятно. Взяли бы спеца, скажем, по сплайнам, приближали бы всё сплайнами :)

Что-то и я из пространного репортажа не совсем всё понял. Можно разъяснить некоторые моменты? Типа задались целью определять сайты под АГС? Взять обучающую выборку, составленную ручками - вот это сайты с АГС, вот это - без АГС, снять с них пицот параметров и заслать в алгоритм. Ну, он там что-то посчитает, по каким-то своим метрикам даст своим результатам оценку. Хинт: с метриками можно играться, чтоб нужную оценку получить. :) И типа сказать - мы теперь любой сайт можем взять и по этим пицот параметрам определить, под АГС ли он. Я всё правильно понял? Только вот какой смысл, когда уже наложенный АГС и без этого метода определить можно, без пицот параметров? :)

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
G00DMAN
На сайте с 19.04.2008
Offline
122
#1
wolf:
Понятно. Взяли бы спеца, скажем, по сплайнам, приближали бы всё сплайнами :)

Из имеющегося коллектива нужно выжимать максимум. :)

Что касается выбора для обучения именно НС, то я предлагал несколько других методик, которые неплохо себя зарекомендовали в различных исследованиях. Но пацаны так бодро били себя пяткой в руки, что пришлось согласиться, и, как оказалось, не зря. :)

wolf:
Что-то и я из пространного репортажа не совсем всё понял. Можно разъяснить некоторые моменты? Типа задались целью определять сайты под АГС? Взять обучающую выборку, составленную ручками - вот это сайты с АГС, вот это - без АГС, снять с них пицот параметров и заслать в алгоритм. Ну, он там что-то посчитает, по каким-то своим метрикам даст своим результатам оценку. Хинт: с метриками можно играться, чтоб нужную оценку получить. :) И типа сказать - мы теперь любой сайт можем взять и по этим пицот параметрам определить, под АГС ли он. Я всё правильно понял? Только вот какой смысл, когда уже наложенный АГС и без этого метода определить можно, без пицот параметров? :)

С уже наложенным все понятно. А как быть с тем, который наложится завтра? :)

Ну и в ГБЛ попадают не только будущие жертвы АГС, есть не мало сайтов с большим количеством страниц в индексе, на которых эти свежеиндексированные страницы регулярно добавляются в сапу, на них покупаются ссылки, после чего страницы с той же регулярностью из индекса вылетают. Простым набором параметров отследить такие сайты не всегда удается, а НС вроде справляется.

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)
wolf
На сайте с 13.03.2001
Offline
1183
#2
G00DMAN:
С уже наложенным все понятно. А как быть с тем, который наложится завтра?

Постой. То есть вы как бы оцениваете сайты, на которых еще нет АГС? Типа по своим пицот параметрам они согласно алгоритму должны попадать под АГС, но вот нету его пока них? А теперь гонг. Если мы все эти сайты, на которых нет АГС, но для которых текущая формула говорит, что он должен быть, возьмем да и включим в обучающую выборку как сайты без АГС. Что нам скажет построенная по этой выборке новая формула? ;)

G00DMAN
На сайте с 19.04.2008
Offline
122
#3
wolf:
Постой. То есть вы как бы оцениваете сайты, на которых еще нет АГС? Типа по своим пицот параметрам они согласно алгоритму должны попадать под АГС, но вот нету его пока них? А теперь гонг. Если мы все эти сайты, на которых нет АГС, но для которых текущая формула говорит, что он должен быть, возьмем да и включим в обучающую выборку как сайты без АГС. Что нам скажет построенная по этой выборке новая формула? ;)

Что будет с конкретной НС, если ее немеряно накачивать обучаловом? Кто ж его знает, в теории может и переклинить. :)

Только к чему это? Эффективность на тестовом множестве была хорошая, но, как и во всех случаях с обучаловом, истину покажут только полевые испытания. Через несколько месяцев можно будет делать выводы. Пока все красиво.

wolf:
А теперь гонг.

Московские и околомосковские пацаны обычно используют бубен. Его хватает. Тульским уже приходится использовать гонг, тульского бубна на Самокатной не слышно. А что делать камчатским? В вувузелы дудеть?:D

wolf
На сайте с 13.03.2001
Offline
1183
#4
G00DMAN:
Что будет с конкретной НС, если ее немеряно накачивать обучаловом? Кто ж его знает, в теории может и переклинить.

Да нет. Формула настроится так, что подозрительные при предыдущей формуле сайты станут белыми и пушистыми. То есть пицот параметров у них будут уже такие, как надо.

G00DMAN:

Только к чему это? Эффективность на тестовом множестве была хорошая, но, как и во всех случаях с обучаловом, истину покажут только полевые испытания. Через несколько месяцев можно будет делать выводы. Пока все красиво.

Ок. Давай эти подозрительные сайты, у когорых АГС'а нет, а формула за ихние пицот параметров говорит, что должен быть, включим не в обучающую выборку, а в тестовое множество. Что станет с эффективностью и прочей красотой писаной? ;) Ведь надеюсь, эффективность считается как надо, то есть под ней понимается процент верно определенных сайтов под АГС'ом (или наоборот, не под АГС'ом - но всё-таки верно определенных) из тестового множества. Или же у вас эффективность - это что-то другое?

[Удален]
#5
wolf:
Ок. Давай эти подозрительные сайты, у когорых АГС'а нет, а формула за ихние пицот параметров говорит, что должен быть, включим не в обучающую выборку, а в тестовое множество. Что станет с эффективностью и прочей красотой писаной? Ведь надеюсь, эффективность считается как надо, то есть под ней понимается процент верно определенных сайтов под АГС'ом (или наоборот, не под АГС'ом - но всё-таки верно определенных) из тестового множества. Или же у вас эффективность - это что-то другое?

а где здесь временной фактор?

и к тому же вполне можно пожертвовать маленькой частью хороших доноров дабы отфильтровать бОльшую часть того что через пару-тройку месяцев вылетит из индекса :)

wolf
На сайте с 13.03.2001
Offline
1183
#6
burunduk:
а где здесь временной фактор?

Да какой на фиг временной? Не до того... Ребята ошибку метода выдают за прогноз. Может, их нейронная сеть и умеет с какой-то вероятностью определять по пицот параметрам под АГС'ом ли сейчас пациент или нет. Но вот предсказать, что какой-то пациент скоро попадет под АГС - это дудки. Ибо неправильное определение АГС - это по методу будет ошибкой. А они подменяют понятия: типа неправильно определенный - это потенциальный клиент АГС'а ;)

G00DMAN
На сайте с 19.04.2008
Offline
122
#7
wolf:
А теперь гонг.

Было очень мелодично. А теперь - рында! :D

wolf:
Постой. То есть вы как бы оцениваете сайты, на которых еще нет АГС? Типа по своим пицот параметрам они согласно алгоритму должны попадать под АГС, но вот нету его пока них? А теперь гонг. Если мы все эти сайты, на которых нет АГС, но для которых текущая формула говорит, что он должен быть, возьмем да и включим в обучающую выборку как сайты без АГС. Что нам скажет построенная по этой выборке новая формула? ;)

У нас нет цели точно определить будущий АГС, зачем? Цель - определить сайты, на которых с большой вероятностью будет большой % выпадания страниц. И да - сайты, которые получат в будущем АГС туда уверенно залетают. :)

Что касается включения в обучающую выборку того, что ты предложил, то придется провести маленький ликбез. Все математики, которые хоть немного в теме машинного обучения, в отличие от вас, интернет-маркетологов, понимают, что обучающая и проверочная (тестовая) выборки должны удовлетворять определенным требованиям, т.к. на чем обучишь (проверишь), то и получишь. И от качества этих выборок во многом зависит и качество построенной модели. Поэтому построение этих выборок - сложный процесс, и учитывается большое количество параметров, в том числе и на длительном историческом периоде. Таких данных у нас много, было из чего выбирать. Единственное, чего не хватало, это инфы по АГС, для ее сбора потребовалось 2 месяца.

Интернет-маркетологи типа тебя видимо думают, что в модель можно совать все, что угодно, по минимальному количеству признаков. И будет зашибись. Дык не будет, все не так просто, как кажется неспециалистам. :)

wolf:
Да нет. Формула настроится так, что подозрительные при предыдущей формуле сайты станут белыми и пушистыми. То есть пицот параметров у них будут уже такие, как надо.

Формула никак не настроится, потому что никто не будет включать в обучающую выборку УГ, предложенное маркетологами. :D

wolf:
Ок. Давай эти подозрительные сайты, у когорых АГС'а нет, а формула за ихние пицот параметров говорит, что должен быть, включим не в обучающую выборку, а в тестовое множество. Что станет с эффективностью и прочей красотой писаной? ;) Ведь надеюсь, эффективность считается как надо, то есть под ней понимается процент верно определенных сайтов под АГС'ом (или наоборот, не под АГС'ом - но всё-таки верно определенных) из тестового множества. Или же у вас эффективность - это что-то другое?

Ну вот когда математики в РБС (если они есть) построят тебе модель, тогда и будешь совать в нее всякую фигню и тащиться.:)

wolf:
Ребята ошибку метода выдают за прогноз. Может, их нейронная сеть и умеет с какой-то вероятностью определять по пицот параметрам под АГС'ом ли сейчас пациент или нет. Но вот предсказать, что какой-то пациент скоро попадет под АГС - это дудки. Ибо неправильное определение АГС - это по методу будет ошибкой. А они подменяют понятия: типа неправильно определенный - это потенциальный клиент АГС'а ;)

Потенциальный клиент АГС'а четко попадает у нас в выборку сайтов с наибольшей вероятностью выпадания страниц из индекса. Попадет ли он при этом под АГС и когда именно - нам не интересно, мы ссылками не барыжим. :)

wolf
На сайте с 13.03.2001
Offline
1183
#8
G00DMAN:
Все математики, которые...

Скажу одно. Математики никогда не выдадут ошибку за прогноз. Это делают только ловкие ребята, старающиеся кому-то запудрить мозг. А называть они себя могут хоть горшками :)

Еще раз повторяю для полной ясности - ошибочно определенные методом сайты под АГС/не под АГС, это именно ошибка метода, а не

G00DMAN:
сайты, на которых с большой вероятностью будет большой % выпадания страниц

P.S. И да. Как эффективность-то считаете? Не услышал пока ответа кроме "сам дурак" :)

inetessentials
На сайте с 19.05.2005
Offline
480
#9

А мне тут начинает нравиться.. у кого больше? :)

Продвигаем естественно (http://www.inetessentials.ru/) и непринужденно Проект All in Top (http://www.allintop.ru/) - обучение поисковой оптимизации без воды и на реальных примерах
wolf
На сайте с 13.03.2001
Offline
1183
#10
inetessentials:
А мне тут начинает нравиться.. у кого больше?

Не. У кого математичнее :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий