G00DMAN

G00DMAN
Рейтинг
122
Регистрация
19.04.2008
fireone:
пока Rookee с Вэбэффектором выясняют у кого "математичнее" Сеопульт спокойно зарабатывает нормальное бабло... ;)

Это да. Коля молодец, у него остальным агрегаторам еще многому можно научиться. :)

wolf:
Да, кстати, по поводу твоей текстовой релевантности. Я так понял, ты её полагаешь, как общая минус ссылочная. Я правильно понял?

Примерно так. Ссылочная у меня равна нулю.

wolf:
Вроде разговор про переход на личности был. Будь добр, приведи цитату, где я тебя лично "обвинил в тупке"

Слова гудман не было - факт, но идеолухом статьи в ветке выступал именно я, без вариантов, потому и воспринято было соответственно. Ну и видимо еще приплюсовано к обвинению в идейном пЕАразме. :)

wolf:
Так, а в обучающей выборке в виде оценки - что? Текущий процент выпадения? Что под ним понимается в условиях, так сказать динамичности параметров (если я правильно понимаю термин "история")?

Что такое "текущий процент"? В моем посте не было такого словосочетания. Тонкости я не вижу смысла озвучивать нахаляву, так как там есть хитрые моменты, до которых еще додуматься нужно. :)

wolf:
Вот-вот, про производные дюже интересно. Можно хотя бы один примерчик производной привести? Ну, что это - произведение факторов, их сумма, или же логарифм, экспонента, степенная функция от единичного фактора?.. Ты же что-то подобное должен был закладывать в свой "карманный матрикснет" или без оного обошёлся?

Яндексоиды раньше брали произведения, они об этом официально говорили. Сейчас скорее всего тоже, но инфы точной нет. Я также брал произведения.

dlyanachalas:
Процент, в смысле просто число? :) Без привязки к конкретным сайтам?

Так у вас тогда могло просто совпадение получиться, без практической пользы.

Не понял вопроса.

MiRaj:
Ну раз гудман слился на прямые вопросы прямые ответы давать, то можно и пособирать, чего уж тут :) Я из себя великого математика не строю, ляпы иногда делаю - главное чтобы ляпы потом не реализовали в публичном сервисе, а потом удивлялись, что ж сайты то не лезут :D

Где я слился? Будь добр, покажи. И ты не ответил на мой вопрос из #114, на таком уровне дискуссию не получится вести, мну маркетологическими хитростями трудно задолбать. :D

А великого математика я из себя тоже не строю. Но объективно на сегодня между нами тремя к математику как-то близок только я, что и было в ветке показано не раз. :D

wolf:
То что, не одно - и маркетологу :) понятно. Число решений два в степени 420+ (если верить твоим словам, что каждый фактор обязан быть задействован в деревьях) переварить даже Яндексу сложновато. Но ведь не обязательно, что в каждом дереве должен быть каждый фактор, так ведь? Может, какому и одного деревца достаточно будет. ;) Иначе опять к числу два в степени 420+ придем.

Не, ну факторов не 420+, этого явно не хватит... 420 - это основных, и стопиццот производных от них. В каждом дереве - 10 факторов.

wolf:
Что касается собственно конкретной тупки. Дабы не было кривотолков, просто расскажи, что из себя представляется оценка элемента вашей обучающей выборки (кстати, элемент - документ или сайт?), что это за число (вектор?), что оно означает. Ну, и до кучи, озвучь метрику, по которой потом эффективность оценки этого параметра оценивается. Этого будет вполне достаточно, все всё поймут, была тупка или нет и всё точки над "ы" расставятся автоматически. И надеюсь на наличие понимания, что съезжать на "секретность" тут уже не прокатит. Ибо опять пустословие получится, а восстанавливать ваши нейронные сетки на фиг тут никому не нужно.

В обучающей и тестовой выборке - сайты, а не документы. По данным сайтам есть как длинная история параметров самого сайта, так и история всех купленных на нем когда-либо ссылок. По некоторым параметрам история не очень длинная, но она тоже есть. Слов типа "вектор" я не буду употреблять, чтобы больше народу поняло. Из этой большой истории сайта и ссылок, а также из других свойств сайта формируется набор факторов, который задействован в обучении. На выходе - прогнозный процент выпадания ссылок.

Все сайты в обучающей и тестовой выборке были разбиты на группы по этому проценту выпадания, т.е. от и до. Правильным считался прогноз, при котором прогнозный и реальный проценты попадали в ту же группу. Эффективность измерялась, как процент правильных прогнозов.

Примерно так. :)

lcatlas:
Гудман, я бы и рад с Вами согласиться, что выпадение 2-3%, лучше, чем выпадение 6-9%. Но в свое время, ходили ГБЛ списки, которые отсекали очень много заведомо хороших доноров, я думаю Вы должны помнить...

Не будет ли такого, что снижая риск падения ссылочной массы на 4%, можно на выборке терять 0.5-1% отличных доноров? Мне кажется, они намного дороже, чем потеря ссылочной массы и своеобразные риски/увеличение бюджета. Тем более, для крупных игроков рынка.

lcatlas, ну тут каждый будет решать самостоятельно, что ему лучше. Я убеждать никого не хочу, т.к. у меня нет достаточного количества данных.

G00DMAN добавил 29.08.2010 в 22:44

wolf:
Постой. По поводу перехода на личности... То есть вот следующее, это ведь я сказал, да?:

Дык это было после того, как ты меня обвинил в тупке с определением уже наложенного АГС. :)

Ну, типа ты первый начал, однозначно. :D

dlyanachalas:
Логично. Но тогда не стоило бы ввести % правильных определений АГС, как критерий оценки ошибки? (Ну и тогда приходим к правильности слов wolf'а :))

А я еще раз не поленюсь повторить - НС не определяет АГС. :D

lcatlas:
Хм, если фильтры должны отсекать в ГБЛ те сайты, у которых % выпадения страниц - больше заданного, то что говорить о глюках яши, которые появляются каждые 1.5-2 месяца. Когда процент выпадения страниц от апа к апу - сильно варьируется. И это не зависит от СДЛ-ости сайта, его возраста, количества проданных ссылок и далее по списку.

Происходит переобучение, или в такие моменты фильтры отключаются? Не совсем улавливаю логику признаться. Или же выборка идет заведомо по молодым сайтам, скажем, с регой от двух лет/года?

Нет, в обучающей выборке были не только молодые сайты, было много старых, которые давно в биржах. Понятно, что какой-то процент косяков будет и какая-то малая часть сайтов попадет в ГБЛ не заслуженно, но тут ничего не поделать. Точнее, можно это лечить, но я не верю, что в ближайшее время будут, т.к. геморно.

юни:
А это не может стать проблемой? В выдачах коммерческих специфика ведь может быть и другой.

Чисто вопрос дилетанта.

Не может, я ведь только текстовую релевантность пытаюсь отследить. Или, наверное, правильнее сказать так - если и может, то пока не стало. :)

lcatlas:
У меня скорее вопрос, про маленький "матрикснет" Гудмана, происходит отключение, переобучение или же вытаскивают из ГБЛ-а после?

Маленький матрикснет Гудмана с ГБЛ ничего общего не имеет. :D

С ГБЛ работает НС в Руках.

lcatlas:
А главное, чего я не могу понять - для чего все это? Попытка экономии бюджета на 3% ссылок, которые в будущем могут заведомо выпасть под АГС? Да, при очень широкой выборке - это сэкономит крупному игроку рынка - денег. Но если говорить о розничной торговле - это же ерунда, нет?

В чем польза для конечного пользователя? При прямых руках, за пол года под АГС вылетает дай ты бог 15% ссылок из 100к. При ручной закупке - в разы меньше, при мониторинге - вообще не влияет на выдачу, как таковую.

Причем вылет происходит достаточно быстро, в среднем, раз в месяц, к примеру в апы тица, на молодняке, когда многие ... пытаются поднимать цены и уходят в ГБЛ.

Ну и еще раз - НС не определяет АГС. :D

Если в месяц будет выпадать 1-2% вместо 5-10% или 20%+, как у некоторых оптимизаторов, то это должно в целом повлиять на продвижение в плюс, имхо.

MiRaj:
Ты извини, но там такое количество псевдоматематического словоблудия, что тяжело выделить мысль с первого прочтения.

А можешь привести пример псевдоматематичности? Или просто так написал, чтобы лишний раз опустить конкурента? :)

MiRaj:
Окей, а какой смысл? В вебэффекторе, к примеру, за ссылочный апдейт выпадает максимум 1-3% ссылок, в месяц в среднем - 6-9% обновляется. И то, среди ссылок ценой по 1.5-2.5 рубля.
Да, это намного лучше чем по рынку, т.к. встроена куча фильтров по фактором, большинство из которых вы скорее всего учли в своей обучалке.
Но реально, мне сомнительна сама польза от подобного метода постановки исследований и апробации результатов, если честно :)

Ну смысл видимо в том, что 1-2% выпадения ссылок в месяц лучше, чем 6-9%. Мне думается, что лучше. Оспорить это сложно, как и противоположную точку зрения. Т.е. тут вопрос веры. :)

dlyanachalas:
У меня другой вопрос - природа МатриксНета всё-таки отличается от нейросетевой. Они постоянно что-то подстраивают в поисках максимума. Отсюда вопрос - вы переобучаете свои сети при каждом апе или в у вас некая универсальная обученная НС?

Если Вы про НС, то как его будут Руки дообучать, я пока не в курсе. НС - не моя тема.

Могу рассказать про свой "доморощенный матрикснет". Есть некоторые обучающее и тестовое множества - это некие куски выдач, с фиксированным ранжированием. Если ранжирование данных выдач изменяется от фиксированного более, чем на ХХ%, мы переобучаем. Такое было пока всего один раз. Каждый апдейт переобучать не нужно, т.к. там выдачи специфические, меняются не существенно.

MiRaj:
Окей, а что именно дают свежепропиаренные уровни фильтрации? :)

Ну в статье вроде было написано, на сколько я помню, или не? Фильтры разных уровней обязаны отсекать в ГБЛ сайты, на которых % выпадания страниц больше заданного.

Mantius:
Нейронные сети - это замечательно, помнится, года два назад я о них заикнулся на сапофоруме - тамошние интеллектуальнные меньшинства тогда меня бананами закидали, математиков замечено не было в те времена=) Сейчас же знающий человек легко увидит в формуле матрикснета математическое описание нейрона... пока что всего одного, но всё же=)

Нейронные сети в целом - полное УГ, имхо. Когда на НС у Рук что-то стоящее получилось, я очень удивился. :)

И матрикснет к НС никакого отношения не имеет.

G00DMAN добавил 29.08.2010 в 20:56

MiRaj:
Илья, а хочешь пари? Давай отберем сотню сайтов, которые по вашей обучалке попадут в АГС.

Миша, я еще раз повторюсь - НС не определяет АГС. Сколько еще раз нужно повторить? :D

dlyanachalas:
Причем тут барыжение ссылками? Неправильно определили АГС - уменьшили базу подходящих для продвижения сайтов, ухудшили качество продвижения.

Повторюсь еще раз. НС не определяет АГС. Это никому не нужно. Но сайты, на которые в будущем будет наложен АГС, попадают в ГБЛ.

wolf:
Ты меня с кем-то путаешь :) Я задал пару вопросов, на которые ты по существу не ответил, а только огрызнулся "Сам дурак" и начал планомерно раздувать щеки на тему "Какой я крутой математик".

Да ладно, ты же меня сразу обвинил в том, что я АГС, который уже наложен, определяю с помощью НС. Т.е. обвинил в конкретной тупке. А в итоге слился, на личности перешел. :)

И на все вопросы я вроде достаточно подробно ответил, как мне кажется.

wolf:
Ну сказал бы сразу про помехи в стрижке паствы, я б сам ушёл тихонько :)

Ты путаешь. Я, в отличие от тебя, этим не занимаюсь. Мну просто не интересно. :)

MiRaj:
Сергей всего лишь ткнул носом в явно нелогичные выводы из проделанного вами исследования.

Носом он ткнулся сам, однако. :D

MiRaj:
Судя по тому, как ты активно двумя руками пиаришь одноименный сервис, таки выросла.

Да вроде особого пиара с моей стороны не было. Где я писал что-нибудь типа "регистрируйтесь в Руках и будет вам щастя"? Нигде. И, кстати, - вчера я подписал с Руками договор о сотрудничестве, так что в "идейном пЕАразме" мну больше обвинить нельзя. Я помогаю им в развитии сервиса и мы ведем какие-то совместные исследования, и только. :)

Всего: 1960