G00DMAN

G00DMAN
Рейтинг
122
Регистрация
19.04.2008
MiRaj:
Йес! Таки спалился, что дуешь щеки ради пиара, математег ты наш идейный :)

Не, ты ошибся, я не дул щеки, а отвечал на наезды Людкевича, который меня обвинил в шарлатанстве. Думаешь, нужно было молча схавать?

MiRaj:
Илья, ты бы у "папика" спросил, что он по поводу математического бодросрача в оплаченной ветке думает, а потом бы корки отмачивал.

Папики у вас с Серегой есть, а я вроде уже писал в этой ветке, что в отрасли еще ни у кого женилка не выросла для того, чтобы мне папиком стать. :)

Ну и корки в ветке - исключительно ваши с Серегой, я их только комментирую. :D

wolf:
А что фантастичного-то, когда в одном дереве всего одна точка ветвления для конкретного фактора? Ну, может, деревьев с этим фактором и не одно, но и не стотыщмильонов... А диапазоны - они разные наблюдались, просто неохота дальше тему раскрывать, и так уже много наговорил...

Дерево не одно. И, если принять твою гипотезу с полиномом и мои добавки, то, скорее всего, ветвления все же были, просто матрикснет в этом диапазоне выдавал достаточно близкие значения. Близкие, но не одинаковые, и это может хреново сказаться на определении полинома, вплоть до полного ахтунга.

G00DMAN добавил 29.08.2010 в 19:51

MiRaj:
Илья, ну куда мне до великих математегов, обучающих нейронные сети, так что результатами нельзя пользоваться, но можно красиво впарить.

НС обучали Руки, я типа только курировал общую логику исследований. И почему нельзя пользоваться? Руки же пользуются.

MiRaj:
А на все вопросы "зачем" отвечающим "а мне Сегалович за коньяком сказал".
Сильный аргумент, даже спорить не буду )))

Ну я выше объяснил, почему я так ответил. Тебя же отмазывал. ;)

G00DMAN добавил 29.08.2010 в 19:59

И да, Миша, отличный маркетинговый ход - вырезать наше бодалово из ветки конкурентов. Нечего им посещалку увеличивать. Руки кусают локти. :D

wolf:
Кстати, Миша там явно оговорился/опечатался, назвав мадридским докладом известную презенташку про жадные алгоритмы. Это и самому последнему маркетологу понятно :)

Если бы так... Отмаз не прокатит.

Миша как раз и заявил, что я взял формулу не из презенташки матрикснета, а из доклада на бубубу. Он заявил это на видео, потом заявил организаторам, с претензией "зачем вакатили гудмана, он же перепутал Мадрид с матрикснетом?" Потом я ему на ужине объяснил вроде, что он не прав, посоветовал перечитать оба документа. Но он забил и все равно запостил у себя в блоге этот бред. Ну маркетолог, что с него взять... :D

G00DMAN добавил 29.08.2010 в 19:44

MiRaj:
Посыпаю голову пеплом за оговорку, ай-ай-ай :)

Принимается. :)

Сергей, а почему не все посты перенес?

Упс.... Теперь вроде все :)

Тем более, вот смотри, вроде логично получается. Для того, чтобы ты отловил более-менее красиво возрастающие дельты от полинома при возрастании фактора (или убывающие, не суть), нужно, чтобы значение матрикснетной составляющей оказалось фиксом. А, учитывая то, что фактор входит в большое кол-во деревьев и диапазон ты брал наверняка не маленький, то предположение о том, что этот диапазон всегда входит целиком в один из деревянных диапазонов, мне видится слегка фантастичным.

wolf:
Это просто стёб по поводу твоего ответа на один из вопросов (от Миши Райцина, кажется) на семинаре: "Я с Сегаловичем якшаюсь. У меня толще" :)

Ага... Ты знаешь, не хотел я эту тему на форум выносить, но раз ты начал...

Дело в том, что перед той конференцией меня попросили не чмарить конкурентов Рук, что я и делал. А Миша Райцин заявил что-то типа "Ты че, гудман, лох чтоле, это же не формула матрикснета, это формула ранжирования из Мадридского доклада!" Ну за такой бред нужно было жестко ответить твоему партнеру, такому же маркетологу с претензией на математичность, но я перевел все в шутку, просили же. :)

Чтобы не быть голословным:

Видео доклада (примерно 29-я минута)

Комментарий Миши в своем блоге, который я и сюда скопирую:

Миша Райцин в своем блоге:
И все таки, брать за основу формулу ранжирования из Мадридского доклада и утверждать, что Яндекс ранжирует чисто на основе Матрикснета – в корне неправильно, отсюда и некорректные выводы.

Перевод доклада на бубубу-2009 в Мадриде

Где там формула ранжирования? Там вообще о другом. :D

Пацаны, ну если вы плохо шарите в математике, то не нужно в таком тоне общаться с теми, кто шарит лучше. Вам же потом хуже будет... ;)

wolf:
Да никто не говорит, что гладкость критична. Просто благодаря гладкости добавка ловится. Весь вопрос в её размере.

А почему "благодаря гладкости"? Она у тебя просто ловится.

wolf:
Я полагаю, господин "математик" себе очень сильно льстит :) Впрочем, это как раз таки неплохо :)

Ты вечно делаешь загадочное лицо с ехидной ухмылкой, но без аргУментов. Но это не всегда прокатывает.

wolf:
Я понял о чем ты. Гладкость ловится на достаточно длинных отрезках, и сопровождается монотонным возрастанием/убыванием релевантности в зависимости от значения варьируемого фактора. Т.к. не видно кусочности, то значит, что на этих отрезках нам не встречаются точки ветвления этого фактора в матрикснетовских деревьях (может, точки ветвления расположены очень близко к границам диапазона значений, а, может, и вообще есть отдельные факторы, которые в деревьях вообще могут не участвовать, т.к. МатриксНет посчитал их незначимыми или еще чего). В случае же голого МатриксНета мы бы на таких отрезках видели постоянство, но не монотонное возрастание/убывние. Ведь, естественно, что всё это наблюдается при жестко зафиксированных остальных факторах. Мы их тоже фиксировать умеем :)

Каждый фактор ранжирования (из 420+ и их производных) встречается в разных деревьях, т.е. больше одного раза. Потому не сложно построить пример из нескольких деревьев, в котором релевантность при изменении одного фактора и фиксе остальных будет расти именно так, как ты увидел, без добавок полинома. Почему ты считаешь, что такого же не могло получиться и в реальном матрикснете? Вероятность далеко не нулевая. :)

wolf:
Вообще-то я говорил не просто про монотонность, а про гладкую монотонность (может, выразился не так чётко, сорри). Я чётко вижу эту гладкость по ряду факторов, ведь не у тебя одного есть спецсетки экспериментальных сайтов ;) И эта гладкость никак не вписывается в матрикснетовскую кусочность. Значит есть еще что-то помимо МатриксНета. Гладкое. И в этом я почти уверен. И полиномы сюда отлично вписываются, почему нет?

Вовремя ты свой пост подправил. ;)

Но все дело в том, что кусочный+гладкий=кусочный. Вот же засада... :D

Ну и для конструктива нашей беседы я хочу заметить, что не против гипотезы о наличии некоторой добавочной функции. Только не для сглаживания, конечно. Связка матрикснет+pFound не плохо справляется с поиском релевантных ответов, но не более того. А в коммерческой выдаче этого мало, т.к. топовые документы должны быть не только релевантными, они еще должны удовлетворить потребности пользователя. Пользователь с баблом должен остаться доволен. Эта проблема как раз и может решаться добавкой некоей функции, и гладкость ее не критична. Критичны другие свойства.

wolf:
А причем тут переворот в математике? Это ты у яндексоидов спроси, почему они полностью не доверяют МатриксНету и дополняют его вклад в итоговую релевантность полиномами или что там у них еще есть в загашнике? Или Сегалович за коньяками таких вещей не рассказывает? :)

Переворот в том, что ты кусочное сгладил прибавлением гладкого. И ты постоянно пытаешься подчеркнуть, что "гудман регулярно напаивает Сегаловича, и тот ему открывает все свои секреты". К чему это? Кстати - я вообще не пью. :)

wolf:
Господин "математик" знает все 420+ факторов Яндекса? Или он имеет в виду какие-то свои факторы?

Господин математик знает все параметры этих "420+" метрик, и не только знает, он их еще и жестко контролирует. :)

wolf:
Впрочем, как справедливо заметил Фома, все эти мерянья, у кого линейка лохматее, абсолютно неконструктивны.

Почему не конструктивны? Мы совершенно точно установили, что у меня больше и математичнее, а у тебя - лохматее. :D

wolf:
Ну, во-первых, не всех. А только тех, которые участвуют в общих с ним деревьях.

Да ну? Вообще-то все факторы так или иначе связаны друг с другом через различные деревья.

wolf:
Но и значение фактора, которое разделяет пути по веткам "налево пойдешь - сам пропадешь, направо пойдешь - всех победишь" :), тоже знать ведь полезно, не так ли? ;)

Эти значения и есть предмет оптимизации при обучении, т.е. при каждом переобучении или дообучении они могут легко меняться, т.к. каждый раз выбирается оптимальное, подогнанное уже под бОльшую обучающую выборку. И какой смысл его знать? Более того, могу пропалить некоторые знания, полученные при использовании наших доморощенных средств:

1. На спец. сетках экспериментальных сайтов, при условии, что абсолютно все факторы постоянны (это жестко контролируется), после пере- или дообучения документы не имеют стабильных между собой позиций в выдаче, они регулярно меняются местами.

2. Иногда, после очередного пере- или дообучения, когда немного опускаются позиции некоторых документов, которые мы продвигаем в реале, приходится переобучать свой доморощенный матрикснет по текстовой релевантности. И при оптимизации документов под новое ранжирование не наблюдается никаких "замечательных волшебных чисел", которые нужно знать. В некоторых документах достаточно внести минимальные изменения, а в других - изменить параметры кардинально. Естественно, что позиции в том и в другом случае возвращаются на положенные им места вверху выдачи. :)

wolf:
А, во-вторых, пространно изъясняться не буду, скажу лишь, что чётко видно монотонное непрерывное влияние отдельных факторов.

Ну так сумма кусочно-постоянных функций будет на каких-то отрезках по отдельному параметру монотонной, это же очевидно. И я об этом неоднократно говорил. :)

wolf:
Что позволяет нам сделать вывод, что жадный МатриксНет - это еще не вся формула, а только её часть. И есть еще часть со старым добрым непрерывным монотонным влиянием в аналитическом виде, без деревьев и скачкообразных значений на выходе. Возможно, в виде полиномов

Звуки гонга позволили маркетологам совершить переворот в математике. Скачкообразный матрикснет, сложенный с каким-то весом со старым добрым полиномом дали на выходе непрерывную монотонную функцию. Это нереально круто! :D

wolf:
Возможно, в виде полиномов, о которых упоминал Сегалович в своей статье на РОМИП-2009. И вот именно она довольно хорошо вычисляется

А, вот откуда полином... :)

Видишь ли, РОМИП не всегда успевает за реальной жизнью по объективным причинам. Задания РОМИПа выполнялись весной 2009 года, когда матрикснет еще был одним из перспективных направлений, не более того. Потому и в статье на РОМИПе описан рабочий на то время метод, тем более, что его нужно было описать, там же в паблик выводилась найденная Яндексом метрика pFound, которая отлично себя зарекомендовала.

Матрикснет приняли всерьез только после интернет-математики 2009, когда он уделал всех. Вот тогда и началось его активное развитие, которое продолжается и сейчас. Кстати, если ты вдруг не заметил, то посмотри презентацию Яндекса на конференции SIGIR 2010. Там, кстати, и про поведенческое есть, так что ждем еще сотню клонов от Тара. :)

wolf:
Рабочая она, может, и будет. Только чисто теоретически. На специальным образом составленных тестовых множествах 😂

Почему теоретически? Задача-то ведь не сложная, только ресурсоемкая. Она, например, гораздо проще, чем у Яндекса, т.к. нам не нужны ни асессоры, ни замечательная метрика качества pFound, у нас ведь есть суперские обучающее и тестовое множества - выдача. :)

wolf:
Сколько ни говори "халва", во рту слаще не станет. :) Естественно, влияние от значения фактора зависит. И это значение надо для начала хотя бы знать. И знать, к какому значению стремиться, чтоб получить нужный результат влияния.

Дык, ты так и не понял сути матрикснета... :(

Значение фактора, оптимальное для конкретного сайта - это не какая-то постоянная для всех сайтов величина, нет, это значение зависит от всей совокупности значений всех факторов данного документа. И оно не вычисляется "взглядом в дырку". Для его вычисления все же придется строить свой матрикснет. :)

wolf:
Есть формулы. 420+ штук примерно, если Расковалову верить. Каждый из факторов по своей формуле вычисляется и нормируется в одинаковый отрезок. Ну, а потом влияют на результат, кто в плюс, кто в минус, а кто в ноль. Вот их и восстанавливаем потихоньку, благо давал нам Яндекс недавно замечательнейшую возможность в своём XML'е видеть конкретные циферьки. Матерьяльчик собранный работенки много подкинул, еще разгребать и разгребать. Ты же, свои собственные "матрикснеты" строя, свои собственные факторы придумываешь. Поэтому и получается у тебя шиш с маслом в виде громкого научнообразного пука на бесплатных семинарах. И это еще большой вопрос, кого забавнее читать, а тем более слушать ;)

Дык, я же неоднократно говорил, что отдельный фактор не влияет однозначно, он может влиять и в плюс, и в минус на разных документах. Даже в пределах одного топ-10. Это можно сколь угодно долго изучать, пока зарплату платят, но толку от этого ноль. Даже если через дырку в xml-е смотреть. :D

wolf:
По описанию, данному в рекламной статейке, я вижу, что делалось первое, а выдавалось оно за второе :)

Смотрю в книгу - вижу то, что хочу. :)

wolf:
Намёк понял. Паству стричь мешаю. Ну, извини, купился на сказку, что ты чисто из научного интереса с местными ребятами корешишься ;) Ну, раз интерес не научный, неудобные вопросы больше задавать не буду :)

Не, ты не понял. Я имел ввиду, что умеренно дуть щеки в собственном бизнесе тебе позволено, можно любую лапшу выдавать за истину. Я влезать не буду. ;)

euhenio:
а по теме - неважно, насколько точно совпадают яндексовые и модельные факторы. Даже если они примерно похоже считаются и набор хоть частично перекрываются - можно получить результаты и рабочую модель.

Совершенно верно. Собственно, концепция матрикснета строится в том числе и на том, что факторов должно быть много и они должны слабо коррелировать друг с другом. Мне, кстати, это не особо нравится, т.к. не сильно стимулирует к дальнейшим исследованиям. Потому я стараюсь давить на то, что да, все это безусловно важно, но все же от качества факторов будет зависеть и качество полученной выдачи. Т.е. нужно креативить в исследованиях поиска, стимулируя российскую поисковую науку. Креативить до тех пор, пока всем спецам по поиску в мире не придется хорошо изучить русский язык, чтобы читать в оригинале выдающиеся труды. :D

Всего: 1960