Не, ты ошибся, я не дул щеки, а отвечал на наезды Людкевича, который меня обвинил в шарлатанстве. Думаешь, нужно было молча схавать?
Папики у вас с Серегой есть, а я вроде уже писал в этой ветке, что в отрасли еще ни у кого женилка не выросла для того, чтобы мне папиком стать. :)
Ну и корки в ветке - исключительно ваши с Серегой, я их только комментирую. :D
Дерево не одно. И, если принять твою гипотезу с полиномом и мои добавки, то, скорее всего, ветвления все же были, просто матрикснет в этом диапазоне выдавал достаточно близкие значения. Близкие, но не одинаковые, и это может хреново сказаться на определении полинома, вплоть до полного ахтунга.
G00DMAN добавил 29.08.2010 в 19:51
НС обучали Руки, я типа только курировал общую логику исследований. И почему нельзя пользоваться? Руки же пользуются.
Ну я выше объяснил, почему я так ответил. Тебя же отмазывал. ;)
G00DMAN добавил 29.08.2010 в 19:59
И да, Миша, отличный маркетинговый ход - вырезать наше бодалово из ветки конкурентов. Нечего им посещалку увеличивать. Руки кусают локти. :D
Если бы так... Отмаз не прокатит.
Миша как раз и заявил, что я взял формулу не из презенташки матрикснета, а из доклада на бубубу. Он заявил это на видео, потом заявил организаторам, с претензией "зачем вакатили гудмана, он же перепутал Мадрид с матрикснетом?" Потом я ему на ужине объяснил вроде, что он не прав, посоветовал перечитать оба документа. Но он забил и все равно запостил у себя в блоге этот бред. Ну маркетолог, что с него взять... :D
G00DMAN добавил 29.08.2010 в 19:44
Принимается. :)
Сергей, а почему не все посты перенес?
Упс.... Теперь вроде все :)
Тем более, вот смотри, вроде логично получается. Для того, чтобы ты отловил более-менее красиво возрастающие дельты от полинома при возрастании фактора (или убывающие, не суть), нужно, чтобы значение матрикснетной составляющей оказалось фиксом. А, учитывая то, что фактор входит в большое кол-во деревьев и диапазон ты брал наверняка не маленький, то предположение о том, что этот диапазон всегда входит целиком в один из деревянных диапазонов, мне видится слегка фантастичным.
Ага... Ты знаешь, не хотел я эту тему на форум выносить, но раз ты начал...
Дело в том, что перед той конференцией меня попросили не чмарить конкурентов Рук, что я и делал. А Миша Райцин заявил что-то типа "Ты че, гудман, лох чтоле, это же не формула матрикснета, это формула ранжирования из Мадридского доклада!" Ну за такой бред нужно было жестко ответить твоему партнеру, такому же маркетологу с претензией на математичность, но я перевел все в шутку, просили же. :)
Чтобы не быть голословным:
Видео доклада (примерно 29-я минута)
Комментарий Миши в своем блоге, который я и сюда скопирую:
Перевод доклада на бубубу-2009 в Мадриде
Где там формула ранжирования? Там вообще о другом. :D
Пацаны, ну если вы плохо шарите в математике, то не нужно в таком тоне общаться с теми, кто шарит лучше. Вам же потом хуже будет... ;)
А почему "благодаря гладкости"? Она у тебя просто ловится.
Ты вечно делаешь загадочное лицо с ехидной ухмылкой, но без аргУментов. Но это не всегда прокатывает.
Каждый фактор ранжирования (из 420+ и их производных) встречается в разных деревьях, т.е. больше одного раза. Потому не сложно построить пример из нескольких деревьев, в котором релевантность при изменении одного фактора и фиксе остальных будет расти именно так, как ты увидел, без добавок полинома. Почему ты считаешь, что такого же не могло получиться и в реальном матрикснете? Вероятность далеко не нулевая. :)
Вовремя ты свой пост подправил. ;)
Но все дело в том, что кусочный+гладкий=кусочный. Вот же засада... :D
Ну и для конструктива нашей беседы я хочу заметить, что не против гипотезы о наличии некоторой добавочной функции. Только не для сглаживания, конечно. Связка матрикснет+pFound не плохо справляется с поиском релевантных ответов, но не более того. А в коммерческой выдаче этого мало, т.к. топовые документы должны быть не только релевантными, они еще должны удовлетворить потребности пользователя. Пользователь с баблом должен остаться доволен. Эта проблема как раз и может решаться добавкой некоей функции, и гладкость ее не критична. Критичны другие свойства.
Переворот в том, что ты кусочное сгладил прибавлением гладкого. И ты постоянно пытаешься подчеркнуть, что "гудман регулярно напаивает Сегаловича, и тот ему открывает все свои секреты". К чему это? Кстати - я вообще не пью. :)
Господин математик знает все параметры этих "420+" метрик, и не только знает, он их еще и жестко контролирует. :)
Почему не конструктивны? Мы совершенно точно установили, что у меня больше и математичнее, а у тебя - лохматее. :D
Да ну? Вообще-то все факторы так или иначе связаны друг с другом через различные деревья.
Эти значения и есть предмет оптимизации при обучении, т.е. при каждом переобучении или дообучении они могут легко меняться, т.к. каждый раз выбирается оптимальное, подогнанное уже под бОльшую обучающую выборку. И какой смысл его знать? Более того, могу пропалить некоторые знания, полученные при использовании наших доморощенных средств:
1. На спец. сетках экспериментальных сайтов, при условии, что абсолютно все факторы постоянны (это жестко контролируется), после пере- или дообучения документы не имеют стабильных между собой позиций в выдаче, они регулярно меняются местами.
2. Иногда, после очередного пере- или дообучения, когда немного опускаются позиции некоторых документов, которые мы продвигаем в реале, приходится переобучать свой доморощенный матрикснет по текстовой релевантности. И при оптимизации документов под новое ранжирование не наблюдается никаких "замечательных волшебных чисел", которые нужно знать. В некоторых документах достаточно внести минимальные изменения, а в других - изменить параметры кардинально. Естественно, что позиции в том и в другом случае возвращаются на положенные им места вверху выдачи. :)
Ну так сумма кусочно-постоянных функций будет на каких-то отрезках по отдельному параметру монотонной, это же очевидно. И я об этом неоднократно говорил. :)
Звуки гонга позволили маркетологам совершить переворот в математике. Скачкообразный матрикснет, сложенный с каким-то весом со старым добрым полиномом дали на выходе непрерывную монотонную функцию. Это нереально круто! :D
А, вот откуда полином... :)
Видишь ли, РОМИП не всегда успевает за реальной жизнью по объективным причинам. Задания РОМИПа выполнялись весной 2009 года, когда матрикснет еще был одним из перспективных направлений, не более того. Потому и в статье на РОМИПе описан рабочий на то время метод, тем более, что его нужно было описать, там же в паблик выводилась найденная Яндексом метрика pFound, которая отлично себя зарекомендовала.
Матрикснет приняли всерьез только после интернет-математики 2009, когда он уделал всех. Вот тогда и началось его активное развитие, которое продолжается и сейчас. Кстати, если ты вдруг не заметил, то посмотри презентацию Яндекса на конференции SIGIR 2010. Там, кстати, и про поведенческое есть, так что ждем еще сотню клонов от Тара. :)
Почему теоретически? Задача-то ведь не сложная, только ресурсоемкая. Она, например, гораздо проще, чем у Яндекса, т.к. нам не нужны ни асессоры, ни замечательная метрика качества pFound, у нас ведь есть суперские обучающее и тестовое множества - выдача. :)
Дык, ты так и не понял сути матрикснета... :(
Значение фактора, оптимальное для конкретного сайта - это не какая-то постоянная для всех сайтов величина, нет, это значение зависит от всей совокупности значений всех факторов данного документа. И оно не вычисляется "взглядом в дырку". Для его вычисления все же придется строить свой матрикснет. :)
Дык, я же неоднократно говорил, что отдельный фактор не влияет однозначно, он может влиять и в плюс, и в минус на разных документах. Даже в пределах одного топ-10. Это можно сколь угодно долго изучать, пока зарплату платят, но толку от этого ноль. Даже если через дырку в xml-е смотреть. :D
Смотрю в книгу - вижу то, что хочу. :)
Не, ты не понял. Я имел ввиду, что умеренно дуть щеки в собственном бизнесе тебе позволено, можно любую лапшу выдавать за истину. Я влезать не буду. ;)
Совершенно верно. Собственно, концепция матрикснета строится в том числе и на том, что факторов должно быть много и они должны слабо коррелировать друг с другом. Мне, кстати, это не особо нравится, т.к. не сильно стимулирует к дальнейшим исследованиям. Потому я стараюсь давить на то, что да, все это безусловно важно, но все же от качества факторов будет зависеть и качество полученной выдачи. Т.е. нужно креативить в исследованиях поиска, стимулируя российскую поисковую науку. Креативить до тех пор, пока всем спецам по поиску в мире не придется хорошо изучить русский язык, чтобы читать в оригинале выдающиеся труды. :D