wolf

wolf
Рейтинг
1183
Регистрация
13.03.2001
Должность
интернет-маркетинг, SEO
G00DMAN:
Дело в том, что для реинжиниринга формулы с приличным качеством нужно подобрать достаточно похожий набор признаков для пары (запрос,документ), а большое число этих признаков завязано сегодня на такую характеристику, как ICF (определение, если кто не в курсе, есть в докладе Яндекса на РОМИП-2006). Для сбора базы ICF нужна коллекция документов, аналогичная коллекции Яндекса по качеству. У кого она есть? Ни у кого этого нет (кроме меня ), более того - никто из спецов в крупных конторах сегодня не способен сформулировать требований для получения правильной коллекции, как мне кажется.

И всё таки, полагаю, что для реинжиниринга вполне можно обойтись и без знания точных значений ICF. Не так страшен черт. Ведь совсем необязательно формулу восстанавливать полностью

G00DMAN:
Сергей, я в этой ветке давал ссылку на источник, в посте #1209

Спасибо. Рановато я из той дискуссии на я.ру слился :) То-то, я думаю, с чего это вчера AiK про перемножения факторов вещать стал :)

G00DMAN:
Сегалович написал, что больше 100, да это и понятно. Не забывайте еще про два с лишним десятка разных региональных выдач, для каждого региона может быть больше одного параметра.
Какие-то примеры "признаков" можно посмотреть в докладе Яндекса на РОМИП-2006.

Да и на РОМИП-2009 тоже. Например, там фигурирует "группа факторов, состоящая из различных модификаций формулы Okapi_BM25". В общем, могут и по другим признакам различные модификации зарядить. ;)

ru-design:
вот здесь в функции релевантности в примере приводятся совершенно экзотические функции а не только полиномы

Я так полагаю, это дан пример как бы реальной аналитической функции, которую надо приблизить численно

_S_:
Это не те “параметры”, которые “признаки” или “свойства” (features), а те параметры, из которых строится модель.

А признаков у нас, и правда, несколько сотен.
10 сегаловичей

_S_, источником цитаты не поделитесь?

dlyanachalas:
Наша мини-конкуренция по одному из ВК закончилась в мою пользу с вводом Снежинска

А по остальным? :) И что по этому одному было до Снежинска? Внезапно свалившаяся халява - это, конечно, повод повыпячиваться, но ведь халява, она на то ведь и халява, что не вечна ;)

dlyanachalas:
Они используют какое-то самопальное подобие рядов

Рядов? Самопальное? О Sancta Simplicitas! Какое хоть НИИ было? Химическое? :)

dlyanachalas:
Здесь. А что, данный факт вызывает сомнения?

Факт в Вашей интерпретации? Огромные.

zsz:
Да тут и математического ума не надо, чтобы уловить понятие САРКАЗМ

Сарказм сам по себе - это неплохо. Плохо, когда он (как, впрочем, и любая вещь) неуместен. Впрочем, разбирайтесь пока дальше сами. Я уже для себя достаточно понял. TimeBomb, коллега, спасибо за дискуссию. G00DMAN'у также - за толчок к изысканию. :)

zsz:
Похоже Вы поставили нашего "математега" в тупик!

Любезный, я, во-первых, не Ваш, а, во-вторых, не "математег", а математик. Образование у меня такое.

TimeBomb:
не fr с индексом 3, а f, идиот! Это скорее всего вообще не функции!

f итые - это ведь как раз и есть те самые тыщи факторов :)

TimeBomb:
Мне кажется что они имели ввиду под complex structure более сложные нежели бинарные ветвления. В более сложных ветвлениях действительно отпадает необходимость если независимо от ветвления предыдущего шага к результату применяется одно и то же условие. Тут действительно решает исключительно глубина.

Ну, дык я именно это и имел в виду. Интересно, каков порядок значения k для набора в тыщи факторов, учитываемых Яндексом? :)

TimeBomb:
А теперь немного про другое... Мне не дают покоя картинки деревьев на страницах 22 (3 "региона") и 27 (6 регионов)... Причина беспокойства - на рис. с 22 стр. причины ветвления (>0.5 и >0.78) ясны, непонятно, почему первая fr идет с индексом 3, а вторая сразу с индексом 65...

Ну, это просто примеры. Похоже, там на всем классе деревьев ищется оптимальное. Насколько я понимаю из эпитета "simple" и из примеров - дерево простенькое, в каждом узле имеется только два потомка. В итоге на выходе получаем что-то вроде кусочно-постоянной функции. Чем "глубже" дерево (больше k), тем как бы лучше: "We don't need complex structure: depth is the main thing"

То есть сначала решается задача поиска оптимального h1 для k=1. То есть находят самый лучший признак из всех f и значение альфа для него (bestTree), на котором решается оптимизационная задача из пункта "Weak learner selection", потом спускаются на уровень и ищут h2 (причем с правилом "The same split conditions for one layer" - видите в примере условие f56>0.34 - одинаковое для обоих ветвей?), ну и так далее...

Любопытная картинка вырисовывается... :)

Всего: 24501