Большинство факторов - запросонезависимы?

I
На сайте с 21.06.2007
Offline
31
2480

Всем привет.

Не так давно сотрудники Яндекса говорили о том, что теперь размер формулы ранжирования увеличился до сотен мегабайт. Но ведь практически невозможно просчитывать в реальном времени релевантность документов по такой гигантской формуле. Получается, основная масса параметров рассчитывается отдельно и, следовательно, запросонезависима? Как вы думаете?

G00DMAN
На сайте с 19.04.2008
Offline
122
#1

inductor, почему не возможно в реальном времени? Все очень даже быстро считается. :)

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)
I
На сайте с 21.06.2007
Offline
31
#2

Там дерево, что ли?

G00DMAN
На сайте с 19.04.2008
Offline
122
#3

Там целый лес...

john2007
На сайте с 26.03.2007
Offline
173
#4

Это, наверное, в формате .doc или .ppt :)

inductor:
Всем привет.

Не так давно сотрудники Яндекса говорили о том, что теперь размер формулы ранжирования увеличился до сотен мегабайт. Но ведь практически невозможно просчитывать в реальном времени релевантность документов по такой гигантской формуле. Получается, основная масса параметров рассчитывается отдельно и, следовательно, запросонезависима? Как вы думаете?
Совершая ошибки, мы не только учимся их не повторять, но и учимся прощать такие же ошибки другим... (с)
D
На сайте с 01.04.2009
Offline
97
#5
john2007:
Это, наверное, в формате .doc или .ppt :)

Совершенно верно.

ТС, поверьте, у яндекса хватит мощности;)

BM
На сайте с 16.02.2009
Offline
176
#6
john2007:
Это, наверное, в формате .doc или .ppt :)

Или даже в .PSD, сам Лебедев помогал рисовать, формула с дизайном :D

G00DMAN
На сайте с 19.04.2008
Offline
122
#7

280 Мб удивляет только тех, кто еще не понял, что такое матрикснет, или поленился немного посчитать. :)

Примерно посчитать не сложно. В формулу входят несколько независимых вариантов, больше 10, но меньше 100, как сказали на YaC 2010. Это, например, варианты для разных регионов и разных геозависимостей. Положим, что их всего 20. Тогда на одну формулу приходится 280 / 20 = 14 Мб.

В формуле около 2К деревьев, т.е. на одно дерево приходится примерно 14М / 2К = 7 Кб.

В дереве - до 10-ти условий и до 2**10=1024 значений, каждое значение занимает явно не один байт. В 7 КБ все это воткнуть не так-то просто.

Так что общий размер в 280 Мб вполне логичный и ничего удивительного в нем нет. :)

SM
На сайте с 30.07.2003
Offline
119
#8
G00DMAN:
280 Мб удивляет только тех, кто еще не понял, что такое матрикснет, или поленился немного посчитать. :)

:)

+ держать 280 мб в озу как бы проблем не составляет => все быстро

+ древовидное представление намекает на логарифмическую (точнее - двоичный логарифм) зависимость временной сложности алгоритма от объема данных формулы. Грубо говоря, при увеличении объема "формулы" в 2 раза, придется в среднем делать на 1 итерацию больше. => все очень быстро.

Кулинарный блог (http://receptoman.ru)
Digital Helen
На сайте с 10.11.2006
Offline
108
#9
G00DMAN:
Там целый лес...

Вот она - формула релевантности Яндекса :)

G00DMAN
На сайте с 19.04.2008
Offline
122
#10
SoftMaker:
держать 280 мб в озу как бы проблем не составляет

Ну да, хотя в целом с озу там вроде небольшие траблы есть, из-за некоторых других данных.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий