Коллеги, прошу прощения за то, что вчера соскочил с ветки в самое неподходящее время. :)
Без меня вроде все более-менее разобрали уже.
Я только хотел отметить свой косяк в обсуждении - дерево я принял не за дерево построения функции hk, а за дерево выбора функции hk, тут не последнюю роль сыграл английский язык, т.к. под decision tree обычно имеется ввиду дерево принятия решений, т.е. по сути выбор решения из множества альтернатив, вот я и купился. Бегло просмотрел и в статьи Фридмана сразу полез копать (а у него выбираются простые функции из заданного множества). Хотя на объяснялку в моей статье про Снежинск эти никак не влияет.
:)
Поздравляю! :)
Для такого вида функций придуман специальный жадный алгоритм, он быстро считает.
Да. Причем коэффициенты по жадному алгоритму находятся быстро. А дальше сравнивается полученная релевантность с "истинной", и, если погрешность большая, то можно увеличить количество функций/изменить набор функций/увеличить обучающую выборку/изменить "истинные" релевантности. В целом метод вполне рабочий, кстати.
Функции выбираются так, чтобы вклад каждой в общую формулу получился не очень большим, возможно есть даже автоматизация процесса отбора функций по критерию "малый вклад". Т.е. например f1(q,d)=a1*TF(q,d) уже не покатит, если судить по моим исследованиям.
20% я написал для примера, на самом деле может и намного больше получится, это как повезет. :)
Опять же - буки пока сыроваты, посмотрим, что будет через месяц в выдаче.
Я имел ввиду, что оптимизатор может сколько угодно считать, что рулит тематичность или что-то еще. На выдаче его методы могут отразиться достаточно произвольным образом. :)
G00DMAN добавил 16.11.2009 в 16:34
В Яндексе есть сильные и креативные математики, для них выбор таких функций наверное очевиден. Ну или пробуют разные наборы, экспериментируют пока. Считается-то быстро.
Этот пример взят из презентации Яндекса. И он-то как раз очень удачный, я же писал, что у большинства слагаемых формулы ранжирования логического смысла нет, в том и фишка. :D
G00DMAN добавил 16.11.2009 в 15:58
а хочешь жни, а хочешь куй,
искал A5 - получишь... вики!
:D
G00DMAN добавил 16.11.2009 в 16:02
Не все в топе. По сео-логике бюджет+опыт оптимизатора должны рулить, но в буках пока что это не всегда так. ;)
Проблемы начинаются, когда релевантных документов на качественных сайтах больше десяти. :)
А с чего Вы взяли, что большие компании выиграют? У кого из "больших" есть реальный научный отдел? Судя по трудам РОМИП - нет таких. :)
Рандома в выдаче не будет, выдача получится достаточно стабильной. Рандом будет в результатах нашей деятельности, т.е. возьмете 10 проектов, а в топ из них выйдет только два, например.
Ну если два из десяти все же выйдут в топ, то почему конец? :D
mhz, да вроде нет, разве что какой-нить монстр программизма для автоматизации потокового сео, это можно было бы обсудить. :)
Я тут написал немного букв про Снежинск. Можно почитать, если не лениво. :)
Вмешалось новое, ага.
А мне чета не очень. :D
Ну есть же сервисы Ашманова, вполне приличные. По Ашманову на буках все не плохо.