Вы наверное не правильно поняли, брались топы по таким однословным запросам. Т.е. пара десятков сайтов по каждому запросу.
С точки зрения статистики выборка была не большая, порядка 20К сайтов, но ее хватило. На самом деле нужно было брать бОльшую выборку, но время на данные исследования было ограничено, в т.ч. и машинное, потому и сделали так.
Новый анализ придется проводить, если полученная функция после какого-то апдейта перестанет удовлетворять заданным условиям. Случится ли это после каждого пересчета - совсем не очевидно.
Результаты носят реальный характер, они ведь проверяются на живой выдаче. А факторы, которые Вы привели, на топ практически не влияют, количество зафильтрованных страниц в топах, где найдено много ответов, исчезающе мало. :)
Деревья - это каскад условий на факторы пары (запрос, документ). Условия в дереве при обучении выставляются один раз.
Это число - релевантность документа запросу, по этому числу документы и ранжируются.
Скачкообразно при изменении одного из факторов на 0.001 могут меняются значения в одном дереве, но нужно иметь ввиду, что данный фактор встречается в разных условиях на большом числе деревьев, и значение функции на одном дереве - малая величина. Так что будет ли большой скачок релевантности документа - не факт. Изменение скорее всего будет в какую-то сторону.
Модель обучается, если есть обучающая выборка. В данном случае она была достаточно качественная.
Ну да. То же самое происходит в матрикснете. :)
В этом нет смысла.
Ну так это вынужденные ответы. На какие-то вопросы так пришлось отвечать, чтобы не уйти глубже в математику, т.к. аудитория этого бы не поняла и скисла совсем. На другие - чтобы замять смешной вопрос от гуры, который не в теме. Иначе пришлось бы его зачморить, но опять же с уходом в дебри, что никому не нужно. :)
Дык, вывода никто и не хотел понять, а он на самом деле прикольный. Все очень просто - дан полный инструментарий для имитации матрикснета в домашних условиях и сказано, что в этом есть смысл. Осталось только потрудиться, но кому это нужно? :)
Откуда это очевидно? И как же тогда масштабируется у Яндекса? :D
Ну да, типа раз у меня не получилось испечь тульский пряник, то и у гудмана не получится влезть на бабу. Логично.
Главное - лаконично. Не устраивать же математическую полемику при такой аудитории. Тем более, что ее итог все равно остался бы таким же. Ну и автор вопроса не пожелал дискуссию продолжить в кулуарах, видимо ответ его удовлетворил. :D
Исследовалась текстовая релевантность документов, при чем тут ссылочное? Результаты получены интересные, хотя могло случится и иначе. Но поперло. :)
Конечно прав. :)
В топе буду находиться сайты, которые там с какого числа стоят? И они что, Яндекс-медом намазаны? ;)
Что касается мадридских свойств, то не факт, что их все же смогли вписать в концепцию матрикснета.
Ну да, именно так. Поэтому измерения такого вклада в каком-нибудь экселе становится проблематичным. Хотя есть множественный корреляционный анализ, там что-то вытянуть удается иногда.
В Вашем случае асессором выступает Яндекс. Вы получаете ранговую оценку, которую нужно перевести в численную. Я это делал достаточно хитрым методом, который базируется на некоторой закрытой от паблика информации. Поэтому спалить не могу, извините.
Да.
Дык, какие дифуры в поисковой науке? Какой еще матан? Ты ж понимаешь, там в основном дроби... :D
Ну там еще несколько логарифмов вроде в метрики затесалось, но все равно, все поисковые формулы только выглядят страшно. Если немного подумать, то они совсем простые.
Жаль, а мы с Миражом мерялись толщиной. Если бы ты его поддержал - может вы бы на пару и перемеряли старика. :D
Всем пожалуйста, но докладчик из мну унылый... :)
А то. :D
А Вы ждали, что я выложу ссылку на скачку формулы ранжирования, вместе с частотными базами?
Самое забавное, что некоторые из топовых потоковых контор взяли бы 60 клиентов по кондиционерам одновременно на вывод в топ-10. :)
P.S. Организаторам спасибо за отличную конфу.