Логику матрикснета. :D
Потому что так устроено текущее ранжирование в Яндексе.
Про суммирование сорока bm25 я ничего не скажу, потому что NDA пока действует, а вот про более старые рейтинги по "абсолютной силе", когда факторов было вдвое меньше нынешнего, что-то сказать уже могу. Факторов, построенных на BM25 тогда было примерно 15 и их суммарная "абсолютная сила" была равно 38 928 единиц. Эти "единицы", кстати, для измерения "абсолютной силы" ввёл не Яндекс, а я и "физический" смысл у них простой - за "единицу" принимается "абсолютная сила" самого "слабого" фактора. В таких "единицах" гораздо удобнее ориентироваться, по сравнению с исходным представлением в рейтинге.
"Абсолютная сила" только одного, самого "сильного" ПФ в то время была равно 90 650 единиц, т.е. почти в три раза больше суммы 15-ти. И это только одного фактора, а не суммы всех ПФ. С суммой - разница выросла бы больше, чем на порядок.
Естественные ПФ при этом ужасные только с точки зрения человеческой логики. Это основная ошибка всех накрутчиков ПФ - вы пытаетесь привязать человеческую логику к матрикснету, а она не привязывается. :D
Держится оно в основном на ПФ, хотя я хз, как это можно доказать в нынешних условиях.
Дык, я же вроде написал выше - если бы главным фактором было "этот документ в топе Гугла", то вывелись бы все потешные запросы. Но этого не произошло. Потому что такого фактора не может быть среди сильных, хотя бы потому, что у всех поисковых инженеров ЧСВ раздуто немеряно. :)
Если бы это был не Гугл, то не было бы накрутки серповых ПФ, а какими еще можно накрутить такой бред - я хз. Так что "негугл" тут никак не подойдёт.
И вас с НГ. Не за что. :)
А вот это далеко не факт, т.к. ПФ у документа будут хорошими (AiK же накрутит, да?). :)
При чём тут индексация Бингом? И каким образом на primer.com можно проделать то же самое? Я напомню, что накручивались факторы перехода с серпа ПС.
Первоисточник чего?
И да, там искусственная накрутка и искусственное формирование выдачи Гугла.
Любой поисковик "заполняет пробелы" только в том случае, если релевантность нового документа запросу больше какого-то значения, т.е. документ достаточно релевантен запросу. В данном случае эта релевантность образовалась именно из накрутки ПФ, одного факта "оно есть в выдаче Гугла" не хватило бы. Потому что документ не релевантен запросу. Ну и это подтверждает тот факт, что гуглоидам удалось вывести далеко не все запросы, а только часть.
А при чём тут полнота? Такая метрика качества в поисковой индустрии не используется. В Яндексе использовалась спионеренная в Яху метрика ECM (Extended cascade model), которую они переназвали pFound. Но потом она была доработана добавлением ПФ. Об этом Плахов рассказывал на YaC несколько лет назад. Полнота не очень интересна. На огромном "длинном хвосте" запросов её всё равно практически нет, а на частотных запросах количество документов с Rel+ в среднем гораздо больше 10-ти. Полнота тут ничего не даст.
Ну если такой индекс есть, то да.
Ранжирования нет, т.к. ранжировать нечего - был всего один документ по каждому запросу. :D
А подсчёт релевантности есть, и релевантность этих документов запросам получилась достаточно высокой, потому Бинг их и показал в выдаче. Релевантность получилась такой исключительно за счёт ПФ, т.к. текстовые и ссылочные факторы равны нулю по определению.
А при чём тут инвертированный индекс? Как ранжирование по ПФ при фастранке ему противоречит? 😮
Они связаны именно с ранжированием - у откровенно нерелевантных запросу документов Бинг "внезапно" обнаружил приличную релевантность. Благодаря накрутке ПФ гуглоидами.
Как они отбираются сначала - не известно. Вот в примере с Бингом - в том числе и по ПФ. :D
Гуглоиды обманули, однако.
А асессоры тут при чём?
В Бинге же использовалось. Почему в Яндексе не может? Там похоже всё устроено.
Я вроде старался так не делать. Если был не прав - прошу прощения. :)
О, ты думаешь практически как яндексоид.
Но они пошли дальше - у фактора есть два граничных значения, 0 и 1. Если посчитать оба эти значения матрикснета а потом абсолютную разность усреднить по всем парам (запрос; документ), то после большого считалова получим пузомерку "абсолютная сила фактора". Такая есть в реале, и там BM25 не в топе рейтинга. :)
Ну да. Гугл вот попал только с админ. ресурсом, у нас такого пока нет. :D
Это именно попадание в топ. Потому что попало в ранее пустую выдачу по конкретному запросу, а не просто проиндексировалось.
А можно провести обратный эксперимент - взять документ в топе, но без нужных ссылок, который вылез только на тексте и ПФ. Сменить текст и попробовать удержать новый нерелевантный в выдаче. Я думаю, что удержится в среднем. :)
Дык да. Обратная связь, статичность выдачи и прочая ПФ-бредятина. :)
Ну так а я о чём? Или вы считаете, что "CTR по запросу" гораздо сложнее, чем "BM25 по запросу"? :)
И, кстати - в случае, если на одной ноде слишком много релевантных ответов, то документы из вчерашнего топа могут просто не попасть в отдачу фастранка, если не учитывать ПФ. :)
Я вроде выше привёл ссылку на старый гугло-кипеш, которая опровергает ваш "фундаментальный принцип". Гугл загонял в выдачу Бинга кучу документов без вхождения в текст и ссылки. :)
Не, всё немного не так.
Во-первых твоя метрика "важности" хреновая, т.к. хз, как по ней сравнивать два произвольных фактора.
Во-вторых, утверждение "без слов запроса не может быть в топе" не верно. Это, например, ещё три года назад показал Гугл, подловив Бинг: Google обвиняет Bing в копировании его поисковой выдачи. У Бинга алгоритмы ранжирования похожи на яндексовские, только факторов ещё больше. :D
В третьих, на этапе фастранка в формуле вполне могут быть и ПФ, почему бы и нет?
Ошибаетесь. Факторов, которые рассчитываются по BM25 в матрикснете много разных, больше 4-х десятков, по тексту, по тайтлу, по анкорам, по текст+анкоры (они называют это "монолитный индекс") и пр.
Фраза "текстовый корпус" режет глаз. "Корпус" в поисковой науке - то же самое, что и "коллекция", а в данном случае коллекция чего? Предложений, чтоле? :)
Гудрый мудвин никуда не пропал, активно пишет на Тиме и в Миксере. Ну а по теме топика - на морде сёрча висело наше мнение перед НГ, ты просто прощёлкал. :)
Спасибо всем за поздравления! :)