G00DMAN

G00DMAN
Рейтинг
122
Регистрация
19.04.2008
юни:
Что тогда привязывать?

Логику матрикснета. :D

dudelka:
Илья, а почему Вы считаете, что держится на ПФ, просто мнение, можно без доказательств

Потому что так устроено текущее ранжирование в Яндексе.

AiK:
А ты точно не забыл просуммировать все "почти 40" модификаций BM25? ;)

Про суммирование сорока bm25 я ничего не скажу, потому что NDA пока действует, а вот про более старые рейтинги по "абсолютной силе", когда факторов было вдвое меньше нынешнего, что-то сказать уже могу. Факторов, построенных на BM25 тогда было примерно 15 и их суммарная "абсолютная сила" была равно 38 928 единиц. Эти "единицы", кстати, для измерения "абсолютной силы" ввёл не Яндекс, а я и "физический" смысл у них простой - за "единицу" принимается "абсолютная сила" самого "слабого" фактора. В таких "единицах" гораздо удобнее ориентироваться, по сравнению с исходным представлением в рейтинге.

"Абсолютная сила" только одного, самого "сильного" ПФ в то время была равно 90 650 единиц, т.е. почти в три раза больше суммы 15-ти. И это только одного фактора, а не суммы всех ПФ. С суммой - разница выросла бы больше, чем на порядок.

AiK:
Спасибо за идею. Этот эксперимент ставится естественным образом тысячами. Когда удаляется индексный файл, а сайт остаётся в топе без сниппета. При этом естественные ПФ ужасные.

Естественные ПФ при этом ужасные только с точки зрения человеческой логики. Это основная ошибка всех накрутчиков ПФ - вы пытаетесь привязать человеческую логику к матрикснету, а она не привязывается. :D

AiK:
Держится оно на ссылках: ссылочном BM25 и PageRank. Так можно будет проверить отключение коммерческих ссылок :)

Держится оно в основном на ПФ, хотя я хз, как это можно доказать в нынешних условиях.

dudelka:
Что накручивалось понятно, Вы же этим аргументировали это, утверждение "без слов запроса не может быть в топе" не верно,
Тут был бингом скопировал топ гугла , а не выведено в топ, потому что, если бы это был не гугл, эта манипуляция бы не прошла, отсюда, это частный случай, и к общей картине не имеет никакого отношения
с этим то согласитесь :)

Дык, я же вроде написал выше - если бы главным фактором было "этот документ в топе Гугла", то вывелись бы все потешные запросы. Но этого не произошло. Потому что такого фактора не может быть среди сильных, хотя бы потому, что у всех поисковых инженеров ЧСВ раздуто немеряно. :)

Если бы это был не Гугл, то не было бы накрутки серповых ПФ, а какими еще можно накрутить такой бред - я хз. Так что "негугл" тут никак не подойдёт.

dudelka:
с Новым годом Вас, спасибо за интересную беседу.

И вас с НГ. Не за что. :)

artcrazy:
Этот документ успешно будет изъят из выдачи как нерелевантный - как только обновятся кеши поисковика для выдачи.

А вот это далеко не факт, т.к. ПФ у документа будут хорошими (AiK же накрутит, да?). :)

dudelka:
ок. давайте так тогда ) если бы вместо гугла был бы сайт primer.com, прекрасно индексировался бингом и с ним проделали туже самую манипуляцию, я думаю вы согласитесь, что скорее всего результат был бы не такой ? 😂 его бы вообще не было, я уверен, что это проверялось точно так же, как и гуглом

При чём тут индексация Бингом? И каким образом на primer.com можно проделать то же самое? Я напомню, что накручивались факторы перехода с серпа ПС.

dudelka:
Там искусственная накрутка и гугл как первоисточник

Первоисточник чего?

И да, там искусственная накрутка и искусственное формирование выдачи Гугла.

dudelka:
при чем тут ПФ, бинг просто заполнил пробел в своей выдаче, если перенести этот эксперимент на существующие запросы, убрать первоисточник ( так как с ним теряется весь смысл ПФ, без ссылочного ), такое не получится и ни какой релевантности, не будет близко.

Любой поисковик "заполняет пробелы" только в том случае, если релевантность нового документа запросу больше какого-то значения, т.е. документ достаточно релевантен запросу. В данном случае эта релевантность образовалась именно из накрутки ПФ, одного факта "оно есть в выдаче Гугла" не хватило бы. Потому что документ не релевантен запросу. Ну и это подтверждает тот факт, что гуглоидам удалось вывести далеко не все запросы, а только часть.

YaanGle:
Считать сложнее не будет, но что тогда будет с полнотой ответа?

А при чём тут полнота? Такая метрика качества в поисковой индустрии не используется. В Яндексе использовалась спионеренная в Яху метрика ECM (Extended cascade model), которую они переназвали pFound. Но потом она была доработана добавлением ПФ. Об этом Плахов рассказывал на YaC несколько лет назад. Полнота не очень интересна. На огромном "длинном хвосте" запросов её всё равно практически нет, а на частотных запросах количество документов с Rel+ в среднем гораздо больше 10-ти. Полнота тут ничего не даст.

YaanGle:
По сути это тоже текстовый индекс для документа, только запросовый

Ну если такой индекс есть, то да.

dudelka:
была только одинаковая выдача у гугла и бинга, ранжирования там нет, есть случайный несуществующий ключ и такой же документ ( случайный )

Ранжирования нет, т.к. ранжировать нечего - был всего один документ по каждому запросу. :D

А подсчёт релевантности есть, и релевантность этих документов запросам получилась достаточно высокой, потому Бинг их и показал в выдаче. Релевантность получилась такой исключительно за счёт ПФ, т.к. текстовые и ссылочные факторы равны нулю по определению.

dlyanachalas:
Сложнее. И не просто сложнее, а в квадрате или в кубе. Правильно тут пошел разговор - Яндекс может сделать хоть 100500 "факторов", но классический инвертированный индекс всё-равно будет в основе поиска. От этого невозможной отойти.*

А при чём тут инвертированный индекс? Как ранжирование по ПФ при фастранке ему противоречит? 😮

dlyanachalas:
Это не кипишь, это единичные случаи и самое главное, связаны не с ранжированием, а с индексацией.

Они связаны именно с ранжированием - у откровенно нерелевантных запросу документов Бинг "внезапно" обнаружил приличную релевантность. Благодаря накрутке ПФ гуглоидами.

dlyanachalas:
Ведь сначала документы отбираются по присутствию ключа в текстах и ссылках

Как они отбираются сначала - не известно. Вот в примере с Бингом - в том числе и по ПФ. :D

dlyanachalas:
Алгоритм не обманешь и в результате таких действий часто получается ерунда. Спасают только орды асессоров.

Гуглоиды обманули, однако.

А асессоры тут при чём?

dlyanachalas:
Тут ПФ никак не может использоваться.

В Бинге же использовалось. Почему в Яндексе не может? Там похоже всё устроено.

AiK:
Илья, ну некорректно так спорить. Приписать усиленные высказывания и потом их опровергать :)

Я вроде старался так не делать. Если был не прав - прошу прощения. :)

AiK:
Нельзя. Но я и не собирался. Хотя бы потому что одних BM25 дофига.
Я предлагал оценивать группы факторов. Потому что единственный разумный для меня метод оценить вклад группы факторов в 40Мбайном полиноме - попытаться их обнулить. И мы, в отличие от яндексоидов, можем это делать только мысленно

О, ты думаешь практически как яндексоид.

Но они пошли дальше - у фактора есть два граничных значения, 0 и 1. Если посчитать оба эти значения матрикснета а потом абсолютную разность усреднить по всем парам (запрос; документ), то после большого считалова получим пузомерку "абсолютная сила фактора". Такая есть в реале, и там BM25 не в топе рейтинга. :)

AiK:
Немного не так я формулировал. Глюков в топе полно. Но они временные. А вот попасть туда не случайно, а специально без хотя бы части слов запроса неимоверно трудно, если вообще возможно.

Ну да. Гугл вот попал только с админ. ресурсом, у нас такого пока нет. :D

AiK:
Это попадание в индекс. Но не в топ.

Это именно попадание в топ. Потому что попало в ранее пустую выдачу по конкретному запросу, а не просто проиндексировалось.

AiK:
В принципе, если ПФ круты, то документы можно загонять именно в топ без BM25.

А можно провести обратный эксперимент - взять документ в топе, но без нужных ссылок, который вылез только на тексте и ПФ. Сменить текст и попробовать удержать новый нерелевантный в выдаче. Я думаю, что удержится в среднем. :)

AiK:
Тут я с тобой соглашусь. Какие-то ПФ яндексриды могут теоретически включать в фастранк. Но практически это несколько безумная идея - без топа нет ПФ, а без ПФ нет топа. Замкнутый круг :)

Дык да. Обратная связь, статичность выдачи и прочая ПФ-бредятина. :)

dlyanachalas:
Потому "нет", что это - "фастранк". Там ничего кроме самых элементарных сравнений быть не может.

Ну так а я о чём? Или вы считаете, что "CTR по запросу" гораздо сложнее, чем "BM25 по запросу"? :)

И, кстати - в случае, если на одной ноде слишком много релевантных ответов, то документы из вчерашнего топа могут просто не попасть в отдачу фастранка, если не учитывать ПФ. :)

dlyanachalas:
Нет смысла выдумывать. Если ключа не будет ни в тексте, ни в ссылках, документ никогда не попадет в выборку для пост-ранжирования.

Это очевидный факт, основанный на фундаментальных принципах ПС.

Я вроде выше привёл ссылку на старый гугло-кипеш, которая опровергает ваш "фундаментальный принцип". Гугл загонял в выдачу Бинга кучу документов без вхождения в текст и ссылки. :)

AiK:
Да очень просто. Попробуйте продвинуть в ТОП сайт без BM25. Вообще без, со всеми модификациями. То есть без ключевиков в тексте и в ссылках. Не найти пример, где в топе застрял такой сайт, а преднамеренно вывести в топ заблаговременно выбранный сайт.

Если получится, Вы докажете, что BM25 не рулит и заработаете всё бабло в SEO :)

Если не получится, то вам придётся вспомнить, что сначала быстрой формулой отбирается 1000 документов по BM25, а уже потом эта тысяча (ну или сколько есть) ранжируется с помощью медленного MatrixNet, то есть с использованием 800±50 факторов.

То есть BM25 первичен по определению.

Не, всё немного не так.

Во-первых твоя метрика "важности" хреновая, т.к. хз, как по ней сравнивать два произвольных фактора.

Во-вторых, утверждение "без слов запроса не может быть в топе" не верно. Это, например, ещё три года назад показал Гугл, подловив Бинг: Google обвиняет Bing в копировании его поисковой выдачи. У Бинга алгоритмы ранжирования похожи на яндексовские, только факторов ещё больше. :D

В третьих, на этапе фастранка в формуле вполне могут быть и ПФ, почему бы и нет?

Ramiil:
Если не ошибаюсь, то анкорный и текстовый корпус складывались при расчете по формуле ВМ25

Ошибаетесь. Факторов, которые рассчитываются по BM25 в матрикснете много разных, больше 4-х десятков, по тексту, по тайтлу, по анкорам, по текст+анкоры (они называют это "монолитный индекс") и пр.

Фраза "текстовый корпус" режет глаз. "Корпус" в поисковой науке - то же самое, что и "коллекция", а в данном случае коллекция чего? Предложений, чтоле? :)

jorevo:
Ну и касаемо аналитиков... что то как то не видать их (не в обиду). Даже гудрый мудвин куда то пропал...

Гудрый мудвин никуда не пропал, активно пишет на Тиме и в Миксере. Ну а по теме топика - на морде сёрча висело наше мнение перед НГ, ты просто прощёлкал. :)

Спасибо всем за поздравления! :)

Всего: 1960