Разная выдача, не могу знать почему)

46

habozhuk

5 августа 2009, 08:38

2010

Смотрите, допустим разместил я 100 тектстовых блоков идентичного содержания на 100 разных страниц разных доменов. Допустим это некая аброкадабра бубра бум. При вводе в яндексе словосочетания аброкадабра бубра бум соответствующие страницы выстраиваются в порядке релевантности. Почему эта релевантность меняется от того, что я просто меняю букву. Допустим sait1.ru на первом, sait2.ru на 2 месте по аброкадабра бубра бум, но , когда идет смена запроса на Аброкадабра Бубра Бум, сайты выстраиваются в другой последовательности, где логика? Т.е. релевантность текста и страниц никак не меняется, а результаты выдачи становятся другими, причем на глаз разница выдачи слава богу не 100%, но порядка 20%, причем нижние сайты по абракадабра бубра бум легко выходят в топ 3 по тому же запросу но с большой буквы...

Другой вариант, выдергиваю просто слово абракадабра и вбиваю его в поиск, сайты выстраиваются уже в 3-ей последовательности, общая корелляция конеш всеровно сохраняется, но вообщем-то результаты всеровно меняются. А по логике вещей все 3 выдачи должны быть идентичными ... Некоторый рандом со стороны яндекса, может просто тупо на каждую разную выдачу добавляется какой-то коэфициент, который имеет интервал,а не фиксированное значение, дабы разнообразить выдачу, но этот рандом опять же имеет фиксированное значение для каждого запроса, т.е. рандом отметается)) Вощем просто загадка для меня

[Удален]

5 августа 2009, 09:08

#1

Вариантов может быть уйма, предоставьте урлы, тогда можно будет вести конструктивный разговор.

H

46

habozhuk

5 августа 2009, 09:14

#2

перечислите плиз один из вариантов уйма и для чего урл, если вопрос общий а не конкретный?

122

G00DMAN

5 августа 2009, 10:24

#3

Вы еще поищите в разных регионах, например с lr=213 и lr2=225. С большой вероятностью тоже получите разные выдачи.

Самый простой вариант объяснялки - если значения функции ранжирования Ф(документ,запрос) лежат для группы документов в определенном узком интервале, то документы из такого интервала выдаются не по возрастанию Ф(), а более хитро, слегка закашивая под рандом, но не рандомом. :D

Запросы имен собственных (с большой буквы которые) могут обрабатываться по другому алгоритму, соответственно получаете другую выдачу.

Запрос с однословной абракадаброй также может обсчитываться по иному. А может и нет, но релевантность изменится, зависит от алгоритма и от окружающих букв. :)

З.Ы. Есть маниакальное подозрение, что интервал для Ф(), о котором я выше нацарапал, сильно расширяется для нестандартных запросов, начиная уже от "" и +. Типа спецом, для любителей непотов и прочей байды. :(

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)

H

46

habozhuk

5 августа 2009, 11:13

#4

т.е. если я правильно понял, в нашем случае 3 варианта запросов, каждый из этих запросов получает "свой алгоритм"-"разный алгоритм" обработки, т.е. в общем случае яндекс использует немного отличающиеся алгоритмы для запросов с большой буквы, запросов однословников и запросов с маленькой буквы. Про разные регионы то понятно, что у каждого сайта свой регион и соответственно в данном регионе он будет более значим. Ну допустим он берет разные алгоритмы для обработки запросов, но только сайты же одинаково значимы всеровно для него. Просто в моей голове примерно такая позиция, что яндекс допустим смотрит на каждый сайт по разному, т.е. на одни сайты зеленым цветом, на другие красным и т.д. Ну вощем спектр, ну вощем типа каждому сайту он уже присваивает определенный "статус", качество, траст, пох как назвать. Т.е. это некоторая константа. Отталкиваемся от этого, т.е. есть 100 страниц с определенным трастом. На каждой из этих страниц есть одинаковая группа текста. И соответственно эта группа текста должна ранжироваться по одинаковому, т.к. часть алгоритма, отличающаяся для однословника , запроса с большой буквы, будет рассматривать идентичные группы текста каждый раз. Вощем суть в том, что изначально есть константа, т.е. качество сайта- страницы для яндекса, которая присваивается каждый апдейт, дальше он уже рассматривает сам текст. Вощем просто в голове неукладывается ни одна из схем и не могу понять никак как он может по разному выдачу делать).

Goodman, можете с небольшим примером пояснить "Самый простой вариант объяснялки - если значения функции ранжирования Ф(документ,запрос) лежат для группы документов в определенном узком интервале, то документы из такого интервала выдаются не по возрастанию Ф(), а более хитро, слегка закашивая под рандом, но не рандомом."

Вощем токо щас решил проверить, выдача опять же отличается если брать 3, 4, 5 слов из текста. Т.е. каждый раз получаем разную выдачу. Соотвественно тоже самое будет если 6, 7 слов, менять буквы на заглавные и т.д., все получим разную выдачу, не на 100 % опять же. Но отличаться.

habozhuk добавил 05.08.2009 в 15:30

Т.е. почему статичные документы , ранжируются по разному, меняя только регистр или кол-во слов. Этоже получается своеобразный рандом яндекса, основанный опять же на чем-то, но привносящий в выдачу ничего кроме рандома, ну никак не реальную релевантность. Goodman может вы и сказали ответ на вопрос, во всяком случае я чего-т его не смог осмыслить). Если вы (только щас немного понял) про некий рандомный коэфициент из интервала, то тогда он должен срабатывать при каждом запросе. Но если в запросе ничего не менять, выдача то получается статичная. Другой вопрос, что может этот коэфициент выдается только раз, при первом запросе и идет уже во всех последующих идентичный, вот может где собака зарыта.

122

G00DMAN

5 августа 2009, 12:46

#5

Ну, во-первых, то, что я выше написал - это все же гипотеза. :)

Во-вторых, я же писал: "документы из такого интервала выдаются не по возрастанию Ф(), а более хитро, слегка закашивая под рандом, но не рандомом". Т.е. перемешивание (если оно есть) скорее всего жестко завязано на запрос, или еще на что-то, поэтому и выдача статичная. Хотя и выглядит достаточно рандомно при некоторых экспериментах. :)

Если брать разное число слов из одинакового фрагмента, то выдача может отличаться и без перемешивания, от алгоритма ранжирования зависит.

[Удален]

5 августа 2009, 13:36

#6

Запросы с Большой буквы переколдовываются совершенно по-другому.

матрас - одна переколдовка

Матрас - другая

обе завязаны на прямых вхождениях, на вхождениях с большой буквы, на словоформах и т.д. Про это можно почитать у Миныча, он же приводил вариации переколдовок.

А про то, что выдача разная с одинаковыми текста, тоже все просто.

При разных переколдовках - разные коэффициенты, коэффициенты просчитывать до милиардных после запятой не могут, они режутся где-то, отсюда и разная выдача.

122

G00DMAN

5 августа 2009, 16:45

#7

perfectsky, не понятно, к чему Ваш пост. Очевидно же, что препроцессинг приведет изначально разные запросы в разные. Сейчас это вроде однозначно, хотя во времена, когда активно писал на форуме упомянутый Вами Миныч, это было не так. :)

Запросы разные, но выдача, по логике ТС, должна совпадать. В этом есть здравый смысл, но реальность его опровергает. Я думаю, что дело не в коэффициентах, дело в фишках от отдела антиреверсинжиниринга Яндекса.

H

46

habozhuk

5 августа 2009, 19:06

#8

Ну что, кто еще из здравомыслящих поделиться соображениями на сей счет?)

H

46

habozhuk

6 августа 2009, 20:46

#9

Вот тут немного осенило, может каждому слову из пассажа, ( надеюсь правильно употребляю) дается отдельный немного рандомайный вес, ну не вес, а у каждого слова есть коэфициент веса, из как раз некоторого интервала. Отсюда разная выдача для 3, 4, 5 слов. Отсюда будет постоянное плаванье выдачи каждый апдейт на какую-то долю. А для больших букв как-то посложней должно быть, не просто другой алгоритм, т.к. все-таки он один. Вощем про большие буквы надо домыслить, но теория отдельного веса для каждого слова вполне приемлима, правда со странностью( ну для меня) что яндекс каждому слову(коэфициенту при слове) придает определенное статичное значение, причем в некоторой степени непостоянное(до след апдейта), т.е. дополнительные ресурсы задействует.

122

G00DMAN

6 августа 2009, 22:34

#10

Нет, такого не может быть. Небольшое изменение весов приводит как правило к большим и не всегда предсказуемым изменениям в выдаче, в худшую сторону. Мы проводили достаточно масштабные исследования на эту тему.

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи