Как работает поиск Яндекса (ранжирование в топ)

T
На сайте с 05.04.2006
Offline
97
#91
dweller:
Вот тут:

Если конкретному сайту дать максимальную релевантность, то, по словам Turbo, первое место этому конкретному сайту обеспечено, а это, по словам Садовского, не так. :)

Первое место этому конкретному сайту по конкретному запросу не обязательно ВЧ. И скорее всего если асессор его выбрал он и так уже был на первом месте. Просто он его закрепил в алгоритме.

И цитаты от 2003 года скорее всего уже не есть правда.

_S_
На сайте с 12.01.2006
Offline
109
_S_
#92

А почему такой ажиотаж?

Давно известно, что параметров в формуле ранжирования более 245. Что асессоры оценивают ответы ПС. И что сама формула, точнее параметры всегда будут меняться, например, в связи с ростом базы. И вообще все зависит от выборки документов и тд. Что могут использоваться любые комбинации и модификации методов ранжирования и прочих алгоритмов, в зависимости от текущей задачи. И вообще релевантность - давно перестала быть первоочередной задачей яндекса, а задача - "счастье пользователей" :)

Читаешь блог? () Сайт о холодном оружии (http://bladeist.ru)
D
На сайте с 23.05.2002
Offline
173
#93
Turbo:
И скорее всего если асессор его выбрал он и так уже был на первом месте.

Это не есть факт. :)

И вообще, как я понимаю, вы уже не настаиваете на п.1? :)

wolf
На сайте с 13.03.2001
Offline
1183
#94
Turbo:
Когда рейтинг был почти пустой там были Победа (1 место) и Baseline (Простой алгоритм). Потом появились уже все остальные.

Неплохой аргумент

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
S2
На сайте с 07.01.2008
Offline
611
#95

Почитал топик 2003 года, там начиная с 5-й страницы обсуждения Арзамаса:D

mkozloff:
Мне кажется, что география теоретически может рассматриваться как один из параметров для определения релевантности. Например, для пользователей с московскими ip выдавать в первую очередь московские сайты, тульских - тульские и т.п. В _некоторых_ случаях это было бы очень полезно, особенно, если человек не из Москвы.

Очень актуально читается..

Не надо приписывать мне свои выводы, я имею ввиду только то, что написал. Лучшая партнёрка по футболкам/толстовкам (http://partnerka.kolorado.ru/?ref=1921540) Опрос: Проверить текст на уник - как? (/ru/forum/495885)
F
На сайте с 24.04.2009
Offline
45
#96
Turbo:
Первое место этому конкретному сайту по конкретному запросу не обязательно ВЧ. И скорее всего если асессор его выбрал он и так уже был на первом месте. Просто он его закрепил в алгоритме.

Кстати, в принципе этим можно объяснить наличие в топ 10 Википедии по многим запросам, в том числе и английского варианта Википедии.

zZmeIOka
На сайте с 30.05.2007
Offline
249
#97
_S_:
А почему такой ажиотаж?

Тема просто редкая. Не про апдейты :D

богоносец
На сайте с 30.01.2007
Offline
753
#98
_S_:
вообще релевантность - давно перестала быть первоочередной задачей яндекса, а задача - "счастье пользователей"

людей-реальных

Официальные метрики РОМИП 2009
Большинство метрик, применяемых в современной оценке текстового поиска, основываются на отношении релевантности документа запросу.
... это отношение имеет скорее психологическую природу и устанавливается прямым опросом экспертов-оценщиков.
Ceres:
Можно дать объявление здесь на серче - ищу связь с ассессором - глядишь подфартит он стукнется в личку и предложит свои услуги

Понадобится большая куча асессоров

есть статистика, которая показывает, что процент перекрытия релевантных документов у двух разных асессоров всего лишь 40%.

Надёжные результаты именно на больших выборках... людей.

А все асессоры не смогут физически передать все документы, запросы и оценки.

А даже если смогут, то что? Названия факторов уже известны?

Str256:
Садовский вроде говорил, что ассессорами являются волонтёры разных профессий, а не число программисты или математики.

Ну они же не для себя выдачу делают, понимая всю свою безнадёжную испорченность.

А ссылки не найдётся на то, что конкретно говорилось, да ещё про волонтёров?

Вроде бы только про отсутствие требований...

praide:
Для работы над СДЛ нужны даже не столько ресурсы, сколько заинтересованные в теме грамотные специалисты.

Криво формулируете!.. слова говорят о состоянии говорящего.

Вспомните свой единственный СДЛ, особенно стадию написания контента во всех ощущениях...

  • Специалист не пойдёт в чью-то работу над сайтом, кроме как за деньги, которых у вас конечно же не хватит.
  • Качественный контент крайне редко получается через слово «надо».
  • Иногда «контент хочет появиться», а специалист его объёмно чувствует и формулирует в словах... и этот текст собирает хороший нч трафф.
  • Написание текстов и создание сайта — две разные стадии, напрасно переставляемые местами. В процессе создания сайта ранее написанные тексты можно только слегка уточнять.

Есть люди, пишущие, переводящие... вываливающие иногда по мегабайту текстов... делается сайт с хорошо видимым упоминанием их имён, условий, пожеланий, манифестов... и они довольны, что за них сделали то, чего они сами делать не умеют. Уже парочку таких чужих трудов|недоделок превратил в сайты. Но начинал именно с написания текстов...

G00DMAN
На сайте с 19.04.2008
Offline
122
#99
Turbo:
После участия в конкурсе от Яндекса (Интернет математика) мне стал абсолютно ясно понятен алгоритм работы и ответы на всякие мелкие вопросы, вроде, почему апдейты проходили раз в несколько дней. Все очень просто.

Все было бы просто, если бы именно эта модель использовалась в реале. Кстати, почему Вы решили, что конкурс был основан на текущем алгоритме? ИМХО, это не так. ;)

Turbo:
У Яндекса есть группа асессоров – так называемых оценщиков релевантности документов. Они составляют список вида: страница – запрос – релевантность. В этом списке сотни тысяч страниц. Релевантность варьируется от значений совсем не релевантно (0), до полностью релевантно (5).

На конкурс выдали такую градацию, на РОМИП-2009 фактически использовалась бинарная vital=1/все остальное=0, как оно в реале - дело темное.

Turbo:
Всего таких параметров на конкурсе было 245 штук, что, скорее всего, недалеко от реального числа используемого Яндексом.

Не факт.

Turbo:
По списку асессоров и набору параметров для каждой страницы из списка строится модель по «Методу опорных векторов».

Только в рамках конкурса.

Turbo:
1) Если страница вашего сайта попадает в список асессоров с максимальной релевантностью, то первое место вам обеспечено независимо от расколбаса выдачи.

Сомнительное утверждение.

Turbo:
2) Люди в Яндексе сами не в курсе, что именно больше влияет на выдачу (контент, ссылочное).

Наверняка. :)

Turbo:
3) Поиск Яндекса приспосабливается к любым внешним условиям за счет постоянного обновления модели.

Ага.

Turbo:
4) Я пытался найти зависимость, монотонное изменение одного параметра НИКОГДА не приводит к монотонному изменению релевантности. Из этого следует, что нет параметра, однозначно ведущего к увеличению релевантности.

Так это в общем-то достаточно очевидно для такого вида функций.

Turbo:
Человек 10 ИМХО хватит, что бы поддерживать список актуальным.

Думаю, что больше.

Turbo:
Что бы осознанно влиять на выдачу нужно:
1) Достать описание и метод расчета всех 245 (?) параметров
2) Достать хотя бы устаревшую базу асессоров

:) Ну в целом можно пойти и другими путями, да.

Turbo:
Ну 3 параметра они явно озвучили: tf*idf, PageRank, длина запроса в словах. Но от этого не легче, например посчитать PR так же как Яндекс невозможно, не имея полной БД Яндекса.

В конкурсе использовался tf*idf, в реале - уже нет, и якобы давно. ;)

Tarry:
Кстати интересный момент, не смотря на обилие факторов, значимых то все равно должно быть мало.

Верно, их-то и нужно пытаться реинжинирить.

wladvlad:
я вообще не знаю что такое "машинное обучение", к сожалению.
не затруднит вас объяснить?

Если взять за подобие "истины" доклад Яндекса на РОМИП-2009, то "машинное обучение" в понимании яндексоидов - нахождение хороших экстремумов некоей целевой функции от ранжирующей. :)

Ceres:
Можно дать объявление здесь на серче - ищу связь с ассессором - глядишь подфартит он стукнется в личку и предложит свои услуги :)

Не даст такая связь ничего абсолютно, ИМХО. :)

_S_:
А почему такой ажиотаж?
Давно известно, что параметров в формуле ранжирования более 245.

Откуда известно?

wolf:
Неплохой аргумент

Если догадка верна, то халявные оптимизаторы на конкурсе не справились и на такой подход могли вообще забить.

З.Ы. Прошу сильно не пинать за сумбурность, т.к. немного на южных морях и башка явно перегрета на солнце. :)

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)
wolf
На сайте с 13.03.2001
Offline
1183
#100
Tarry:
Кстати интересный момент, не смотря на обилие факторов, значимых то все равно должно быть мало.

А Вы в процессе построения функции разве не увидели, сколько там значимых факторов?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий