Вспомните, что на конкурсе использовалась бинарная vital 0, как оно в реале - дело темное - Общие вопросы оптимизации

Как работает поиск Яндекса (ранжирование в топ)

Turbo · 2009-09-27T06:04:55.0000000Z

Возможно пишу тут известные всем факты, но может кому-нибудь материал покажется полезным. Так же хотелось бы послушать наблюдения от других участников конкурса. Я мог что-то упустить. После участия в конкурсе от Яндекса ( Интернет математика ) мне стал абсолютно ясно понятен алгоритм работы и ответы на всякие мелкие вопросы, вроде, почему апдейты проходили раз в несколько дней. Все очень просто. У Яндекса есть группа асессоров так называемых оценщиков релевантности документов. Они составляют список вида: страница запрос релевантность. В этом списке сотни тысяч страниц. Релевантность варьируется от значений совсем не релевантно (0), до полностью релевантно (5). Одновременно с этим у Яндекса для каждой страницы в интернете есть набор параметров (ВИЦ, и.т.д) и часть параметров которые можно рассчитать в процессе запроса (количество слов в запросе, частота запрошенных слов на странице). Всего таких параметров на конкурсе было 245 штук, что, скорее всего, недалеко от реального числа используемого Яндексом. По списку асессоров и набору параметров для каждой страницы из списка строится модель по « Методу опорных векторов ». Построение модели довольно трудоемкий процесс. Например, во время конкурса, модель на сложных алгоритмах у меня дома строилась порядка суток и больше. Что дает эта модель? По набору из 245 параметров для любой страницы в интернете она дает оценку релевантности этой страницы по данному запросу. Когда есть готовая модель, такая оценка происходит почти мгновенно. Именно на основании этой оценки ранжируется ТОП по заданному запросу. Что такое апдейт Яндекса? За 1-2 дня параметры списка от асессоров незначительно, но поменялись. Так же мог поменяться сам список, часть записей добавилось, часть удалилось. Вслед за этим требуется пересчитать файл модели, что бы соответствовать текущим данным. Интересные наблюдения : 1) Если страница вашего сайта попадает в список асессоров с максимальной релевантностью, то первое место вам обеспечено независимо от расколбаса выдачи. 2) Люди в Яндексе сами не в курсе, что именно больше влияет на выдачу (контент, ссылочное). 3) Поиск Яндекса приспосабливается к любым внешним условиям за счет постоянного обновления модели. 4) Я пытался найти зависимость, монотонное изменение одного параметра НИКОГДА не приводит к монотонному изменению релевантности. Из этого следует, что нет параметра, однозначно ведущего к увеличению релевантности. Слухи : 1) По слухам в конкурсном задании использовался список выдачи Яндекса для Украины. Список асессоров для этого региона составляет около 200 тысяч страниц. К сожалению, параметры в задании и список запросов шли на конкурсе под номерами (индексами). Ведь если достать этот список с реальными запросами, то можно было бы экспериментировать с выдачей на дому. =) Оригинал в моем блоге

T

97

Turbo

27 сентября 2009, 18:53

#91

dweller:
Вот тут:

Если конкретному сайту дать максимальную релевантность, то, по словам Turbo, первое место этому конкретному сайту обеспечено, а это, по словам Садовского, не так. :)

Первое место этому конкретному сайту по конкретному запросу не обязательно ВЧ. И скорее всего если асессор его выбрал он и так уже был на первом месте. Просто он его закрепил в алгоритме.

И цитаты от 2003 года скорее всего уже не есть правда.

3 месяца Google не Резкий всплеск прямых заходов. Упал доход

109

_S_

27 сентября 2009, 18:53

#92

А почему такой ажиотаж?

Давно известно, что параметров в формуле ранжирования более 245. Что асессоры оценивают ответы ПС. И что сама формула, точнее параметры всегда будут меняться, например, в связи с ростом базы. И вообще все зависит от выборки документов и тд. Что могут использоваться любые комбинации и модификации методов ранжирования и прочих алгоритмов, в зависимости от текущей задачи. И вообще релевантность - давно перестала быть первоочередной задачей яндекса, а задача - "счастье пользователей" :)

Читаешь блог? () Сайт о холодном оружии (http://bladeist.ru)

Фильтр за обман пользователей Упал трафик в Яндекс Ранжирование в Яндексе: как

D

173

dweller

27 сентября 2009, 18:59

#93

Turbo:
И скорее всего если асессор его выбрал он и так уже был на первом месте.

Это не есть факт. :)

И вообще, как я понимаю, вы уже не настаиваете на п.1? :)

1183

wolf

27 сентября 2009, 19:03

#94

Turbo:
Когда рейтинг был почти пустой там были Победа (1 место) и Baseline (Простой алгоритм). Потом появились уже все остальные.

Неплохой аргумент

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )

S2

611

Str256

27 сентября 2009, 19:14

#95

Почитал топик 2003 года, там начиная с 5-й страницы обсуждения Арзамаса:D

mkozloff:
Мне кажется, что география теоретически может рассматриваться как один из параметров для определения релевантности. Например, для пользователей с московскими ip выдавать в первую очередь московские сайты, тульских - тульские и т.п. В _некоторых_ случаях это было бы очень полезно, особенно, если человек не из Москвы.

Очень актуально читается..

Не надо приписывать мне свои выводы, я имею ввиду только то, что написал. Лучшая партнёрка по футболкам/толстовкам (http://partnerka.kolorado.ru/?ref=1921540) Опрос: Проверить текст на уник - как? (/ru/forum/495885)

F

45

Fearful

27 сентября 2009, 20:33

#96

Turbo:
Первое место этому конкретному сайту по конкретному запросу не обязательно ВЧ. И скорее всего если асессор его выбрал он и так уже был на первом месте. Просто он его закрепил в алгоритме.

Кстати, в принципе этим можно объяснить наличие в топ 10 Википедии по многим запросам, в том числе и английского варианта Википедии.

269

zZmeIOka

27 сентября 2009, 22:05

#97

_S_:
А почему такой ажиотаж?

Тема просто редкая. Не про апдейты :D

780

богоносец

27 сентября 2009, 22:58

#98

_S_:
вообще релевантность - давно перестала быть первоочередной задачей яндекса, а задача - "счастье пользователей"

людей-реальных

Официальные метрики РОМИП 2009
Большинство метрик, применяемых в современной оценке текстового поиска, основываются на отношении релевантности документа запросу.
... это отношение имеет скорее психологическую природу и устанавливается прямым опросом экспертов-оценщиков.

Ceres:
Можно дать объявление здесь на серче - ищу связь с ассессором - глядишь подфартит он стукнется в личку и предложит свои услуги

Понадобится большая куча асессоров

есть статистика, которая показывает, что процент перекрытия релевантных документов у двух разных асессоров всего лишь 40%.

Надёжные результаты именно на больших выборках... людей.

А все асессоры не смогут физически передать все документы, запросы и оценки.

А даже если смогут, то что? Названия факторов уже известны?

Str256:
Садовский вроде говорил, что ассессорами являются волонтёры разных профессий, а не число программисты или математики.

Ну они же не для себя выдачу делают, понимая всю свою безнадёжную испорченность.

А ссылки не найдётся на то, что конкретно говорилось, да ещё про волонтёров?

Вроде бы только про отсутствие требований...

praide:
Для работы над СДЛ нужны даже не столько ресурсы, сколько заинтересованные в теме грамотные специалисты.

Криво формулируете!.. слова говорят о состоянии говорящего.

Вспомните свой единственный СДЛ, особенно стадию написания контента во всех ощущениях...

Специалист не пойдёт в чью-то работу над сайтом, кроме как за деньги, которых у вас конечно же не хватит.
Качественный контент крайне редко получается через слово «надо».
Иногда «контент хочет появиться», а специалист его объёмно чувствует и формулирует в словах... и этот текст собирает хороший нч трафф.
Написание текстов и создание сайта — две разные стадии, напрасно переставляемые местами. В процессе создания сайта ранее написанные тексты можно только слегка уточнять.

Есть люди, пишущие, переводящие... вываливающие иногда по мегабайту текстов... делается сайт с хорошо видимым упоминанием их имён, условий, пожеланий, манифестов... и они довольны, что за них сделали то, чего они сами делать не умеют. Уже парочку таких чужих трудов|недоделок превратил в сайты. Но начинал именно с написания текстов...

Джон Мюллер: сайт нужно SEO: почему мы делаем Яндекс кобласит

122

G00DMAN

27 сентября 2009, 23:41

#99

Turbo:
После участия в конкурсе от Яндекса (Интернет математика) мне стал абсолютно ясно понятен алгоритм работы и ответы на всякие мелкие вопросы, вроде, почему апдейты проходили раз в несколько дней. Все очень просто.

Все было бы просто, если бы именно эта модель использовалась в реале. Кстати, почему Вы решили, что конкурс был основан на текущем алгоритме? ИМХО, это не так. ;)

Turbo:
У Яндекса есть группа асессоров – так называемых оценщиков релевантности документов. Они составляют список вида: страница – запрос – релевантность. В этом списке сотни тысяч страниц. Релевантность варьируется от значений совсем не релевантно (0), до полностью релевантно (5).

На конкурс выдали такую градацию, на РОМИП-2009 фактически использовалась бинарная vital=1/все остальное=0, как оно в реале - дело темное.

Turbo:
Всего таких параметров на конкурсе было 245 штук, что, скорее всего, недалеко от реального числа используемого Яндексом.

Не факт.

Turbo:
По списку асессоров и набору параметров для каждой страницы из списка строится модель по «Методу опорных векторов».

Только в рамках конкурса.

Turbo:
1) Если страница вашего сайта попадает в список асессоров с максимальной релевантностью, то первое место вам обеспечено независимо от расколбаса выдачи.

Сомнительное утверждение.

Turbo:
2) Люди в Яндексе сами не в курсе, что именно больше влияет на выдачу (контент, ссылочное).

Наверняка. :)

Turbo:
3) Поиск Яндекса приспосабливается к любым внешним условиям за счет постоянного обновления модели.

Ага.

Turbo:
4) Я пытался найти зависимость, монотонное изменение одного параметра НИКОГДА не приводит к монотонному изменению релевантности. Из этого следует, что нет параметра, однозначно ведущего к увеличению релевантности.

Так это в общем-то достаточно очевидно для такого вида функций.

Turbo:
Человек 10 ИМХО хватит, что бы поддерживать список актуальным.

Думаю, что больше.

Turbo:
Что бы осознанно влиять на выдачу нужно:
1) Достать описание и метод расчета всех 245 (?) параметров
2) Достать хотя бы устаревшую базу асессоров

:) Ну в целом можно пойти и другими путями, да.

Turbo:
Ну 3 параметра они явно озвучили: tf*idf, PageRank, длина запроса в словах. Но от этого не легче, например посчитать PR так же как Яндекс невозможно, не имея полной БД Яндекса.

В конкурсе использовался tf*idf, в реале - уже нет, и якобы давно. ;)

Tarry:
Кстати интересный момент, не смотря на обилие факторов, значимых то все равно должно быть мало.

Верно, их-то и нужно пытаться реинжинирить.

wladvlad:
я вообще не знаю что такое "машинное обучение", к сожалению.
не затруднит вас объяснить?

Если взять за подобие "истины" доклад Яндекса на РОМИП-2009, то "машинное обучение" в понимании яндексоидов - нахождение хороших экстремумов некоей целевой функции от ранжирующей. :)

Ceres:
Можно дать объявление здесь на серче - ищу связь с ассессором - глядишь подфартит он стукнется в личку и предложит свои услуги :)

Не даст такая связь ничего абсолютно, ИМХО. :)

_S_:
А почему такой ажиотаж?
Давно известно, что параметров в формуле ранжирования более 245.

Откуда известно?

wolf:
Неплохой аргумент

Если догадка верна, то халявные оптимизаторы на конкурсе не справились и на такой подход могли вообще забить.

З.Ы. Прошу сильно не пинать за сумбурность, т.к. немного на южных морях и башка явно перегрета на солнце. :)

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)

1183

wolf

28 сентября 2009, 02:57

#100

Tarry:
Кстати интересный момент, не смотря на обилие факторов, значимых то все равно должно быть мало.

А Вы в процессе построения функции разве не увидели, сколько там значимых факторов?

Курс биткоина превысил $50 тысяч

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

Как работает поиск Яндекса (ранжирование в топ)