Используйте алгоритм качества, который подстраивается под какой-то результат. Существует некоторая зависимость между ответами и объектами даже не - Общие вопросы оптимизации

Как работает поиск Яндекса (ранжирование в топ)

Turbo · 2026-07-01T11:07:20.0000000Z

Возможно пишу тут известные всем факты, но может кому-нибудь материал покажется полезным. Так же хотелось бы послушать наблюдения от других участников конкурса. Я мог что-то упустить. После участия в конкурсе от Яндекса ( Интернет математика ) мне стал абсолютно ясно понятен алгоритм работы и ответы на всякие мелкие вопросы, вроде, почему апдейты проходили раз в несколько дней. Все очень просто. У Яндекса есть группа асессоров так называемых оценщиков релевантности документов. Они составляют список вида: страница запрос релевантность. В этом списке сотни тысяч страниц. Релевантность варьируется от значений совсем не релевантно (0), до полностью релевантно (5). Одновременно с этим у Яндекса для каждой страницы в интернете есть набор параметров (ВИЦ, и.т.д) и часть параметров которые можно рассчитать в процессе запроса (количество слов в запросе, частота запрошенных слов на странице). Всего таких параметров на конкурсе было 245 штук, что, скорее всего, недалеко от реального числа используемого Яндексом. По списку асессоров и набору параметров для каждой страницы из списка строится модель по « Методу опорных векторов ». Построение модели довольно трудоемкий процесс. Например, во время конкурса, модель на сложных алгоритмах у меня дома строилась порядка суток и больше. Что дает эта модель? По набору из 245 параметров для любой страницы в интернете она дает оценку релевантности этой страницы по данному запросу. Когда есть готовая модель, такая оценка происходит почти мгновенно. Именно на основании этой оценки ранжируется ТОП по заданному запросу. Что такое апдейт Яндекса? За 1-2 дня параметры списка от асессоров незначительно, но поменялись. Так же мог поменяться сам список, часть записей добавилось, часть удалилось. Вслед за этим требуется пересчитать файл модели, что бы соответствовать текущим данным. Интересные наблюдения : 1) Если страница вашего сайта попадает в список асессоров с максимальной релевантностью, то первое место вам обеспечено независимо от расколбаса выдачи. 2) Люди в Яндексе сами не в курсе, что именно больше влияет на выдачу (контент, ссылочное). 3) Поиск Яндекса приспосабливается к любым внешним условиям за счет постоянного обновления модели. 4) Я пытался найти зависимость, монотонное изменение одного параметра НИКОГДА не приводит к монотонному изменению релевантности. Из этого следует, что нет параметра, однозначно ведущего к увеличению релевантности. Слухи : 1) По слухам в конкурсном задании использовался список выдачи Яндекса для Украины. Список асессоров для этого региона составляет около 200 тысяч страниц. К сожалению, параметры в задании и список запросов шли на конкурсе под номерами (индексами). Ведь если достать этот список с реальными запросами, то можно было бы экспериментировать с выдачей на дому. =) Оригинал в моем блоге

282

tysson

27 сентября 2009, 11:55

#51

Интересная тема.

Смените дизайн.....

T

97

Turbo

27 сентября 2009, 11:57

#52

wladvlad:
тут непонятка вышла с тем, что люди не подбирают релевантные запросам сайты, а оценивают текущую выдачу.
и это момент принципиальный.
не алгоритм строится на данных таблиц, а с помощью этих таблиц оценивается работоспособность уже работающего алгоритма.

А как сделать "машинное обучение" без начальных данных?

W

84

wladvlad

27 сентября 2009, 11:58

#53

я вообще не знаю что такое "машинное обучение", к сожалению.

не затруднит вас объяснить?

A

46

array

27 сентября 2009, 12:00

#54

wladvlad:
я вообще не знаю что такое "машинное обучение", к сожалению.
не затруднит вас объяснить?

Рискну предположить, это разработки в области AI.

Копать от LISP и Prolog в сторону современных наработок.

Мой партнёр создаёт бюджетные сайты и интернет-магазины (http://web-gu.ru), а я умею продвигать сайты. Дизайнер в запое.

T

15

totalwars

27 сентября 2009, 12:01

#55

Тема не столько интересная, сколько совершенно не понятная ни одному из обсуждающих её. Где находятся вебмастера? На серче. Давайте тогда все дружно поверим, что именно мы и являемся теми самыми пресловутыми "асессорами". Потому как именно здесь люди прекрасно понимают, что является реальным сайтом для людей, а что мусором.

Идеальная поисковая система будет учитывать наше мнение, при этом не позволяя нам влиять на формирование этого мнения.

Total War (http://www.totalwars.ru/)

Яндекс кобласит AdWords об инструменте геотаргетинга Джон Мюллер поделился своим

T

97

Turbo

27 сентября 2009, 12:04

#56

wladvlad:
я вообще не знаю что такое "машинное обучение", к сожалению.
не затруднит вас объяснить?

Имеется множество объектов (ситуаций) и множество возможных ответов (откликов, реакций). Существует некоторая зависимость между ответами и объектами, но она не известна. Известна только конечная совокупность прецедентов — пар «объект, ответ», называемая обучающей выборкой.

На основе этих данных требуется восстановить зависимость, то есть построить алгоритм, способный для любого объекта (даже не присутствующего в начальной выборке) выдать достаточно точный ответ (отклик, реакцию). Для измерения точности ответов определённым образом вводится функционал качества.

На конкурсе таким функционалом качества была тестовая часть списка асессоров (нам давалась без релевантности). Мы считали релевантность и отсылали Яндексу через форму. А Яндекс после отсылки там на своей стороне сравнивал наше значение с релевантностью асессоров. Чем меньше отличий тем выше в рейтинге. =)

Джон Мюллер: асессоры Google Применение TrustRank для анализа Сергей Людкевич: «Современные тенденции

269

praide

27 сентября 2009, 12:09

#57

totalwars:
Потому как именно здесь люди прекрасно понимают, что является реальным сайтом для людей, а что мусором.

Я понимаю, что 90% клиентских сайитов (в ТОПе) мусор. Клиентам ТОП нужен, а не СДЛ, что они и получают за бабки.

totalwars:
Давайте тогда все дружно поверим, что именно мы и являемся теми самыми пресловутыми "асессорами

Мы больше засиратели, а не чистильщики. У меня, к примеру только 1 СДЛ, да и тот не коммерческий.

"Наши летатели идут к смерти верным и скорым шагом." Антуан де Сент-Экзюпери Возьму пару проектов на продвижение. По себестоимости возьму на продвижение"песочный" сайт.

W

84

wladvlad

27 сентября 2009, 12:10

#58

Turbo:
Имеется множество объектов (ситуаций) и множество возможных ответов (откликов, реакций). Существует некоторая зависимость между ответами и объектами, но она не известна. Известна только конечная совокупность прецедентов — пар «объект, ответ», называемая обучающей выборкой.

На основе этих данных требуется восстановить зависимость, то есть построить алгоритм, способный для любого объекта (даже не присутствующего в начальной выборке) выдать достаточно точный ответ (отклик, реакцию). Для измерения точности ответов определённым образом вводится функционал качества.

На конкурсе таким функционалом качества была тестовая часть списка асессоров (нам давалась без релевантности). Мы считали релевантность и отсылали Яндексу через форму. А Яндекс после отсылки там на своей стороне сравнивал наше значение с релевантностью асессоров. Чем меньше отличий тем выше в рейтинге. =)

хм, получается, что алгоритм подстраивается под какой-то результат? это как в учебнике, в конце, подглядеть ответ и потом решение задачи натаскивать на него.))))

я считаю, что в случае с ранжированием документов в выдаче это не сработает. :)

Почти все страницы на Директ: вопросы к Яндексу Похожий домен

282

tysson

27 сентября 2009, 12:10

#59

Turbo:

На основе этих данных требуется восстановить зависимость, то есть построить алгоритм, способный для любого объекта (даже не присутствующего в начальной выборке) выдать достаточно точный ответ (отклик, реакцию). Для измерения точности ответов определённым образом вводится функционал качества.

Какое место вы заняли?

269

praide

27 сентября 2009, 12:12

#60

wladvlad:
хм, получается, что алгоритм подстраивается под какой-то результат? это как в учебнике подглядеть ответ и потом решение задачи натаскивать на него.
я считаю, что в случае с ранжированием документов в выдаче это не сработает.

Работает лихо и уже достаточно давно.

Что делать, если ваша email-рассылка попала в спам

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Как работает поиск Яндекса (ранжирование в топ)