Кворумная фильтрация происходит до этапа прюнинга. Отбор документов для выдачи производится после обрезки индекса - Яндекс

Прюнинг Яндекса

_S_ · 2026-07-01T11:07:30.0000000Z

Продолжаем рассказ о "Магадане". В новой программе улучшена скорость поиска по запросам, по которым находится большое число документов. Для этого мы применили технику под названием "прюнинг". Время поиска сократилось за счет появления еще одной стадии поиска -- на ней отсекаются заведомо нерелевантные документы. Как это происходит? В формулу ранжирования, которая определяет релевантность страниц, входит множество факторов, как зависящих от запроса, так и статических по отношению к нему (они характеризут страницу или сайт, а не пару "страница-запрос"). На стадии прюнинга на основе всех статических факторов для каждого документа оценивается вероятность того, что он окажется релевантным запросу. Если вероятность низкая, документ дальше не анализируется. По таким запросам как [новости] и [жж] время поиска было сокращено в десятки раз. При этом ускорение поиска было достигнуто без всякого ухудшения его качества. Андрей Гулин, ускоритель Между прочим, Яндекс старается дать ответ на запрос, сократив время и усилия пользователей. Спрашиваете "погода"? Отвечаем: "Москва, +12 °C, дождь" (см. ответ в первой строке над результатами поиска), если вы живете не в Москве, погода будет показана для вашего города. Спрашиваете "Елена Колмановская"? Отвечаем: "Елена Колмановская Яндекс, главный редактор". И ссылка на пресс-портрет, составленный по материалам СМИ. Мы называем такие подсказки "колдунщиками", потому что от них иногда создается впечатление, что поисковая система понимает всё, что вы хотели, и даже больше. :) http://company.yandex.ru/history/koldun.xml http://webmaster.ya.ru/replies.xml?item_no=890

69

Kolyaj

22 мая 2008, 08:13

#41

SergoZD:
я про количество сайтов, которые проходят этот самый отбор по статическим параметрам.

Дык от запроса зависит :)

Сейчас, как я понимаю примерно такой порядок поиска:

1. Имеем полный индекс

2. Фильтруем весь индекс по кворуму.

3. Если документов мало, то в 5-й пункт, много - в 4-й

4. Выкидываем документы со слабыми статическими параметрами.

5. Высчитываем релевантность и сортируем.

Т.е. Раньше 3 и 4 пунктов не было.

Сам процесс прюнинга от запроса не зависит, а вот то, что попадет к нему на вход (и, соответственно, что будет на выходе) - зависит.

Google Updates - апдейты Яндекс кобласит Упал доход

SZ

63

SergoZD

22 мая 2008, 09:00

#42

Дык да. Я про количество проходящих по максимальной выборке. Т.е. при запросе, которому удовлетворяют почти все сайты находится порядка 5% сайтов от общего заявленного числа.

Очевидно же, что если сайт не пройдет по одному какому-то запросу, то он тогда не пройдет по любому запросу, в котором будет реализовываться 4 пункт.

Google Updates - апдейты Где заказать поведенческих ботов? Сколько прокси (AS сеток)

142

Kirill-ss

22 мая 2008, 09:23

#43

SergoZD:
Очевидно же, что если сайт не пройдет по одному какому-то запросу, то он тогда не пройдет по любому запросу, в котором будет реализовываться 4 пункт.

Вовсе неочевидно.

Запрос1. Найдено 10к документов (читай документов много). Наш сайт не прошел по стат. показателям. Релевантность для него не считается.

Запрос2. Найдено 10 документов (читай документов мало). Наш сайт по-любому проходит.

Кроме того, по разным запросам будут находиться разные сайты и в одной группе у сайта показатели будут слабые, а в другой вполне подходящие для возможности быть в выдаче.)

Как-то так.

SZ

63

SergoZD

22 мая 2008, 09:34

#44

Ну да, с "очевидно" я погорячился.

Исходя из формулировки "На стадии прюнинга на основе всех статических факторов для каждого документа оценивается вероятность того, что он окажется релевантным запросу." можно предположить, что выкидываемые документы зависят от запроса, /но мне всё же так не кажется (зачеркнуто)/ и всё же это подтверждается, как ниже написал wolf.

По поводу ссылок и Кошелек для USDT Есть прямые доказательства нежелательности

142

Kirill-ss

22 мая 2008, 09:40

#45

Мне кажется однозначным, что они зависят от запроса.

D

92

dfg

22 мая 2008, 09:43

#46

ИМХО:
..."мебель в черниголовке на развес" останется одна мебель без всякой черниголовки и развеса...

Вот какраз наоборот, осталось все кроме мебели.

1183

wolf

22 мая 2008, 09:51

#47

SergoZD:
Очевидно же, что если сайт не пройдет по одному какому-то запросу, то он тогда не пройдет по любому запросу, в котором будет реализовываться 4 пункт.

Критерий отсева может зависит от свойств выборки. У каждого запроса будет своя первоначальная выборка удовлетворяющих ему документов. На пальцах - если документов ответит много, но все они будут иметь плохие статические свойства, то планка может быть довольно низкой, чтоб хоть что-то выдать.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )

Как часто снимать статистику Копия сайта под другую Не платил налоги к

42

ИМХО

22 мая 2008, 14:02

#48

Люди спорят зависит оно или нет от запроса. Внесу еще раз свое мнение.

Процесс отбора на этапе прюнинга зависит только от статических факторов, следовательно от запроса не зависит. Это известно из официального заявления. Однако планка отбора зависит от получившейся первоначальной выборки, а эта выборка в свою очередь состоит из прошедших кворум документов. Прохождение документом кворума разумеется зависит от запроса.

Таким образом запрос прямо не влияет на прохождение документом прюнинга, он лишь косвенно влияет на планку которую этот прюнинг задает.

ИМХО добавил 22.05.2008 в 18:09

Kolyaj:

3. Если документов мало, то в 5-й пункт, много - в 4-й
4. Выкидываем документы со слабыми статическими параметрами.
5. Высчитываем релевантность и сортируем.

Не думаю что тут просто выключатель прюнинг есть/прюнинга нет. Ниже написанное это ИМХО, код прюнинга я не писал и не читал.

Мне кажется, что проходное значение для прюнинга задается статическими величинами тех сайтов которые лидируют. То есть потом другим сайтам предлагается побить планку равную их статическим величинам поделить на некоторую вычисленную яндексоидами константу, достаточно большую чтобы быть уверенным что у сайтов меньше этой планки нет шансов обогнать любого из лидеров при любом стечении обстоятельств.

ИМХО добавил 22.05.2008 в 18:15

orphelin, пассаж по моему мнению это часть документа соответствующая запросу.

Документ состоит из текста, анкор-листа и с недавних пор еще включает в себя в какой-то форме url и его перевод/транслитерацию плюс общие статические факторы документа. Пассаж может быть найден в чем угодно кроме статических факторов. Таким образом в выдаче и появляются "найден по ссылке" и найденные по url документы.

С уважением, Константин.

68

Tryerty

23 мая 2008, 09:14

#49

Мне всеже хочется как-то поколебать уверенность всех в том, что кворумная фильтрация происходит до этапа прюнинга.

из "Подлетая к Магадану":
Изменили технологию поиска так, что мы можем быстро выбрать наиболее релевантные документы в первую очередь и не ждать поиска по остальным страницам. Мы смягчили фильтрацию отбора документов для ранжирования, что привело к улучшению ранжирования по запросам, для которых релевантные документы содержат слова запроса далеко друг от друга

Исходя из цитаты можно предположить, что отбор документов для выдачи производится после обрезки индекса.

Парочка неаргументированных наблюдений:

1. То что кворум работает иначе, чем раньше, мне кажется, показывать не нужно. При отказе от пассажного кворума число найденных документов должно возрастать.

2. Число найденных страниц действительно стало значительно большим (в среднем в полтора раза), а вот число сайтов существенно уменьшилось (иногда более чем в два раза).

Сравнивались данные за январь и май.

Движение вверх нельзя воспринимать как движение вперед не только с точки зрения физики. Достаточно взглянуть, ЧТО плавает на поверхности...

69

Kolyaj

23 мая 2008, 09:32

#50

Tryerty, процитированный вами текст был написан до введения прюнинга.

Den Raskovalov:
Вот примерно этим мы и развлекались после публичной беты ;)

http://denraskovalov.ya.ru/replies.xml?item_no=788

Google: E-E-A-T не является фактором ранжирования

Что делать, чтобы попасть в ответы Google Bard

Прюнинг Яндекса