Прюнинг Яндекса

Kolyaj
На сайте с 28.03.2006
Offline
69
#41
SergoZD:
я про количество сайтов, которые проходят этот самый отбор по статическим параметрам.

Дык от запроса зависит :)

Сейчас, как я понимаю примерно такой порядок поиска:

1. Имеем полный индекс

2. Фильтруем весь индекс по кворуму.

3. Если документов мало, то в 5-й пункт, много - в 4-й

4. Выкидываем документы со слабыми статическими параметрами.

5. Высчитываем релевантность и сортируем.

Т.е. Раньше 3 и 4 пунктов не было.

Сам процесс прюнинга от запроса не зависит, а вот то, что попадет к нему на вход (и, соответственно, что будет на выходе) - зависит.

SZ
На сайте с 17.08.2005
Offline
63
#42

Дык да. Я про количество проходящих по максимальной выборке. Т.е. при запросе, которому удовлетворяют почти все сайты находится порядка 5% сайтов от общего заявленного числа.

Очевидно же, что если сайт не пройдет по одному какому-то запросу, то он тогда не пройдет по любому запросу, в котором будет реализовываться 4 пункт.

Kirill-ss
На сайте с 20.04.2006
Offline
142
#43
SergoZD:
Очевидно же, что если сайт не пройдет по одному какому-то запросу, то он тогда не пройдет по любому запросу, в котором будет реализовываться 4 пункт.

Вовсе неочевидно.

Запрос1. Найдено 10к документов (читай документов много). Наш сайт не прошел по стат. показателям. Релевантность для него не считается.

Запрос2. Найдено 10 документов (читай документов мало). Наш сайт по-любому проходит.

Кроме того, по разным запросам будут находиться разные сайты и в одной группе у сайта показатели будут слабые, а в другой вполне подходящие для возможности быть в выдаче.)

Как-то так.

SZ
На сайте с 17.08.2005
Offline
63
#44

Ну да, с "очевидно" я погорячился.

Исходя из формулировки "На стадии прюнинга на основе всех статических факторов для каждого документа оценивается вероятность того, что он окажется релевантным запросу." можно предположить, что выкидываемые документы зависят от запроса, /но мне всё же так не кажется (зачеркнуто)/ и всё же это подтверждается, как ниже написал wolf.

Kirill-ss
На сайте с 20.04.2006
Offline
142
#45

Мне кажется однозначным, что они зависят от запроса.

D
На сайте с 25.07.2006
Offline
92
dfg
#46
ИМХО:
..."мебель в черниголовке на развес" останется одна мебель без всякой черниголовки и развеса...

Вот какраз наоборот, осталось все кроме мебели.

wolf
На сайте с 13.03.2001
Offline
1183
#47
SergoZD:
Очевидно же, что если сайт не пройдет по одному какому-то запросу, то он тогда не пройдет по любому запросу, в котором будет реализовываться 4 пункт.

Критерий отсева может зависит от свойств выборки. У каждого запроса будет своя первоначальная выборка удовлетворяющих ему документов. На пальцах - если документов ответит много, но все они будут иметь плохие статические свойства, то планка может быть довольно низкой, чтоб хоть что-то выдать.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
ИМХО
На сайте с 05.01.2008
Offline
42
#48

Люди спорят зависит оно или нет от запроса. Внесу еще раз свое мнение.

Процесс отбора на этапе прюнинга зависит только от статических факторов, следовательно от запроса не зависит. Это известно из официального заявления. Однако планка отбора зависит от получившейся первоначальной выборки, а эта выборка в свою очередь состоит из прошедших кворум документов. Прохождение документом кворума разумеется зависит от запроса.

Таким образом запрос прямо не влияет на прохождение документом прюнинга, он лишь косвенно влияет на планку которую этот прюнинг задает.

ИМХО добавил 22.05.2008 в 18:09

Kolyaj:

3. Если документов мало, то в 5-й пункт, много - в 4-й
4. Выкидываем документы со слабыми статическими параметрами.
5. Высчитываем релевантность и сортируем.

Не думаю что тут просто выключатель прюнинг есть/прюнинга нет. Ниже написанное это ИМХО, код прюнинга я не писал и не читал.

Мне кажется, что проходное значение для прюнинга задается статическими величинами тех сайтов которые лидируют. То есть потом другим сайтам предлагается побить планку равную их статическим величинам поделить на некоторую вычисленную яндексоидами константу, достаточно большую чтобы быть уверенным что у сайтов меньше этой планки нет шансов обогнать любого из лидеров при любом стечении обстоятельств.

ИМХО добавил 22.05.2008 в 18:15

orphelin, пассаж по моему мнению это часть документа соответствующая запросу.

Документ состоит из текста, анкор-листа и с недавних пор еще включает в себя в какой-то форме url и его перевод/транслитерацию плюс общие статические факторы документа. Пассаж может быть найден в чем угодно кроме статических факторов. Таким образом в выдаче и появляются "найден по ссылке" и найденные по url документы.

С уважением, Константин.
Tryerty
На сайте с 04.12.2007
Offline
68
#49

Мне всеже хочется как-то поколебать уверенность всех в том, что кворумная фильтрация происходит до этапа прюнинга.

из "Подлетая к Магадану":
Изменили технологию поиска так, что мы можем быстро выбрать наиболее релевантные документы в первую очередь и не ждать поиска по остальным страницам. Мы смягчили фильтрацию отбора документов для ранжирования, что привело к улучшению ранжирования по запросам, для которых релевантные документы содержат слова запроса далеко друг от друга

Исходя из цитаты можно предположить, что отбор документов для выдачи производится после обрезки индекса.

Парочка неаргументированных наблюдений:

1. То что кворум работает иначе, чем раньше, мне кажется, показывать не нужно. При отказе от пассажного кворума число найденных документов должно возрастать.

2. Число найденных страниц действительно стало значительно большим (в среднем в полтора раза), а вот число сайтов существенно уменьшилось (иногда более чем в два раза).

Сравнивались данные за январь и май.

Движение вверх нельзя воспринимать как движение вперед не только с точки зрения физики. Достаточно взглянуть, ЧТО плавает на поверхности...
Kolyaj
На сайте с 28.03.2006
Offline
69
#50

Tryerty, процитированный вами текст был написан до введения прюнинга.

Den Raskovalov:
Вот примерно этим мы и развлекались после публичной беты ;)

http://denraskovalov.ya.ru/replies.xml?item_no=788

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий