Прюнинг Яндекса

_S_
На сайте с 12.01.2006
Offline
109
_S_
8011
Продолжаем рассказ о "Магадане". В новой программе улучшена скорость поиска по запросам, по которым находится большое число документов. Для этого мы применили технику под названием "прюнинг". Время поиска сократилось за счет появления еще одной стадии поиска -- на ней отсекаются заведомо нерелевантные документы.

Как это происходит? В формулу ранжирования, которая определяет релевантность страниц, входит множество факторов, как зависящих от запроса, так и статических по отношению к нему (они характеризут страницу или сайт, а не пару "страница-запрос"). На стадии прюнинга на основе всех статических факторов для каждого документа оценивается вероятность того, что он окажется релевантным запросу. Если вероятность низкая, документ дальше не анализируется.

По таким запросам как [новости] и [жж] время поиска было сокращено в десятки раз. При этом ускорение поиска было достигнуто без всякого ухудшения его качества.


Андрей Гулин, ускоритель


Между прочим,
Яндекс старается дать ответ на запрос, сократив время и усилия пользователей. Спрашиваете "погода"? Отвечаем: "Москва, +12 °C, дождь" (см. ответ в первой строке над результатами поиска), если вы живете не в Москве, погода будет показана для вашего города. Спрашиваете "Елена Колмановская"? Отвечаем: "Елена Колмановская — Яндекс, главный редактор". И ссылка на пресс-портрет, составленный по материалам СМИ. Мы называем такие подсказки "колдунщиками", потому что от них иногда создается впечатление, что поисковая система понимает всё, что вы хотели, и даже больше. :)

http://company.yandex.ru/history/koldun.xml

http://webmaster.ya.ru/replies.xml?item_no=890

Читаешь блог? () Сайт о холодном оружии (http://bladeist.ru)
D
На сайте с 09.06.2006
Offline
165
#1

Ну а чего тут скажешь..? Молодчики. :)

DIAFAN.CMS (http://www.diafan.ru/), система управления сайтами.
forseman
На сайте с 28.10.2007
Offline
149
#2

насколько я понимаю, сделали кворум "умнее" или какой-то препроцессинг кворума... ну что ж - давно пора было "оптимизацией" заняться яндексу =)

таки я думаю, пришлось им это сдлать, чтобы нормально индексить зарубежку (при тех же ресурсах)

ИМХО: В сео нет тем, нечего и палить. Заявляющий обратное - шутник. Слушайте местных гуру, они за деньги палят темы.Выше репа - лучше палят же. И да, я в сео новичок, не судите строго.
_S_
На сайте с 12.01.2006
Offline
109
_S_
#3
_S_:
на основе всех статических факторов для каждого документа оценивается вероятность того, что он окажется релевантным запросу.

А мне лично это все напоминает вещь, которую некоторые называют "траст".

ИМХО
На сайте с 05.01.2008
Offline
42
#4

Прогнал...

С уважением, Константин.
forseman
На сайте с 28.10.2007
Offline
149
#5
_S_:
А мне лично это все напоминает вещь, которую некоторые называют "траст".

хмм...то есть придумали-таки алгоритм определения "траста" и засчет него (то есть дополнительного шага в построении выдачи) сумели ускорить работу?..вообще, насколько я сумел заметить, кол-во страниц, релевантных запросу в магадане не изменилось...в таком случае, это настоящий прорыв и в перспективе выдача, близкая к идеальной (((:

ИМХО
На сайте с 05.01.2008
Offline
42
#6

Статические факторы, это видимо те которые не зависят от запроса.

Что у нас есть известного? вИЦ, траст, тошнота текста, санкции, свойства анкор-листа сходные с текстовой тошнотой, названия которым четкого по-моему еще нет.

Чтобы сократить количество документов участвующих в обработке основываясь только на них, нужно выкинуть сайты с "низкими параметрами" относительно всей выборки. До первичной отборки документов по базе это делать глупо, тогда будут отсеиваться одни и те же документы независимо от запроса, что сильно обрежет базу по которой ведется поиск. Хотели бы, почистили один раз, а не делали это каждый незакешированный запрос.

Следовательно перед прюнингом уже имеется какая-то стартовая выборка. Это могут быть как обычно страницы прошедшие кворум, так и более ранний этап. более ранний этап это все страницы где нашлось хоть одно слово из запроса, те в которых уже потом обычно идет поиск пассажей для проверки кворумом. Поэтому прюнинг может быть как постпроцессинг так и препроцессинг кворума. Я больше склоняюсь к постпроцессингу, иначе по запросу "мебель в черниголовке на развес" останется одна мебель без всякой черниголовки и развеса.

PS: На траст похожим не кажется. Траст по определению не зависит от запроса и пересчитывать его каждый запрос нет нужды.

ИМХО добавил 21.05.2008 в 21:24

PPS: На выдачу сильно повлиять не должно. Об этом они как сами пишут, так и само вроде очевидно, если отсеиваются документы которые по мнению алгоритма прюнинга и так в топ скорее всего не попали бы.

forseman
На сайте с 28.10.2007
Offline
149
#7
ИМХО:
До первичной отборки документов по базе это делать глупо, тогда будут отсеиваться одни и те же документы независимо от запроса

это неверно, смотрим первоисточник

"На стадии прюнинга на основе всех статических факторов для каждого документа оценивается вероятность того, что он окажется релевантным запросу."

заметьте, что в статические параметры страницы входит контент (тобишь релевантность)

также рассмотрим слова про то, что статические параметры есть у страницы или у сайта

эти параметры ждя сайта - и есть аналог траста, судя по всему (возраст, фильтры, качество совокупности внешних ссылок и тп)

drima
На сайте с 17.07.2007
Offline
46
#8

спрашиваем "путин"? отвечают: "биография д.а.медведева, фотографии"

такое и китайскому интернету не снилось :) обычный поиск на яндексе - говно говном, но конъюнктура - вне всяких похвал :) нужно еще кнопочку сделать рядом с традиционными "по дате" и "по релевантности" - "сортировать по лояльности к власти"

No future 4 me
LEOnidUKG
На сайте с 25.11.2006
Offline
1774
#9
обычный поиск на яндексе - говно говном

подкрепите весомым примером.

✅ Мой Телеграм канал по SEO, оптимизации сайтов и серверов: https://t.me/leonidukgLIVE ✅ Качественное и рабочее размещение SEO статей СНГ и Бурж: https://getmanylinks.ru/ ✅ Настройка и оптимизация серверов https://getmanyspeed.ru/
ИМХО
На сайте с 05.01.2008
Offline
42
#10
forseman:
это неверно, смотрим первоисточник

"На стадии прюнинга на основе всех статических факторов для каждого документа оценивается вероятность того, что он окажется релевантным запросу."

заметьте, что в статические параметры страницы входит контент (тобишь релевантность)

Где заметить? Я исходил из того что статические параметры документа - параметры не зависящие от запроса.

В формулу ранжирования, которая определяет релевантность страниц, входит множество факторов, как зависящих от запроса, так и статических по отношению к нему (они характеризут страницу или сайт, а не пару "страница-запрос").

А понял о чем вы. Контент может входить - он от запроса не зависит. Релевантность нет - она зависит от запроса. И опять возвращаемся что контент от запроса не зависит и выкинет один и тот же набор документов если предположить ваш вариант.

ИМХО добавил 21.05.2008 в 21:43

PS: про траст я сам писал, как про один из факторов на которых основывается прюнинг. Но назначение прюнинга отнюдь не в отработке алгоритма траста.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий