Как работает поиск Яндекса (ранжирование в топ)

dlyanachalas
На сайте с 15.09.2006
Offline
693
#201

Wolf, и ещё - получается, раз у них там полином, значит никакой тошноты или длины документа в знаменателе нет.

А это значит, что она не всегда влияет отрицательно, но в связке с другими параметрами, может давать и положительный вклад (прямой вывод из формы формулы релевантности).

wolf
На сайте с 13.03.2001
Offline
1183
#202
dlyanachalas:
Wolf, и ещё - получается, раз у них там полином, значит никакой тошноты или длины документа в знаменателе нет.

"Тошнота" может быть составной частью одного (или нескольких) факторов. Вы упоминаемые в статье факторы повнимательней изучите. Например, "группу факторов на основе формулы Okapi_BM25".

Да, и что Вы, собственно, подразумеваете под "тошнотой"? :)

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
dlyanachalas
На сайте с 15.09.2006
Offline
693
#203
wolf:
Не совсем. Метрики могут быть разные. Например, упоминаемая в "Яндекс на РОМИП'2009" метрика pfound отнюдь не минимизирует невязки (о чем говорите Вы), а максимизирует вероятность нахождения релевантного результата при последовательном просмотре юзером выдачи сверху вниз. Всё таки несколько разные вещи.

pfound зависит от pRel, а там написано, что:

Значениями pRel в нашей модели являются оценки
релевантности по запросу

dlyanachalas добавил 31.10.2009 в 19:02

wolf:
"Тошнота" может быть составной частью одного (или нескольких) факторов. Вы упоминаемые в статье факторы повнимательней изучите. Например, "группу факторов на основе формулы Okapi_BM25".

Зачем так делать, если можно все эти параметры объединить универсальной формулой (о чем и идет речь в докладе).

Да, и что Вы, собственно, подразумеваете под "тошнотой"? :)

Количество вхождений самого частотного термина в документ.

wolf
На сайте с 13.03.2001
Offline
1183
#204
dlyanachalas:
Зачем так делать, если можно все эти параметры объединить универсальной формулой (о чем и идет речь в докладе).

Хорший вопрос. Задайте его Сегаловичу при случае.

dlyanachalas:
pfound зависит от pRel

Слушайте, у меня нет ни желания, ни времени разжевывать Вам то, по чему Вы наскоком пробежались по верхам (в том числе и "википедические" статьи о генетических алгоритмах). Скажу одно - читайте внимательно первоисточники.

dlyanachalas:
Количество вхождений самого частотного термина в документ.

Это частный случай. Миныч же под тошнотой имел ввиду более широкое понятие, а именно - нормировку tf*idf (В той же BM25, например). Сегодня она нормируется по самому частотному термину, завтра - по длине документа. Где-то у ХРНС этот момент оговаривался

dlyanachalas
На сайте с 15.09.2006
Offline
693
#205
wolf:
Это частный случай. Миныч же под тошнотой имел ввиду более широкое понятие, а именно - нормировку tf*idf (В той же BM25, например). Сегодня она нормируется по самому частотному термину, завтра - по длине документа. Где-то у ХРНС этот момент оговаривался

Я вообще-то о том, что в формуле релевантности нет знаменателя. А что там имел в виду ХренРедькиНеСлаще - десятое дело.

Про википедию, хорошо сказано, но я изучал эти функции, когда в НИИ работал.

Удачи в исследованиях)

wolf
На сайте с 13.03.2001
Offline
1183
#206
dlyanachalas:
Я вообще-то о том, что в формуле релевантности нет знаменателя.

Найдите формулу BM25 и внимательно проанализируйте. Даст Бог, и заметите знаменатель

dlyanachalas:
но я изучал эти функции, когда в НИИ работал.

В каком году работали, если не секрет? И кем?

dlyanachalas:
А что там имел в виду ХренРедькиНеСлаще - десятое дело.

Воля Ваша, но термин "тошнота" все таки ввел именно Миныч, и думаю, его мнение (и членов его команды) здесь не последнее. Хотя, еще с тех времен под "тошнотой" каждый понимал что-то своё. Эдакий сакральный смысл свой вкладывал. :)

dlyanachalas
На сайте с 15.09.2006
Offline
693
#207

Что я могу сказать, так это то, что БДБД _не_ захватит мир)

Наша мини-конкуренция по одному из ВК закончилась в мою пользу с вводом Снежинска :)

Найдите формулу BM25 и внимательно проанализируйте. Даст Бог, и заметите знаменатель

Да нет там уже таких формул. А если и есть, то они вносят незначительный вклад.

Считаю, что Гудман вчера правильно написал. Они используют какое-то самопальное подобие рядов для получения соответствия выдачи, сформированной алгоритмом, и ручной выдачи, сформированной ассессорами.

Итог - в выдаче или ручная правка, или гауно (там, где ручной правки не было).

S2
На сайте с 07.01.2008
Offline
611
#208
dlyanachalas:
Считаю, что Гудман вчера правильно написал. Они используют какое-то самопальное подобие рядов для получения соответствия выдачи, сформированной алгоритмом, и ручной выдачи, сформированной ассессорами.

Где это GOODMAN такое писал?

Не надо приписывать мне свои выводы, я имею ввиду только то, что написал. Лучшая партнёрка по футболкам/толстовкам (http://partnerka.kolorado.ru/?ref=1921540) Опрос: Проверить текст на уник - как? (/ru/forum/495885)
dlyanachalas
На сайте с 15.09.2006
Offline
693
#209
Str256:
Где это GOODMAN такое писал?

Здесь. А что, данный факт вызывает сомнения?

S2
На сайте с 07.01.2008
Offline
611
#210
dlyanachalas:
Здесь. А что, данный факт вызывает сомнения?

Мы с вами Гудманов спутали:) Есть: GOODMAN и G00DMAN. Писал 2-й.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий