pro-maker

pro-maker
Рейтинг
281
Регистрация
08.12.2003
Интересы
трафикогенерация, и-маркетинг
pro-maker:
корень в знаменателе?

А что "корень в знаменателе"? Это же и есть тошнота. А, понял, корень пропустил. :)

Р = вИЦ * (число_найденных_ключевиков) * sqrt(ln(вес_ключевика)) / sqrt(число_вхождений_самого_частого_слова или 7, если число_вхождений_самого_частого_слова меньше 7)

andrej-ilin:
Число правых скобок не совпадает с числом левых.

Для однословника :)

Р = вИЦ * (число_найденных_ключевиков) * sqrt(ln(вес_ключевика)) / (число_вхождений_самого_частого_слова или 7, если число_вхождений_самого_частого_слова меньше 7)

wolf:
Вам тоже жалко бесцельно потраченного времени?

Пока еще не жалко, но уже на пределе терпения. :)

Позвольте, позвольте, ... давайте разберемся. :)

wolf:
Поправлю - не число найденных пассажей, а число найденных терминов, и не вес пассажа, а вес термина.

Это подходит для однословника, если тройка и что-то не проходит кворум, запрос "слово1 слово2 слово3", а находится только "слово1 сслов2"? Поэтому и "найденных пассажей". Тоже самое и с весом пассажа, в том смысле, что вычисляется как-то по всем терминам, но в формулу релевантности в итоге входит как множитель.

wolf:
К тому же ХРНС четко указывает на характер тошноты как фукнцию от частоты максимального термина.

Ничего подобного, это издержки его стиля документирования собственной методики, которая, кстати, не имеет целостного изложения, а фрагментарно разбросана по форуму. Тошнота - мера спамности, а нормировка спамности по самому частому слову - просто текущий используемый подход.

wolf:
Все остальные документные характеристики его модели агрегируются в понятии ВИЦ.
Не факт, что его ВИЦ - чистый параметр, т.е. классический ВИЦ, который расчитывается на основе информации о ссылках, его могут "засорять" другие документные характеристики, например длина документа в словах, которую по логике надо было бы добавить в тошноту.
К сожалению, загвоздка в том, что ВИЦ нам априори неизвестен, в отличие от других факторов (число терминов, вес термина и т.д.). Мы не можем его зафиксировать, не можем подобрать два документа с одинаковым ВИЦ'ем (конечно, чисто интуитивно мы можем предположить, что два документа с одинаковым набором входящих ссылок будут иметь одинаковый ВИЦ, но проверить это все равно не сможем) и т.д. Получается, что для "очищения" ВИЦ нам надо последовательно проверять гипотезы об учете различных документных характеристик, которые мы можем измерить.

Во-первых, Хрнс использует понятие тулбарного вИЦ, т.е. логарифмического эквивалента ранга документа.

Во-вторых, и это очень важно, в контентную часть релевантности вводится элемент, определяющий ссылочный ранг документа, а в ссылочной части такового (ранга) нет. Думаю, что к такой модели пришли исходя из-за сравнительного анализа с логическим ИЛИ (ортогональные запросы).

В-третьих, что еще важней, :) наконец-то, сегодня Хрнс признал, что возможно применение нескольких подходов к расчету релевантности. Какие конкретные составляющие используются трудно предположить потому, что тот, кто пытался повторить расчеты, знают какой набор неопределенности возникает, когда начинаешь копаться и как хочется бывает надрать одно место этому Хренычу. :)

wolf:
Да не надо никаких альтернативных терминов. С лёгкой руки Миныча термин "тошнота", как обозначение антиспамовой нормировки tf по tfmax уже прочно вписался в обиход.

Возможно, что не совсем так просто.

Насколько мне хватает понимания логики Хрнс, они формулу релевантности по контенту пытаются интерпретировать как одновариантную (универсальную) мультипликативную модель зависящую от глобальных сущностей - вИЦ, число_найденных_пассажей, вес_пассажа, спамность_документа. Спамность и обозвали тошнотой, поскольку термин был необходим, а разбираться в IR кулибиным нет времени. А как оценивать спамность (нормировать по tfmax/длине или по функции от нескольких слов) уже другая проблема.

SimonScatt:
откуда такие познания?

Точно, Вы правы. В Запорожье жил в прошлой жизни, подзабыл уже. :)

Поздравляю! Успехов в работе, счастья в делах сердечных!

Поздравляю! Самые наилучшие пожелания!

The WishMaster:
Нормальная водка... Немиров лучше, конечно, но хортица платинум тоже ничего Особенно с хорошим пивом.

Водка без пива выброшенные деньги? :)

Просто Немировым заспамлены московские магазины, поэтому Хортица смотрится как оригинальная украинская водка.

parapet:
ЗЫ. Кстати о дубе - на данный момент дуб функционирует на 5-10% проектной мошности.. Проще говоря, на 95% сдох уже

parapet, Вам спошлить неймется? Сами когда-то будете на 95% ...

Lupus:
ЗЫ. А "Хортица", это что-то географическое? Остров или речка?

Это Запорожье. Хортиця - остров. Город - на левом берегу, Хортице и правом берегу. Между левым берегом и Хортицей - Днирогэс. На самой Хортице известный дуб, под которым казаки туркам письмо писали, там где их кое-куда послали. Т.е. бренд использует ассоциации с "запорожской сечью".

Всего: 4277