- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Насколько мне хватает понимания логики Хрнс, они формулу релевантности по контенту пытаются интерпретировать как одновариантную (универсальную) мультипликативную модель зависящую от глобальных сущностей - вИЦ, число_найденных_пассажей, вес_пассажа, спамность_документа. Спамность и обозвали тошнотой, поскольку термин был необходим, а разбираться в IR кулибиным нет времени. А как оценивать спамность (нормировать по tfmax/длине или по функции от нескольких слов) уже другая проблема.
Поправлю - не число найденных пассажей, а число найденных терминов, и не вес пассажа, а вес термина.
К тому же ХРНС четко указывает на характер тошноты как фукнцию от частоты максимального термина.
Все остальные документные характеристики его модели агрегируются в понятии ВИЦ.
Не факт, что его ВИЦ - чистый параметр, т.е. классический ВИЦ, который расчитывается на основе информации о ссылках, его могут "засорять" другие документные характеристики, например длина документа в словах, которую по логике надо было бы добавить в тошноту.
К сожалению, загвоздка в том, что ВИЦ нам априори неизвестен, в отличие от других факторов (число терминов, вес термина и т.д.). Мы не можем его зафиксировать, не можем подобрать два документа с одинаковым ВИЦ'ем (конечно, чисто интуитивно мы можем предположить, что два документа с одинаковым набором входящих ссылок будут иметь одинаковый ВИЦ, но проверить это все равно не сможем) и т.д. Получается, что для "очищения" ВИЦ нам надо последовательно проверять гипотезы об учете различных документных характеристик, которые мы можем измерить.
Позвольте, позвольте, ... давайте разберемся. :)
Поправлю - не число найденных пассажей, а число найденных терминов, и не вес пассажа, а вес термина.
Это подходит для однословника, если тройка и что-то не проходит кворум, запрос "слово1 слово2 слово3", а находится только "слово1 сслов2"? Поэтому и "найденных пассажей". Тоже самое и с весом пассажа, в том смысле, что вычисляется как-то по всем терминам, но в формулу релевантности в итоге входит как множитель.
К тому же ХРНС четко указывает на характер тошноты как фукнцию от частоты максимального термина.
Ничего подобного, это издержки его стиля документирования собственной методики, которая, кстати, не имеет целостного изложения, а фрагментарно разбросана по форуму. Тошнота - мера спамности, а нормировка спамности по самому частому слову - просто текущий используемый подход.
Все остальные документные характеристики его модели агрегируются в понятии ВИЦ.
Не факт, что его ВИЦ - чистый параметр, т.е. классический ВИЦ, который расчитывается на основе информации о ссылках, его могут "засорять" другие документные характеристики, например длина документа в словах, которую по логике надо было бы добавить в тошноту.
К сожалению, загвоздка в том, что ВИЦ нам априори неизвестен, в отличие от других факторов (число терминов, вес термина и т.д.). Мы не можем его зафиксировать, не можем подобрать два документа с одинаковым ВИЦ'ем (конечно, чисто интуитивно мы можем предположить, что два документа с одинаковым набором входящих ссылок будут иметь одинаковый ВИЦ, но проверить это все равно не сможем) и т.д. Получается, что для "очищения" ВИЦ нам надо последовательно проверять гипотезы об учете различных документных характеристик, которые мы можем измерить.
Во-первых, Хрнс использует понятие тулбарного вИЦ, т.е. логарифмического эквивалента ранга документа.
Во-вторых, и это очень важно, в контентную часть релевантности вводится элемент, определяющий ссылочный ранг документа, а в ссылочной части такового (ранга) нет. Думаю, что к такой модели пришли исходя из-за сравнительного анализа с логическим ИЛИ (ортогональные запросы).
В-третьих, что еще важней, :) наконец-то, сегодня Хрнс признал, что возможно применение нескольких подходов к расчету релевантности. Какие конкретные составляющие используются трудно предположить потому, что тот, кто пытался повторить расчеты, знают какой набор неопределенности возникает, когда начинаешь копаться и как хочется бывает надрать одно место этому Хренычу. :)
Это подходит для однословника, если тройка и что-то не проходит кворум, запрос "слово1 слово2 слово3", а находится только "слово1 сслов2"? Поэтому и "найденных пассажей". Тоже самое и с весом пассажа, в том смысле, что вычисляется как-то по всем терминам, но в формулу релевантности в итоге входит как множитель.
Для многословников тоже подходит с оговоркой, что речь идет о словах, вошедших в пассажи, прошедшие кворум. И вес пассажа - явно недостаточное определение. Ибо разные слова в пассаже будут иметь разный вес, т.к. у них, к примеру, разные IDF.
В-третьих, что еще важней, наконец-то, сегодня Хрнс признал, что возможно применение нескольких подходов к расчету релевантности.
Не удивлюсь, если с разнообразием тестовых примеров количество подходов существенно возрастет. :)
Какие конкретные составляющие используются трудно предположить потому, что тот, кто пытался повторить расчеты, знают какой набор неопределенности возникает, когда начинаешь копаться и как хочется бывает надрать одно место этому Хренычу.
Виталий, и Вам тоже жалко бесцельно потраченного времени? ;)
Вам тоже жалко бесцельно потраченного времени?
Пока еще не жалко, но уже на пределе терпения. :)
тот, кто пытался повторить расчеты, знают какой набор неопределенности возникает
Похоже, потому, что явно не всё определено в модели. ;)
Говорил же я - давайте сначала определим переменные и константы...
Artlight, попробовал по приведённому Вами "Тошномеру" померить Яшу...
Какую-то билеберду этот "Тошномер" выдаёт. Многих слов вообще нет на сайте :-) Почему?
попробовал по приведённому Вами "Тошномеру" померить Яшу...
Какую-то билеберду этот "Тошномер" выдаёт. Многих слов вообще нет на сайте :-) Почему?
Это к nickspring вопрос, его сервис.
MarMih, потому что ip забанен. Да и вообще нафига яшу мерять ;) - на него с закладок ходят :).
nickspring, ОК! :-)))
кхм.... так о чем мы здесь?.... слушайте - а может, действительно "вода"? Вкусное, похмельное слово. :)