Что такое тошнота?

wolf
На сайте с 13.03.2001
Offline
1183
#41
pro-maker:
Насколько мне хватает понимания логики Хрнс, они формулу релевантности по контенту пытаются интерпретировать как одновариантную (универсальную) мультипликативную модель зависящую от глобальных сущностей - вИЦ, число_найденных_пассажей, вес_пассажа, спамность_документа. Спамность и обозвали тошнотой, поскольку термин был необходим, а разбираться в IR кулибиным нет времени. А как оценивать спамность (нормировать по tfmax/длине или по функции от нескольких слов) уже другая проблема.

Поправлю - не число найденных пассажей, а число найденных терминов, и не вес пассажа, а вес термина.

К тому же ХРНС четко указывает на характер тошноты как фукнцию от частоты максимального термина.

Все остальные документные характеристики его модели агрегируются в понятии ВИЦ.

Не факт, что его ВИЦ - чистый параметр, т.е. классический ВИЦ, который расчитывается на основе информации о ссылках, его могут "засорять" другие документные характеристики, например длина документа в словах, которую по логике надо было бы добавить в тошноту.

К сожалению, загвоздка в том, что ВИЦ нам априори неизвестен, в отличие от других факторов (число терминов, вес термина и т.д.). Мы не можем его зафиксировать, не можем подобрать два документа с одинаковым ВИЦ'ем (конечно, чисто интуитивно мы можем предположить, что два документа с одинаковым набором входящих ссылок будут иметь одинаковый ВИЦ, но проверить это все равно не сможем) и т.д. Получается, что для "очищения" ВИЦ нам надо последовательно проверять гипотезы об учете различных документных характеристик, которые мы можем измерить.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
pro-maker
На сайте с 08.12.2003
Offline
281
#42

Позвольте, позвольте, ... давайте разберемся. :)

wolf:
Поправлю - не число найденных пассажей, а число найденных терминов, и не вес пассажа, а вес термина.

Это подходит для однословника, если тройка и что-то не проходит кворум, запрос "слово1 слово2 слово3", а находится только "слово1 сслов2"? Поэтому и "найденных пассажей". Тоже самое и с весом пассажа, в том смысле, что вычисляется как-то по всем терминам, но в формулу релевантности в итоге входит как множитель.

wolf:
К тому же ХРНС четко указывает на характер тошноты как фукнцию от частоты максимального термина.

Ничего подобного, это издержки его стиля документирования собственной методики, которая, кстати, не имеет целостного изложения, а фрагментарно разбросана по форуму. Тошнота - мера спамности, а нормировка спамности по самому частому слову - просто текущий используемый подход.

wolf:
Все остальные документные характеристики его модели агрегируются в понятии ВИЦ.
Не факт, что его ВИЦ - чистый параметр, т.е. классический ВИЦ, который расчитывается на основе информации о ссылках, его могут "засорять" другие документные характеристики, например длина документа в словах, которую по логике надо было бы добавить в тошноту.
К сожалению, загвоздка в том, что ВИЦ нам априори неизвестен, в отличие от других факторов (число терминов, вес термина и т.д.). Мы не можем его зафиксировать, не можем подобрать два документа с одинаковым ВИЦ'ем (конечно, чисто интуитивно мы можем предположить, что два документа с одинаковым набором входящих ссылок будут иметь одинаковый ВИЦ, но проверить это все равно не сможем) и т.д. Получается, что для "очищения" ВИЦ нам надо последовательно проверять гипотезы об учете различных документных характеристик, которые мы можем измерить.

Во-первых, Хрнс использует понятие тулбарного вИЦ, т.е. логарифмического эквивалента ранга документа.

Во-вторых, и это очень важно, в контентную часть релевантности вводится элемент, определяющий ссылочный ранг документа, а в ссылочной части такового (ранга) нет. Думаю, что к такой модели пришли исходя из-за сравнительного анализа с логическим ИЛИ (ортогональные запросы).

В-третьих, что еще важней, :) наконец-то, сегодня Хрнс признал, что возможно применение нескольких подходов к расчету релевантности. Какие конкретные составляющие используются трудно предположить потому, что тот, кто пытался повторить расчеты, знают какой набор неопределенности возникает, когда начинаешь копаться и как хочется бывает надрать одно место этому Хренычу. :)

wolf
На сайте с 13.03.2001
Offline
1183
#43
pro-maker:
Это подходит для однословника, если тройка и что-то не проходит кворум, запрос "слово1 слово2 слово3", а находится только "слово1 сслов2"? Поэтому и "найденных пассажей". Тоже самое и с весом пассажа, в том смысле, что вычисляется как-то по всем терминам, но в формулу релевантности в итоге входит как множитель.

Для многословников тоже подходит с оговоркой, что речь идет о словах, вошедших в пассажи, прошедшие кворум. И вес пассажа - явно недостаточное определение. Ибо разные слова в пассаже будут иметь разный вес, т.к. у них, к примеру, разные IDF.

pro-maker:
В-третьих, что еще важней, наконец-то, сегодня Хрнс признал, что возможно применение нескольких подходов к расчету релевантности.

Не удивлюсь, если с разнообразием тестовых примеров количество подходов существенно возрастет. :)

pro-maker:
Какие конкретные составляющие используются трудно предположить потому, что тот, кто пытался повторить расчеты, знают какой набор неопределенности возникает, когда начинаешь копаться и как хочется бывает надрать одно место этому Хренычу.

Виталий, и Вам тоже жалко бесцельно потраченного времени? ;)

pro-maker
На сайте с 08.12.2003
Offline
281
#44
wolf:
Вам тоже жалко бесцельно потраченного времени?

Пока еще не жалко, но уже на пределе терпения. :)

wolf
На сайте с 13.03.2001
Offline
1183
#45
pro-maker:
тот, кто пытался повторить расчеты, знают какой набор неопределенности возникает

Похоже, потому, что явно не всё определено в модели. ;)

Говорил же я - давайте сначала определим переменные и константы...

MarMih
На сайте с 18.09.2006
Offline
17
#46

Artlight, попробовал по приведённому Вами "Тошномеру" померить Яшу...

Какую-то билеберду этот "Тошномер" выдаёт. Многих слов вообще нет на сайте :-) Почему?

Artlight
На сайте с 15.09.2003
Offline
123
#47
MarMih:
попробовал по приведённому Вами "Тошномеру" померить Яшу...
Какую-то билеберду этот "Тошномер" выдаёт. Многих слов вообще нет на сайте :-) Почему?

Это к nickspring вопрос, его сервис.

Обменяю свой вмр на ваш яд курс 1-1
nickspring
На сайте с 29.03.2006
Offline
228
#48

MarMih, потому что ip забанен. Да и вообще нафига яшу мерять ;) - на него с закладок ходят :).

MarMih
На сайте с 18.09.2006
Offline
17
#49

nickspring, ОК! :-)))

юни
На сайте с 01.11.2005
Offline
933
#50

кхм.... так о чем мы здесь?.... слушайте - а может, действительно "вода"? Вкусное, похмельное слово. :)

https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий