Попробуйте померить Яшу. Используйте несколько подходов к расчету релевантности - Вопросы новичков в SEO

Что такое тошнота?

Олежина · 2020-07-28T15:09:55.0000000Z

Здравствуйте! Объясните, пожалуйста, что значит термин "тошнота". Встретил его в одной ветке, на этом форуме: тут . НЕ могу понять

1183

wolf

8 декабря 2006, 09:40

#41

pro-maker:
Насколько мне хватает понимания логики Хрнс, они формулу релевантности по контенту пытаются интерпретировать как одновариантную (универсальную) мультипликативную модель зависящую от глобальных сущностей - вИЦ, число_найденных_пассажей, вес_пассажа, спамность_документа. Спамность и обозвали тошнотой, поскольку термин был необходим, а разбираться в IR кулибиным нет времени. А как оценивать спамность (нормировать по tfmax/длине или по функции от нескольких слов) уже другая проблема.

Поправлю - не число найденных пассажей, а число найденных терминов, и не вес пассажа, а вес термина.

К тому же ХРНС четко указывает на характер тошноты как фукнцию от частоты максимального термина.

Все остальные документные характеристики его модели агрегируются в понятии ВИЦ.

Не факт, что его ВИЦ - чистый параметр, т.е. классический ВИЦ, который расчитывается на основе информации о ссылках, его могут "засорять" другие документные характеристики, например длина документа в словах, которую по логике надо было бы добавить в тошноту.

К сожалению, загвоздка в том, что ВИЦ нам априори неизвестен, в отличие от других факторов (число терминов, вес термина и т.д.). Мы не можем его зафиксировать, не можем подобрать два документа с одинаковым ВИЦ'ем (конечно, чисто интуитивно мы можем предположить, что два документа с одинаковым набором входящих ссылок будут иметь одинаковый ВИЦ, но проверить это все равно не сможем) и т.д. Получается, что для "очищения" ВИЦ нам надо последовательно проверять гипотезы об учете различных документных характеристик, которые мы можем измерить.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

281

pro-maker

8 декабря 2006, 10:56

#42

Позвольте, позвольте, ... давайте разберемся. :)

wolf:
Поправлю - не число найденных пассажей, а число найденных терминов, и не вес пассажа, а вес термина.

Это подходит для однословника, если тройка и что-то не проходит кворум, запрос "слово1 слово2 слово3", а находится только "слово1 сслов2"? Поэтому и "найденных пассажей". Тоже самое и с весом пассажа, в том смысле, что вычисляется как-то по всем терминам, но в формулу релевантности в итоге входит как множитель.

wolf:
К тому же ХРНС четко указывает на характер тошноты как фукнцию от частоты максимального термина.

Ничего подобного, это издержки его стиля документирования собственной методики, которая, кстати, не имеет целостного изложения, а фрагментарно разбросана по форуму. Тошнота - мера спамности, а нормировка спамности по самому частому слову - просто текущий используемый подход.

wolf:
Все остальные документные характеристики его модели агрегируются в понятии ВИЦ.
Не факт, что его ВИЦ - чистый параметр, т.е. классический ВИЦ, который расчитывается на основе информации о ссылках, его могут "засорять" другие документные характеристики, например длина документа в словах, которую по логике надо было бы добавить в тошноту.
К сожалению, загвоздка в том, что ВИЦ нам априори неизвестен, в отличие от других факторов (число терминов, вес термина и т.д.). Мы не можем его зафиксировать, не можем подобрать два документа с одинаковым ВИЦ'ем (конечно, чисто интуитивно мы можем предположить, что два документа с одинаковым набором входящих ссылок будут иметь одинаковый ВИЦ, но проверить это все равно не сможем) и т.д. Получается, что для "очищения" ВИЦ нам надо последовательно проверять гипотезы об учете различных документных характеристик, которые мы можем измерить.

Во-первых, Хрнс использует понятие тулбарного вИЦ, т.е. логарифмического эквивалента ранга документа.

Во-вторых, и это очень важно, в контентную часть релевантности вводится элемент, определяющий ссылочный ранг документа, а в ссылочной части такового (ранга) нет. Думаю, что к такой модели пришли исходя из-за сравнительного анализа с логическим ИЛИ (ортогональные запросы).

В-третьих, что еще важней, :) наконец-то, сегодня Хрнс признал, что возможно применение нескольких подходов к расчету релевантности. Какие конкретные составляющие используются трудно предположить потому, что тот, кто пытался повторить расчеты, знают какой набор неопределенности возникает, когда начинаешь копаться и как хочется бывает надрать одно место этому Хренычу. :)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

1183

wolf

8 декабря 2006, 11:16

#43

pro-maker:
Это подходит для однословника, если тройка и что-то не проходит кворум, запрос "слово1 слово2 слово3", а находится только "слово1 сслов2"? Поэтому и "найденных пассажей". Тоже самое и с весом пассажа, в том смысле, что вычисляется как-то по всем терминам, но в формулу релевантности в итоге входит как множитель.

Для многословников тоже подходит с оговоркой, что речь идет о словах, вошедших в пассажи, прошедшие кворум. И вес пассажа - явно недостаточное определение. Ибо разные слова в пассаже будут иметь разный вес, т.к. у них, к примеру, разные IDF.

pro-maker:
В-третьих, что еще важней, наконец-то, сегодня Хрнс признал, что возможно применение нескольких подходов к расчету релевантности.

Не удивлюсь, если с разнообразием тестовых примеров количество подходов существенно возрастет. :)

pro-maker:
Какие конкретные составляющие используются трудно предположить потому, что тот, кто пытался повторить расчеты, знают какой набор неопределенности возникает, когда начинаешь копаться и как хочется бывает надрать одно место этому Хренычу.

Виталий, и Вам тоже жалко бесцельно потраченного времени? ;)

Сергей Людкевич на конференции В Директе появились текстово-графические Google: разное количество рекламы

281

pro-maker

8 декабря 2006, 11:38

#44

wolf:
Вам тоже жалко бесцельно потраченного времени?

Пока еще не жалко, но уже на пределе терпения. :)

1183

wolf

8 декабря 2006, 11:58

#45

pro-maker:
тот, кто пытался повторить расчеты, знают какой набор неопределенности возникает

Похоже, потому, что явно не всё определено в модели. ;)

Говорил же я - давайте сначала определим переменные и константы...

17

MarMih

8 декабря 2006, 11:59

#46

Artlight, попробовал по приведённому Вами "Тошномеру" померить Яшу...

Какую-то билеберду этот "Тошномер" выдаёт. Многих слов вообще нет на сайте :-) Почему?

123

Artlight

8 декабря 2006, 12:14

#47

MarMih:
попробовал по приведённому Вами "Тошномеру" померить Яшу...
Какую-то билеберду этот "Тошномер" выдаёт. Многих слов вообще нет на сайте :-) Почему?

Это к nickspring вопрос, его сервис.

Обменяю свой вмр на ваш яд курс 1-1

228

nickspring

8 декабря 2006, 12:15

#48

MarMih, потому что ip забанен. Да и вообще нафига яшу мерять ;) - на него с закладок ходят :).

17

MarMih

8 декабря 2006, 12:18

#49

nickspring, ОК! :-)))

950

юни

8 декабря 2006, 12:51

#50

кхм.... так о чем мы здесь?.... слушайте - а может, действительно "вода"? Вкусное, похмельное слово. :)

https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит. Пишите в личку.

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Что такое Power BI и зачем это нужно бизнесу

Что такое тошнота?