wolf

wolf
Рейтинг
1183
Регистрация
13.03.2001
Должность
интернет-маркетинг, SEO
ХренРедькиНеСлаще:
Яндекс анализирует самое частое слово и если это не стопслово, то очень критически к этому относится, вплоть до введения другой формулы для запроса по самому частому слову. Для стопслов и запроса по стопслову, мы проверили, модификации нет.

Читаем первоисточники:


Следует отметить, что в Яндексе используется дополнительный анализ текстов при индексировании для подавления многократного повторения слов в тексте в расчете на повышение ранга документа в выдаче поисковых машин [8].

;)

ХренРедькиНеСлаще:
Однако, другие эксперименты показывают, что Яндекс модифицирует данную формулу, если сочтет страницу спамной

А может ничего не модифирует, а просто начинает ощущаться влияние параметров, который вы в своей модели не учли? Просто на определенном наборе входных данных вы не видели их влияния, но рано или поздно нактнулись на наборы, где оно есть? ;)

pro-maker:
Насколько мне хватает понимания логики Хрнс, они формулу релевантности по контенту пытаются интерпретировать как одновариантную (универсальную) мультипликативную модель зависящую от глобальных сущностей - вИЦ, число_найденных_пассажей, вес_пассажа, спамность_документа. Спамность и обозвали тошнотой, поскольку термин был необходим, а разбираться в IR кулибиным нет времени. А как оценивать спамность (нормировать по tfmax/длине или по функции от нескольких слов) уже другая проблема.

Поправлю - не число найденных пассажей, а число найденных терминов, и не вес пассажа, а вес термина.

К тому же ХРНС четко указывает на характер тошноты как фукнцию от частоты максимального термина.

Все остальные документные характеристики его модели агрегируются в понятии ВИЦ.

Не факт, что его ВИЦ - чистый параметр, т.е. классический ВИЦ, который расчитывается на основе информации о ссылках, его могут "засорять" другие документные характеристики, например длина документа в словах, которую по логике надо было бы добавить в тошноту.

К сожалению, загвоздка в том, что ВИЦ нам априори неизвестен, в отличие от других факторов (число терминов, вес термина и т.д.). Мы не можем его зафиксировать, не можем подобрать два документа с одинаковым ВИЦ'ем (конечно, чисто интуитивно мы можем предположить, что два документа с одинаковым набором входящих ссылок будут иметь одинаковый ВИЦ, но проверить это все равно не сможем) и т.д. Получается, что для "очищения" ВИЦ нам надо последовательно проверять гипотезы об учете различных документных характеристик, которые мы можем измерить.

Кстати, никто не обратил внимание, что топикстартер был послан как-то по-женски? Думаю, мужчина вряд ли бы стал употреблять термин "господин хам". Так что, похоже, часть Платонов ходит в юбке. ;)

Да не надо никаких альтернативных терминов. С лёгкой руки Миныча термин "тошнота", как обозначение антиспамовой нормировки tf по tfmax уже прочно вписался в обиход.

zsz:
Почему же мой сайт, по двухсловному запросу, с такими бэками улетел с 3 - го на 48 место!!!!
...
Следующим АПом сайт вновь возродился в ТОП 10!!!!

Думаю, даже, если бы Вы не принимали никаких действий по "спасению упопающего", результат был бы тем же, т.е. он бы всплыл. :)

talia:
Согласна, восточные знания пропиарены куда лучше, чем наши исконные.

Вот-вот. Если почитать жития православных святых, то Шао-Линь отдыхает.

Maxoud:
Насчет термина - предлагаю "Nauseo".

Язык сломаешь :)

nickspring:
Думаю, что суть то не в качестве морфологии, а в другом

Зря так думаете. ;)

Dlinnoux:
хто знает что купить в аптеке для уменьшения тошноты :-)

Тег <noindex> 😂

Всего: 24501