Конечная цель --- релевантный (соответствующий, информативный, интересный) поиск --- подразумевает понимание смысла запроса, смысла текста и последующий выбор наилучшего документа. Если бы Яндекс научился это делать, то деятельнсть сеошников не могла бы помешать Яндексу. Действительно, чтобы провести сайт в топ, надо было бы написать более релевантную статью, но тогда Яндексу нечего было бы сопротивляться --- вы написали хорошую статью и теперь пользователь более доволен результатами поиска.
Но, эта цель на настоящий момент недостижима. Работники Яндекса вручную, на глаз, определяют наиболее релевантные документы, и определяют набор характеристик, сопутствующий наиболее релевантным из них. И именно этот набор характеристик отслеживается машиной, но он не является доказательством релевантности, а лишь ей сопутствует. Поэтому хитрые сеошнеки, угадав набор параметров, отслеживаемых Яндексом, могут на место релевантного сайта подсунуть что угодно.
Поэтому, я просто уверен, что нет идеального алгоритма, а тем более что он описан в литературе, и Яндекс ему следует и воплощает шаг за шагом.
То что вы пишете --- это если слово "сайт" не выпадает из кворума. Я уверен на 100 процентов что оно там таки выпадает, но почему так мало сайтов --- объяснить не могу. Например сейчас у меня по этому запросу 10 сайтов и ни у одного нет пометки, что он найден столько-то часов назад.
Да, по логике вещей, если слово "сайт" просто выпадает, то запрос (левкипп демокрит анаксимен сайт)~~сайт должен давать столько же результатов сколько и (левкипп демокрит анаксимен)~~сайт, но этого не происходит.
А у кого-то есть убедительные аргументы в пользу того, что траст вообще существует? У одних он векторный, у других --- скалярный. А вам не кажется, что вы просто все что непонятно в работе Яндекса называете "трастом"?
как раз расстояния уже не важны (т. е. сайты с большими расстояниями между словами из запроса не выпадают. Как большие расстояния отражаются на релевантности --- не знаю, но скорее всего плохо)
именно. Запрос означает, что из множества сайтов найденных по запросу
левкипп демокрит анаксимен сайт
надо вычесть те сайты на которых есть слово "сайт" (про ранжирование молчу, так как все операторы, в т ч и "~~" его меняют). Таким образом, среди страниц, найденных по запросу
есть те, которые содержат "левкипп", "демокрит", "анаксимен", но не содержат слово "сайт"
вбейте
(левкипп демокрит анаксимен сайт)~~сайт
2 страницы найдено, значит "сайт" выпадает
Что признавал Яндекс --- мне неизвестно. Могу сказать то что из экспериментов Миныча и ХРНС был очевидно, что есть такой коэффициент. Как его называть --- неважно.
а что такое быстророботовская выдача?
По поводу кворума --- он есть, но срабатывает очень редко, в особенности на "естественных" запросах.
По поводу тошноты. Пусть у нас однословный запрос. Тогда текстовая составляющая релевантности сайта запросу пропорциональна кол-ву вхождений ключевого слова и обратнопропорциональна корню из кол-ва наиболее частотного слова на странице. Корень из кол-ва наиболее частотного слова называют ТОШНОТОЙ (в случае, если наиболее частотное слово встречается менее 7 раз, тошнота равна корню из 7). Таким образом, большой тошнотой обладают или заспамленные ключевыми словами тексты или просто длинные тексты. Все что сказано было справедливо до 2007 года, но тошноту учитывают до сих пор. Как тошнота влияет на выдачу сейчас по крайней мере мне неизвестно