выложенная на всеобщее обозрение сильно улучшает поведенческие факторы
Так наверно по всяким многочисленным НЧ его яндекс и показывает.
Скорее всего зависит от времени, так как происходит постепенное накопление данных.
Запросы повторяются. Новые группы запросов появляются куда медленнее, чем ассесоры их обрабатывают. Хотя понятно все никогда не будут обработаны.
Робот может взять как шаблон разметку, объем текста, количество ключей. Например, ассесорам понравилось, что ответ оформлен в таблице. Далее робот ранжирует выше страницы, где есть таблица.
Все равно технический анализ, не смысловой. Значит будут ошибки.
Например: ассесоры высоко оценили сайт, где статья написана для детей и домохозяек, с кучей лишних слов, сравнений с привычными вещами. Потому что они не спецы и статья им понятна. Робот это сжевал и настроился на данный запрос выдавать подобные страницы (много слов, мало ключевиков). Но допустим, этот запрос вводят преимущественно спецы. Для них выдача нерелевантна.
Поэтому степень влияния ассесорной корректировки вряд ли будет большой. ПФ важней.
Какой юлы?---------- Добавлено 06.05.2017 в 16:45 ----------
Вот и я о том же. Баден - не просто алгоритм определения частоты ключей. После он сверяет с другими показателями. Теми же ПФ.
Или наоборот. Сначала отлавливается низкие ПФ, потом идет проверка на баден.
Тут весь смысл в вопросе, в какую сторону двигать. Если яндекс идет в сторону улучшения выдачи за счет придания большего веса показателям ПФ, чем тексту с правильным набором ключей, то надо двигать в сторону ПФ. Если же вся эта начавшаяся белеберда имеет цель поднять яндексу доход, то уже другая история.
Присущ, может это Вам надо пораскинуть мозгами и понять, что если бы удалось создать такой "синтаксический анализатор", то это прям искусственный интеллект. Да что там - сам бог, бог-расист. Определяет, какие фразы допустимы, а какие в топку. Баден не нужен бы был. Пока оценить полезность текста могут только люди. А вот запрограммировать слежку за их поведением легче.
Русский язык таков, что он не английский, когда от перестановки слов смысл меняется, часто и теряется. Признанные авторы на то и признанные, что могут строить разнообразные текстовые конструкции, образы, аналогии, сочетать несочетаемое. Кроме того есть правила технического описания, специфика языка для каждой отрасли. Слишком много переменных.
Если загнать книги, сми и т.п. в базу, то получится, что фразы могут быть какими угодно. Как ни построй фразу, она все равно совпадет с каким-нибудь шаблоном. Тогда надо определять отрасль. Например, робот определяет сайт как литературный, а текст как технический или характерный для магазинов. Несоответствие -> бан.
Что плохого в фразе "купить чайник недорого"?
Здесь fb.ru/article/239059/paskal---eto-yazyik-paskal-dlya-nachinayuschih-opisanie бредовый заголовок, но статья по многим запросам вылазит в первых рядах. И на этом сайте подобной дури дофига.
Не могу представить представить себе алгоритм, который может отличить спамную конструкцию от смысловой при равном количестве ключей и соблюдении элементарных правил русского языка в обоих случаях. Тут можно оценить только косвенно, по поведенческим факторам. Читает человек или нет. Если пропускает, то почему? Далее алгоритм проверяет количество ключей. Если много, делает вывод о переспаме.
По моему для информационных сайтов это нереально. Например, статья "Рибонуклеиновая кислота". На такой запрос берет из description, на запросы типа "Химическое строение РНК" или "Типы РНК", "функции рРНК" будет брать из текста. Пилить статью на отдельные страницы "строение" и "функции" не целесообразно, можно потерять по основному запросу. Есть совсем низкочастотные запросы, на которые ответ только в каком-нибудь абзаце. Его яндекс и берет.
А есть смысл, если он меняется в зависимости от запроса? В дескрипшине прописать, то что надо для основного запроса.
Сразу открываешь несколько сайтов, мельком просматриваешь страницы, выбираешь тот, что больше подходит.