И поэтому Толока?
Ну Толока используется не для прямого воздействия на выдачу или конкретный сайт. Толока используется для разметки данных (т.е. подготовке размеченных данных с оценками качества) для последующего обучения алгоритма. После выгрузки оценок толокеров в "комбайн с машинным обучением" система сама находит общие закономерности и расставляет коэффициенты факторам ранжирования (их, вроде, около 1500). Если тестовая выдача с новым алгоритмом\фильтром по их метрикам улучшилась, то ей раскатывают на весь интернет.
Качество алгоритмов тестируется, конечно, но случаи ложного срабатывания после первого запуска весьма вероятны. Что мы в этой ветке и наблюдаем. Да и опросник в панели появился неспроста. Нативно просят помочь с разметкой данных:)
Зачем допиливать? Проще всех подозрительных фильтровать, а потом модерировать руками тех, кто не согласен. Те, за кем явный грешок, за перемодерацией не обратятся.
Это титанический труд уже сейчас (и потом еще в перспективе и фильтр же не один, их десятки видов) и Яндекс всегда придерживался автоматизации процессов. Тем более, их технологичная поисковая платформа на базе машинного обучения позволяет автоматизировать эти процессы. Нужно лишь больше размеченных данных для обучения алгоритмов, а именно примеры ложного срабатывания и примеры корректного. Их задача - повысить точность срабатывания алгоритма и высвободить человекоресурсы.
А чего они вдруг сейчас озаботились? Под волну фильтров прошлой недели попали не только мимикрия, также даунлойд и малополезный контент, где нарушения авторских прав нередкость.
Ну вот добрались и до этой проблемы. Видимо, масштабы такого сайтостроительства и количество жалоб привесило допустимый порог. Проблеме и придали значимость.
Честно говоря, не особо верю, что основная причина введения фильтра это появление новых требований маркировки рекламы. Мотивы мне видятся другими и приоритетным является именно удачный\неудачный "пользовательский опыт" + безопасность данных. Сайт, которые маскируется под "официальный" или якобы "около официальный" может скрыто собирать данные пользователя и потом использовать их в своих корыстных целях, даже для продажи. Пример неудачного пользовательского опыта приведу ниже.
И всегда надо помнить про основную метрику качества поиска - pfound. На ней все завязано. Эта метрика используется в Яндексе для оценки качества поиска и хорошо себя зарекомендовала (по словам Яндексойдов). Эта метрика прогнозирует удовлетворенность пользователя результатами поиска. Логика такая: чем меньше " маскирующихся сайтов" в выдаче, тем выше вероятность удовлетворенностью выдачи и лучше пользовательский опыт, пользователь рад пользоваться поисковиком и дальше. Метрика pfound- растет, Волож доволен.
Кейс неудачного пользовательского опыта (фильтр понижает вероятность таких инцидентов):https://vc.ru/claim/87727-seo-spam-mimikriya-pod-gosudarstvennye-sayty-i-lichnyy-opyt
Сайт посвящен одному известному бренду. Из-за этого фильтр и сработал, но анализ сайта был поверхностным, на самом деле мимикрии там нет. Фирменные цвета и элементы дизайна сайта бренда не используются, есть только похожие цвета, переходов на официальный сайт немного. От снятия ограничений пятый день уже ничего не меняется, просто в Вебмастере исчезла эта проблема.
Понял. Благодарю за комментарии.
Скорее всего, на вашем примере и на примерах других ложных срабатываний они будут донастраивать "чувствительность алгоритма" и на обучение алгоритма нужно будет время (думаю, это до месяца). Они не заинтересованны вручную снимать фильтр для каждого сайта, это не их подходы и для обучения алгоритма им нужно больше примеров ложного срабатывания. Чем они сейчас и занимаются - готовят выборку для своего "комбайна".
Нажал кнопку в Вебмастере и написал сообщение в поддержку о том, что на сайте нет мимикрии.
Интересно найти какие-то общие признаки для срабатывания фильтра. Подскажите, ваш сайт действительно посвящен какому либо известному бренду? Есть ли какие-то мысли почему мог фильтр сработать в вашем случае? Без конкретики, конечно, и упоминаний сайта\бренда, общими словами.
Сейчас для меня понятно, что фильтр может сработать если использовать в оформлении фирменные цвета чужого бренда (включая сквозной логотип похожий на официальный). В дополнение к вышесказанным признакам: при условии, что сайт информационный + с него много переходов на оф.сайт - при этой совокупности факторов, фильтр может сработать
По поводу работы кнопки "Я все исправил" и её активности сразу же после обновления страницы. Саппорт ответил так:
"если вы уже нажали кнопку «Я всё исправил», то повторно её нажимать не надо. Наши алгоритмы уже получили ваш сигнал об исправлении. Активность кнопки не отражает ход перепроверки сайта алгоритмами. Алгоритм отследит внесенные изменения и ограничение уйдет в течение месяца после устранения недостатков. "
Получается через ноуфолоу семантика передается? Весьма любопытно если так
А вреда не будет от таких ссылок? или в худшем случае тупо проигнорируются да и все?
Вес относительно большой
основной запрос 28,04%
основной запрос + бренд 25,03%
основной запрос + другой бренд 8,45%