Rosso Azzurro

Рейтинг
119
Регистрация
30.03.2009
Lastwarrior #:

Это работает, если траффик маленький, на больших и нагруженных проектах такое не прокатит и будет выливаться в кругленькую сумму, так как помимо оплаты дополнительных ресурсов нужно будет придумывать систему распределения нагрузки по серверам и т.п. Зачем?

У нас кластер из 3-х серверов, 2 эшелона кеширования, но Яндекс оказался сильнее )))
Всем спасибо! Настройка бегунка скорости индексирования была выставлена годы назад и всё было хорошо, но вот под новый год что-то поменялось и нагрузка выросла в 400 раз. На такие шуточки ни один нормальный рабочий сервер не рассчитан. Быстренько встроили прокладку, которая отдает то, что мы считаем нужным (актуальную матрицу товаров) и отстреливает запросы куда не следует (запрет в robots.txt яндексботу не указ, да и не все им удобно описывать). Так нагрузка снизилась до 10-20x и это железка тянет нормально.

Пример рабочих механик которые в конечном итоге ничем не помогают.

При отдаче вторичного контента, JS метрики или фоток, проверяйте наличие кукишей которые создает браузер при открытии страницы вашего сайта. У нас 9 из 10 роботов тырящих контент попадаются на эту примитивную проверку, вы сможете исключить их из Метрики, агрессивно брендировать фотки или вовсе забанить IP. 

Если вам ближе проверки на лету, то считайте частотность. Обычный пользователь открывает N% html и JPG/PNG файлов, M% JS и CSS файлов,  у типового робота N стремится к 100, M - к нулю. Эмпирически установите порог срабатывания, в т.ч. по количеству запросов (чтобы не банить сервисы типа WhatsApp подсасывающие мету по ссылкам) и деклассируйте обращения роботов по вкусу. Несмотря на простоту обхода такой проверки атакующая сторона упорно меняет провайдеров, но не меняет код. То ли используются готовые решения, то ли быстрее сменить одну облачную помойку на другую. Банить надо аккуратно, так как выкачиватели умудряются работать из сетей Google / Яндекс, причем не обязательно из опубликованного списка облачных сетей.

TheVS #:

Сложности нет, просто в этом нет смысла. На двух самых проблемных сайтах блокировка всех зашедших по ссылкам ботов и прямых заходов дала мне -1% роботов по мнению метрики и примерно -10% от общего числа ПФ-ботов по моей субъективной оценке. Заблокированный бот сразу же или через 10-60 секунд приходит на ту же страницу из поиска. Если бы яндекс хоть что-то делал со своей стороны, то проблема была бы решаемой.

Присоединяюсь. Наблюдаем за ботами 2 года, первое время какой-то эффект давала блокировка по ASN отечественных облачных провайдеров, но потом накрутчики ушли на мобильные ботофермы.  Один и тот же IP в пределах дня может быть сначала явным ботом, а потом заказать и выкупить товар и оказаться уже человеком. Блокировка даже на 1 сутки не эффективна, слишком малое время адрес из мобильных пулов находится в пользовании. Кстати, сайт ИМ, Метрики и РСЯ не стояло, тем не менее долбились сетки по несколько тысяч адресов.
Крутили филиал оффлайн магазина на картах, никакого влияния на заказы.
Антоний Казанский #:

Что вы имеете ввиду под "доппинг ПФ халтурный"? Что вы вкладывает в понятие "доппинг" и по каким критериям он халтурный?


Я через Селениум буду из ниоткуда заходить на сайт и тыкать в ссылку в ленту новостей, потихоньку скроллить страницу "читая". Все, сессия завершена. По маршрутам у нас сессий без реферала до 20%, их вроде засчитывают за людей в Метрике, что там у них профилях - бог его знает.  Но я понял, у профи задачи обычно по раскачке с нуля, с нашими они не особо пересекаются.

alaev #:

Палит Яндекс накрутку.

У меня в мыслях вот такой кейс. По GA у нас в неделю 200 тыс. пользователей, 2.5 млн событий.  Раз в неделю есть новый лендинг, обычно новые товары под каким-то соусом. В принципе, пока хватает просто разместить ссылки но новьё на узловых страницах, в подсказках поиска и т.д., но часть страниц не взлетает. Так вот, мне кажется, что в общей массе обычных пользователей доппинг ПФ для новых страниц пройдет даже халтурный, без профилей. Не пробовал кто такой подход?

И да, у нас домен старше чем у гугл и яндекс, возможно ветеранам тоже положены скидки.

Vladimir SEO #:
это что такое ? объяснитесь
Я так обозначил работу Селениумов.
А если, к примеру, разместить ссылку-баннер на первой странице и всё чудесное разнообразие свести к заходу на 1-ю и клику в этом баннер? Часть там будут живые, часть электрические посетители.
А действительно имитировать нужно именно разнообразие? Нельзя просто записать пяток маршрутов по сайту, которые показывает ГА? Ну и UA подставлять из ТОП 100.
123 4
Всего: 36