Xameleon

Xameleon
Рейтинг
29
Регистрация
19.12.2021
Hitechrem #:
Помню когда появились 1000 заходов в день с хостинга/облака битерики , яндекс 70% считал их за людей. 

Интересует вопрос, сейчас яндекс научился определять что если визит с хостинга/облака и значит это бот? 

Роботность в метрике полезна только опытному и понимающему человеку. В некоторых случаях  роботность ещё больше вводит в заблуждение того, что не имеет достаточного опыта в этом вопросе.

Яндекс метрика также как и в 2021 году, также и по сей день не умеет на 100% корректно и точно определять роботность трафика.

На некоторых сайтах в некоторых случаях метрика определяет роботность трафика на 95-98% точно, на других сайтах метрика определяет роботность на 80% точно, на третьих сайтах метрика определяет роботность трафика только лишь на 50 %.   Имеет место технологический рандом если смотреть общую картину на сотнях разных сайтов.

Некоторых поведенческих ботов метрика может определять точно что это роботы, некоторых только от части. Некоторые визиты реальных людей метрика ошибочно определяет как роботов, а некоторых пф ботов ошибочно определяет как реальных людей. На разных сайтах процентное соотношение точности опредения роботности трафика отличается и может быть совершенно разным.

Некоторые бото фермеры крутят пф роботный трафик на сайты, который метрика определяет на 90-95% как реальных людей, а только лишь  5-10% как роботный.

У некоторых бото фермеров показатели роботности по метрике наоборот очень высокие.

Определение роботности в метрике строится на множестве различных факторов, которые не будут документироваться для всеобщих масс по понятным причинам.

Если бы роботность метрики определялась только по одному параметру, такому как тип источника входа (ВПН это или не ВПН, хостинг/ облако это или адресный пул общего пользования интернет-провайдера), то тогда бы был полный хаос в аналитике. 

Для определения роботности трафика в метрике используется комплексный подход, который не гарантирует полную достоверность определяемых результатов. Это и цифровые отпечатки Fingerprint / Footprint и поведенческие факторы визитов и другие.

isy.m #:
Кто-то знает где найти все ip Вконтакте, одноклассников, mail ru, telegram, whatsapp, viber, twitter?

Прикладываю в текстовом файле список всех IP Вконтакте, одноклассников, mail ru, telegram, whatsapp, viber, twitter .

Нужно понимать, что при таком подходе нужно регулярно и постоянно обновлять данный список IP, так как они меняются с течением времени.

В этой связи подход фильтрации трафика по ASN является более правильным.

txt ips.txt

Тем не менее, в теории правило htaccess автора темы по идее должно блокировать поддельных гугл ботов и пропускать реальных, но на практике есть подводные камни и необходимые для работы этого правила технические условия в плане конфигурации имеющегося вебсервера.

На некоторых серверах правило может действительно работать, а на некоторых может не работать, потому как для его работы нужно чтобы на сервере был настроен HostnameLookups.

Проверить наличие активного HostnameLookups на вашем вебсервере можно следующим образом : 

Нужно создать PHP файл с таким кодом и разместить его в корне вашего сайта:

<?php echo gethostbyaddr($_SERVER['REMOTE_ADDR']); ?>

Затем перейти по URL к этому файлу через браузер.

Если в браузере на странице вы увидете доменное имя, значит на вашем сервере HostnameLookups включен.

Если вы увидете IP адрес, значит HostnameLookups выключен и это правило у вас не будет работать.

Как бы то ни было, пытаться делать фильтрацию трафика на сайте через HTACCESS это дно днищенское и в большинстве случаев приведёт к неудачам.

Это не пиар, а правда жизни 😊

Kalgan #:

Сотни тысяч запросов приходится на Googlebot. Пока что прописал такой запрет: 

# Fake Google, Bing, Msn, Slurp

RewriteCond %{HTTP_USER_AGENT} (Googlebot|bingbot|msnbot|Slurp|BingPreview) [NC]

RewriteCond %{REMOTE_HOST} !(google(bot)?\.com|search\.msn\.com|crawl\.yahoo\.net)$ [NC]

RewriteRule .* - [R=403,L]

Это помогло снизить нагрузку и отсечь ботов, но насколько понимаю закрыло доступ и нормальным паукам от Гугла. 

Есть решение как отсечь фейковых ботов "Гугла" и разрешить обход страниц для реальных?

Ваше правило которое вы прописали в HTACCESS это и есть метод блокировки всех запросов с поддельным User Agent от Google ботов. По этому правилу ваш сервер выполняет обратный DNS-запрос (reverse DNS lookup) по IP-адресу, с которого пришел запрос, чтобы определить его имя хоста (REMOTE_HOST). Условие проверяет, что имя хоста не (!) заканчивается на google.comgooglebot.comsearch.msn.com или crawl.yahoo.net

При выполнении всех условий для этого метода ваше правило уже должно проверять и User Agent и соответствие хоста настоящему Google боту и не должно блокировать реальных гугл ботов.  Реальный список юзерагентов для гугл ботов должен быть больше чем в этом правиле.

Теоретически этот подход должен полностью блокировать весь поддельный трафик от псевдо гугл ботов, но практически у него есть поводные камни связанные с работой DNS-резолвера , возможной блокировкой реальных гугл ботов и снижением производительности обработки запросов.

После поддельных гугл ботов на вас могут посыпятся другие варианты вредоносного трафика с более сложными условиями, которые подход через htaccess вообще не в состоянии будет решить.

Попытки решать проблемы фильтрации трафика через HTACCESS это крайне слабый по возможностям и качеству архаизм, который не решает сегодняшние вызовы. 

Более качественным и эффективным подходом к решению вашей проблемы будет проксирование трафика вашего сайта через специализированный Waf сервер, который будет делать нужную для вашей проблемы фильтрацию трафика другими более точными, надёжными и быстрыми методами.

Delysid #:

Вот в этой съеме: "Схема такая : все лиды, которые льются с Яндекс директа на Яндекс почту, которая привязана к заявкам на сайте в автоматическом режиме сливаются куда-то на сторону." - Чьими вы услугами пользуетесь, что за скрипты у вас стоят и от кого? Скрипты все от счётчиков до чатов.. 😀

Хотя не надо..

Мои выводы:

1. Не позаботились о защите персональных данных.

2. Пишите открыто данные в файлик, конкуренты через поддомены не защищённые и не закрытые заходят и скачивают данные. 😁

Пожалуйста, выпейте успокоительные. Я пришёл на форум не для того, чтобы меряться половыми органами, тем более с персонажами, которые здесь находятся только с целью оскорблять и высмеивать всех подряд и всех вокруг.

У меня нет мании величия, нет желания переводить это всё в перепалку и переходить на личности.

Мне интересно конструктивное обсуждение без создания ненужных понтов, ненависти и злобы.

Для особо одарённых:

В моей практике есть неоднократные случаи когда на сайте нет ничего кроме формы заявок , через которую посетители оставляют заказ на покупку продукта / услуги. В заявке посетители указывают свой номер для контакта. Формы с заявками отправляются на ящик доменной почты Яндекс 360. Все номера, которые приходят на эту почту автоматически сливаются в постоянном режиме на сторону конкруентами. Никаких скриптов и никаких файликов. Никто ничего не пишет ни в какие файлики. Как только от заявок яндекс почта отключается и подключается доменная почта нормального хостинга, например, Beget, Timeweb, слив сразу прекращается. Что говорит о 100% сливе номеров на уровне почты Яндекс. Я не эксперт в области Big Data и прочего. Я не знаю куда Яндекс подключен для какого слива данных и что считается нормальным, но по моей логике это не что иное как кража коммерческих данных и я лично не считаю её нормальной и честной. 

Хиханьки, хаханьки и детский сад не интересны. 

Хотелось бы услышать мнение и опыт тех, кто понимает о чём речь.

alaev #:
ТС, операторы сотовой связи активно продают обезличенные контакты тех, кто звонил конкурентам. Например.
Метрику с сайта и сторонние скрипты лучше выпиливать.

Вы пока что единственный человек, который понял о чём я говорю и который в теме вопроса.

Торговля номерами лидов на уровне мобильных операторов тоже имеет место.

На мой взгляд это незаконно, но если мобильне операторы продают обезличенные данные, то таким образом они формально легализуют свою деятельность получается.  Я правильно понимаю?

Vladimir #:

У вас коммерция, у вас собственный домен и вы настолько ленивы, что не можете настроить почту на свой домен?
У вас CRM и вы ставите ее на сайт как есть? 
Ну и тд по всему вашему списку

У вас слив данных на первом уровне - на уровне лени.


Вы не поняли мой пост. 

Я говорю не об одном сайте, а о множестве разных сайтов с разными вариантами работы. Речь не о моём личном сайте, а вообще обо всех.

Слив лидов через почту это один из вариантов, который встречается.

Кроме того, сейчас часто встречается слив лидов на сайтах, где нет ни скриптов, ни CRM ни почты, ни форм с заявками.  Заходят посетители на сайт сегодня, а завтра конкурент уже знает номера тех, кто заходил на сайт его конкурента.

Или посетители заходят на сайт, на котором нет ничего кроме указанного номера для заявок. Звонят по этому номеру сегодня, а завтра их конкурент / конкуренты уже знают номера посетителей, которые звонили их конкуренту.

dmitriy.z :
Всем привет! 

Может кто подсказать, что за трафик такой идёт, и сталкивался ли кто-то с похожем?
Кто сможет поделиться советами и рекомендациями, что с этим трафиком делать, как "излечиться" от него?

Есть два проекта, на двух одинаковая картина: идёт трафик с неизвестного источника (метрика не определяет), с браузера Сафари, который тоже не определяется. 

По этому трафику:
– высокий отказ, больше 90%
– трафик идёт только на одну конкретную страницу — главная
– спустя пару месяцев этот трафик держит свою динамику и появился только в этом году (раньше его не было)

Сейчас ощущаем, что из-за этого подозрительного трафика наши позиции начинают проседать. Видим непонятный спад "полезного" трафика.

Поддержка Яндекса говорит это нормальное явление и такой трафик ни на что не повлияет. Но нам в это слабо вериться.


В первую очередь сделайте фильтр роботного трафика в общей сводке метрики чтобы не гадать на картах, а объективно увидеть роботный трафик.

В некоторых случаях даже если метрика не определяет роботный трафик, пф боты могут быть на сайте. Поэтому в идеале нужно оценивать качество трафика по комплексу факторов.

Это позволит вам увидеть только роботный трафик.

Визиты, в которых +  Поведение - Роботность - Только роботы.

Если роботный трафик будет полностью коррелироваться с визитами с MObile Safari, значит ваши опасения и предположения верны и у вас на сайте работают поведенческие боты.

Последствия это пессимизация позиций SEO сайта и в долгосрочной перспективе может быть полная потеря позиций SEO органики.

Рекомендации : делать фильтрацию трафика на постоянной основе так, чтобы трафик сайта был полностью чистым, без роботного трафика и с реальными поведенческими факторами от реальных живых людей.

Убаюкивания Яндекса всегда одни и те же : " Будьте абсолютно спокойны! Всё в полном порядке. Ваш сайт в абсолютной безопасности. Ваше SEO идёт в гору! Наш алгоритм Яндекс самый лучший и самый великий, вам ничего не угрожает."

В реальности ситуация как вот в этом ролике Гарика Харламова : "Всё хорошо, всё в абсолютной безопасности, никакой паники нет. "

jpg vg46c6_budfxze21s.jpg
12
Всего: 18