- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы
Для интернет-магазина инженерных систем
Мария Лосева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Как работают такого рода скрипты:
Если IP посетителя(бота) есть в базе поисковых(или дргуих) ботов, ему подсовываем нужный контент, а посетителю рекламу.
Проблема таких скриптов:
Если база маленькая, бот увидит рекламу, и вероятно примет меры по пессимизации сайта. По этому, такие базы у хороших дорвейщиков очень большие, а сервисы, которые предоставляют услуги такого типа, очень дорогие.
FireCloack v1 - решает эту проблему немного иначе:
Скрипт обучается на базе известных IP поисковых ботов, и пытается предугадать к какой группе ботов принадлежит IP.
Преимущества такого решения:
При наличии, даже не большой базы ПС, FireCloack v1 попробует предугадать кто скрывается под этим IP, даже если его нет в Базе.
Базы с IP сильно маленькие, например 40к ботов занимает база(модель) в 16 kB файл.
Есть возможность оценить и повлиять на точность определения ботов еще до начала внедрения скрипта в работу, просто обновляю базы и обучая скрипт.
Точность на базе ботов от zTDS:
baidu; Всего IP: 18691; Тестовых IP: 3738; Успешно определенных IP: 3404; Точность определения %: 91
bing; Всего IP: 2802; Тестовых IP: 560; Успешно определенных IP: 383; Точность определения %: 68
google; Всего IP: 5885; Тестовых IP: 1177; Успешно определенных IP: 989; Точность определения %: 84
mail; Всего IP: 486; Тестовых IP: 97; Успешно определенных IP: 58; Точность определения %: 59
yahoo; Всего IP: 2258; Тестовых IP: 451; Успешно определенных IP: 363; Точность определения %: 80
yandex; Всего IP: 3241; Тестовых IP: 648; Успешно определенных IP: 312; Точность определения %: 48
Как проводилось тестирование:
База ботов разделялась 80/20 % , 80 % ip - база для обучения, а 20 % тестовый набор. О тестовых IP скрипт, грубо говоря, не знал и пытался определить к какому подмножеству принадлежит тот или иной адрес.
Системные требования:
php 5.6
Как работать с FireCloack v1:
1) Залейте скрипт куда либо в папку public или куда вам нужно
2) В папку /data/ положите базы IP ботов, где название файла - это названия ПС(или нужное название категории IP), а сами ip - это простой список, где каждый - с новой строки.
3) Введите в адресную строку http://domain.com/test.php , где сможете оценить качество вашей базы, а так же - получить некоторые советы по корректировке скрипта для более точной работы.
4) После того как внесли нужные настройки в config.php, введите в адресную строку http://domain.com/train.php, чтобы обучить скрипт на новых IP.
5) Подключайте скрипт в свой PHP страницу так:
require(__DIR__.'/firecloack.php');
$bot = firecloack();
в $bot - доступны следующие параметры:
$bot->isBot - true или false
$bot->class - название бота, например google
$bot->classes - название всех группа ботов на которых обучен скрипт
$bot->ip - ip Бота.
Полные примеры подключения и использование есть в example.php в корне скрипта.
ПС: Cкрипт находится в тестовом режиме, прошу это учитывать.
ПС: Пробуйте натренировать на своих база ботов, перед тестом, обязательно перемешайте строки в файле с ботам.
Скачать FireCloack v1
Актуальная информация и обновы, если будут
Да хватит уже заморачиваться с ботами на ровном месте, нет с ними никаких проблем. Никакой штатный бот не использует MouseUp - всё, больше вам ничего не нужно знать.
Проблема с ботами состоит в том, чтобы наоборот, отловить нужных ботов именно нужной фирмы, а не в том, чтоб отличить бота от человека.
@bolyk
Can't download, could you share this FireCloack v1 on google drive?
@bolyk
Can't download, could you share this FireCloack v1 on google drive?
FireCloack on Google Drive
@bolyk
Can't download, could you share this FireCloack v1 on google drive?
Клоаку от гугла на гугл драйв - самое оно:D
@bolyk
if I want to add this script on Wordpress, how should I do?
I use below script on my site but alert error
require (__ DIR __. '/Firecloack.php');
$ bot = firecloack ();
?>
Appreciate your help in advance.
@bolyk
if I want to add this script on Wordpress, how should I do?
I use below script on my site but alert error
Appreciate your help in advance.
1) Copy folder with firecloack.php into wp-content\themes\YOUR_THEME_NAME folder
2) Add to header.php
3) In all others files of WP Theme, you can use:
or
@bolyk
I want to know if FireCloack can work on php7.2?
follow your guidance, add
require (__ DIR __. '/fire/firecloack.php');
$ bot = firecloack ();
?>
to the theme header.php file
always alert me
курогрудка на масле... а клаака на машобучении. непорядок однако
Приветствую.
Вообщем обновил скрипт:
теперь, он анализирует не только ip но и User Agent.
База ботов IP+User Agent была получена из своих логов, с дорвеев, размером в 1Гб. Больше не хотел брать, ибо предобработка(отсев ботов от пользователей) базы заняла только 6 часов.
По результатам:
baidu; Всего IP+User Agent: 17; Тестовых IP+User Agent: 3; Успешно определенных IP+User Agent: 2; Точность определения %: 66
bing; Всего IP+User Agent: 358; Тестовых IP+User Agent: 71; Успешно определенных IP+User Agent: 70; Точность определения %: 98
bots; Всего IP+User Agent: 953; Тестовых IP+User Agent: 190; Успешно определенных IP+User Agent: 185; Точность определения %: 97
curl; Всего IP+User Agent: 20; Тестовых IP+User Agent: 4; Успешно определенных IP+User Agent: 1; Точность определения %: 25
google; Всего IP+User Agent: 6133; Тестовых IP+User Agent: 1226; Успешно определенных IP+User Agent: 1226; Точность определения %: 100
mail; Всего IP+User Agent: 84; Тестовых IP+User Agent: 16; Успешно определенных IP+User Agent: 15; Точность определения %: 93
yahoo; Всего IP+User Agent: 1155; Тестовых IP+User Agent: 231; Успешно определенных IP+User Agent: 227; Точность определения %: 98
yandex; Всего IP+User Agent: 732; Тестовых IP+User Agent: 146; Успешно определенных IP+User Agent: 145; Точность определения %: 99
Из минусов:
IP типа 127.0.0.1 или 192.168.1.1 определяются как "Бот", любой IP кто пришел с User Agent ПС, определяются как "Бот"
Добавил:
- простой парсер IP+User Agent из стандартных логов Nginx, смотрите папку /parser/
Внимание: Возможен отсев % реальных посетителей, любых подозрительных определяет как "бот".
Внимание: Не тестировать на больший боевых проектах.
Скачать FireCloack v2 Базы в комплекте.
Актуальная информация будет тут
Никакой штатный бот не использует MouseUp - всё, больше вам ничего не нужно знать.
Не совсем ясно какой бот считается "штатным", предположим бот поисковой системы илидругой корпорационный бот, но факт в том что стандартные библиотеки, используемые также и при написании обходных ботов компаний с поддержкой Javascript отлично умеют обрабатывать все события, включая MouseUp, mouseMove и все события которые обрабатывает реальный браузер посколку используют V8 или другуй движек браузера (что намного реже, в основном V8). Реалии в данном вопросе таковы что современными методами можно создать бота, проходщего любую защиту, тем более примитивную на основе детекции событий мыши. Не существует необходимых защит, каптчу оставим отдельным пунктом. На практике сложно обходятся onEvent, где прописан сложный сценарий в ходе выполнения которого перестраивается html-код выводимый рендер-скриптом, когда далее юзер кликает по появившемуся элементу итак длаее, то есть когда форма морфится в ходе экшнов, но также обходится, просто сложнее. Эмулируется всё.
---------- Добавлено 05.10.2019 в 18:57 ----------
Возможен отсев % реальных посетителей, любых подозрительных определяет как "бот".
Ну ты сам ответил на свой вопрос. Как можно отфильтровать бота, который умеет кроме POST и GET запрсов, определяемых в php эмулировать и javascript, то есть дело не в структуре запроса и даже не в их последовательности, поведение которое нужно отделить как поведение бота намного сложнее и не всегда отличимо от поведения пользователя. Я бы оставил эту затею, она глупая, любой крупный сервис оталкивается в своих защитах прежде всего от приоритета удобства для пользователя, никто в коммерческих целях не будет на сервисе усложнять поведение пользовтаеля или тем более дестабилизировать результат действий. Сфера применения ai ml совершнно иная, и это не анализ простых строк, которыми являются записи в логах. Дело даже не в потере пользовтаелей, хотя это потеряные деньги, а в том что ты неверно педставляешь суть задачи и работу современных технологий, используемых при её решении в своерменных проектах, в частности ai ml, то есть какы странно что подобный проект вообще возник, но это не на php в любом случе реализуют и другими методами.