FireCloack v1 SEO клоака на Машинном Обучении.

12
bolyk
На сайте с 16.02.2006
Offline
175
4274

Как работают такого рода скрипты:

Если IP посетителя(бота) есть в базе поисковых(или дргуих) ботов, ему подсовываем нужный контент, а посетителю рекламу.

Проблема таких скриптов:

Если база маленькая, бот увидит рекламу, и вероятно примет меры по пессимизации сайта. По этому, такие базы у хороших дорвейщиков очень большие, а сервисы, которые предоставляют услуги такого типа, очень дорогие.

FireCloack v1 - решает эту проблему немного иначе:

Скрипт обучается на базе известных IP поисковых ботов, и пытается предугадать к какой группе ботов принадлежит IP.

Преимущества такого решения:

При наличии, даже не большой базы ПС, FireCloack v1 попробует предугадать кто скрывается под этим IP, даже если его нет в Базе.

Базы с IP сильно маленькие, например 40к ботов занимает база(модель) в 16 kB файл.

Есть возможность оценить и повлиять на точность определения ботов еще до начала внедрения скрипта в работу, просто обновляю базы и обучая скрипт.

Точность на базе ботов от zTDS:

baidu; Всего IP: 18691; Тестовых IP: 3738; Успешно определенных IP: 3404; Точность определения %: 91

bing; Всего IP: 2802; Тестовых IP: 560; Успешно определенных IP: 383; Точность определения %: 68

google; Всего IP: 5885; Тестовых IP: 1177; Успешно определенных IP: 989; Точность определения %: 84

mail; Всего IP: 486; Тестовых IP: 97; Успешно определенных IP: 58; Точность определения %: 59

yahoo; Всего IP: 2258; Тестовых IP: 451; Успешно определенных IP: 363; Точность определения %: 80

yandex; Всего IP: 3241; Тестовых IP: 648; Успешно определенных IP: 312; Точность определения %: 48

Как проводилось тестирование:

База ботов разделялась 80/20 % , 80 % ip - база для обучения, а 20 % тестовый набор. О тестовых IP скрипт, грубо говоря, не знал и пытался определить к какому подмножеству принадлежит тот или иной адрес.

Системные требования:

php 5.6

Как работать с FireCloack v1:

1) Залейте скрипт куда либо в папку public или куда вам нужно

2) В папку /data/ положите базы IP ботов, где название файла - это названия ПС(или нужное название категории IP), а сами ip - это простой список, где каждый - с новой строки.

3) Введите в адресную строку http://domain.com/test.php , где сможете оценить качество вашей базы, а так же - получить некоторые советы по корректировке скрипта для более точной работы.

4) После того как внесли нужные настройки в config.php, введите в адресную строку http://domain.com/train.php, чтобы обучить скрипт на новых IP.

5) Подключайте скрипт в свой PHP страницу так:

require(__DIR__.'/firecloack.php');

$bot = firecloack();

в $bot - доступны следующие параметры:

$bot->isBot - true или false

$bot->class - название бота, например google

$bot->classes - название всех группа ботов на которых обучен скрипт

$bot->ip - ip Бота.

Полные примеры подключения и использование есть в example.php в корне скрипта.

ПС: Cкрипт находится в тестовом режиме, прошу это учитывать.

ПС: Пробуйте натренировать на своих база ботов, перед тестом, обязательно перемешайте строки в файле с ботам.

Скачать FireCloack v1

Актуальная информация и обновы, если будут

Thunder v3. Дорген (http://ifirestarter.ru/product/10) | MassSiteProxy. Скрипт клонирования сайтов (http://ifirestarter.ru/product/12) | CPAgen CPA дорген (http://ifirestarter.ru/product/14) | (http://fast-index.ru/article)
XPraptor
На сайте с 15.10.2004
Offline
333
#1

Да хватит уже заморачиваться с ботами на ровном месте, нет с ними никаких проблем. Никакой штатный бот не использует MouseUp - всё, больше вам ничего не нужно знать.

Проблема с ботами состоит в том, чтобы наоборот, отловить нужных ботов именно нужной фирмы, а не в том, чтоб отличить бота от человека.

R2
На сайте с 08.07.2015
Offline
31
#2

@bolyk

Can't download, could you share this FireCloack v1 on google drive?

bolyk
На сайте с 16.02.2006
Offline
175
#3
rsheng20:
@bolyk

Can't download, could you share this FireCloack v1 on google drive?

FireCloack on Google Drive

C
На сайте с 22.08.2013
Offline
92
#4
rsheng20:
@bolyk

Can't download, could you share this FireCloack v1 on google drive?

Клоаку от гугла на гугл драйв - самое оно:D

Любые аккаунты под ваши нужды с мгновенной доставкой ( http://buyaccs.ru ) Делаем любые сайты, быстро и качественно https://megagroup.ru/?referer=ag7250
R2
На сайте с 08.07.2015
Offline
31
#5

@bolyk

if I want to add this script on Wordpress, how should I do?

I use below script on my site but alert error

<?php
require (__ DIR __. '/Firecloack.php');
$ bot = firecloack ();
?>

Appreciate your help in advance.

bolyk
На сайте с 16.02.2006
Offline
175
#6
rsheng20:
@bolyk

if I want to add this script on Wordpress, how should I do?
I use below script on my site but alert error



Appreciate your help in advance.

1) Copy folder with firecloack.php into wp-content\themes\YOUR_THEME_NAME folder

2) Add to header.php

<?php
require (__ DIR __. '/FIRECLOACK_FOLDER_NAME/Firecloack.php');
$ bot = firecloack ();
?>

3) In all others files of WP Theme, you can use:


<?php if(!$bot->isBot): ?>
Content only for humans
<?php endif; ?>

or


<?php if($bot->isBot): ?>
Content only for crawlers
<?php endif; ?>
R2
На сайте с 08.07.2015
Offline
31
#7

@bolyk

I want to know if FireCloack can work on php7.2?

follow your guidance, add

<?php
require (__ DIR __. '/fire/firecloack.php');
$ bot = firecloack ();
?>

to the theme header.php file

always alert me

The site is experiencing technical difficulties.
billypelegrini
На сайте с 20.02.2019
Offline
46
#8

курогрудка на масле... а клаака на машобучении. непорядок однако

bolyk
На сайте с 16.02.2006
Offline
175
#9

Приветствую.

Вообщем обновил скрипт:

теперь, он анализирует не только ip но и User Agent.

База ботов IP+User Agent была получена из своих логов, с дорвеев, размером в 1Гб. Больше не хотел брать, ибо предобработка(отсев ботов от пользователей) базы заняла только 6 часов.

По результатам:

baidu; Всего IP+User Agent: 17; Тестовых IP+User Agent: 3; Успешно определенных IP+User Agent: 2; Точность определения %: 66

bing; Всего IP+User Agent: 358; Тестовых IP+User Agent: 71; Успешно определенных IP+User Agent: 70; Точность определения %: 98

bots; Всего IP+User Agent: 953; Тестовых IP+User Agent: 190; Успешно определенных IP+User Agent: 185; Точность определения %: 97

curl; Всего IP+User Agent: 20; Тестовых IP+User Agent: 4; Успешно определенных IP+User Agent: 1; Точность определения %: 25

google; Всего IP+User Agent: 6133; Тестовых IP+User Agent: 1226; Успешно определенных IP+User Agent: 1226; Точность определения %: 100

mail; Всего IP+User Agent: 84; Тестовых IP+User Agent: 16; Успешно определенных IP+User Agent: 15; Точность определения %: 93

yahoo; Всего IP+User Agent: 1155; Тестовых IP+User Agent: 231; Успешно определенных IP+User Agent: 227; Точность определения %: 98

yandex; Всего IP+User Agent: 732; Тестовых IP+User Agent: 146; Успешно определенных IP+User Agent: 145; Точность определения %: 99

Из минусов:

IP типа 127.0.0.1 или 192.168.1.1 определяются как "Бот", любой IP кто пришел с User Agent ПС, определяются как "Бот"

Добавил:

- простой парсер IP+User Agent из стандартных логов Nginx, смотрите папку /parser/

Внимание: Возможен отсев % реальных посетителей, любых подозрительных определяет как "бот".

Внимание: Не тестировать на больший боевых проектах.

Скачать FireCloack v2 Базы в комплекте.

Актуальная информация будет тут

billypelegrini
На сайте с 20.02.2019
Offline
46
#10
XPraptor:
Никакой штатный бот не использует MouseUp - всё, больше вам ничего не нужно знать.

Не совсем ясно какой бот считается "штатным", предположим бот поисковой системы илидругой корпорационный бот, но факт в том что стандартные библиотеки, используемые также и при написании обходных ботов компаний с поддержкой Javascript отлично умеют обрабатывать все события, включая MouseUp, mouseMove и все события которые обрабатывает реальный браузер посколку используют V8 или другуй движек браузера (что намного реже, в основном V8). Реалии в данном вопросе таковы что современными методами можно создать бота, проходщего любую защиту, тем более примитивную на основе детекции событий мыши. Не существует необходимых защит, каптчу оставим отдельным пунктом. На практике сложно обходятся onEvent, где прописан сложный сценарий в ходе выполнения которого перестраивается html-код выводимый рендер-скриптом, когда далее юзер кликает по появившемуся элементу итак длаее, то есть когда форма морфится в ходе экшнов, но также обходится, просто сложнее. Эмулируется всё.

---------- Добавлено 05.10.2019 в 18:57 ----------

bolyk:
Возможен отсев % реальных посетителей, любых подозрительных определяет как "бот".

Ну ты сам ответил на свой вопрос. Как можно отфильтровать бота, который умеет кроме POST и GET запрсов, определяемых в php эмулировать и javascript, то есть дело не в структуре запроса и даже не в их последовательности, поведение которое нужно отделить как поведение бота намного сложнее и не всегда отличимо от поведения пользователя. Я бы оставил эту затею, она глупая, любой крупный сервис оталкивается в своих защитах прежде всего от приоритета удобства для пользователя, никто в коммерческих целях не будет на сервисе усложнять поведение пользовтаеля или тем более дестабилизировать результат действий. Сфера применения ai ml совершнно иная, и это не анализ простых строк, которыми являются записи в логах. Дело даже не в потере пользовтаелей, хотя это потеряные деньги, а в том что ты неверно педставляешь суть задачи и работу современных технологий, используемых при её решении в своерменных проектах, в частности ai ml, то есть какы странно что подобный проект вообще возник, но это не на php в любом случе реализуют и другими методами.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий