Вернуться   Форум об интернет-маркетинге > >
Ответ
 
Опции темы
Старый 14.09.2019, 12:27   #1
Профессор
 
Аватар для bolyk
 
Регистрация: 16.02.2006
Сообщений: 875
Репутация: 103522
Отправить сообщение для bolyk с помощью ICQ

По умолчанию FireCloack v1 SEO клоака на Машинном Обучении.

Как работают такого рода скрипты:
Если IP посетителя(бота) есть в базе поисковых(или дргуих) ботов, ему подсовываем нужный контент, а посетителю рекламу.

Проблема таких скриптов:
Если база маленькая, бот увидит рекламу, и вероятно примет меры по пессимизации сайта. По этому, такие базы у хороших дорвейщиков очень большие, а сервисы, которые предоставляют услуги такого типа, очень дорогие.


FireCloack v1 - решает эту проблему немного иначе:
Скрипт обучается на базе известных IP поисковых ботов, и пытается предугадать к какой группе ботов принадлежит IP.

Преимущества такого решения:
При наличии, даже не большой базы ПС, FireCloack v1 попробует предугадать кто скрывается под этим IP, даже если его нет в Базе.
Базы с IP сильно маленькие, например 40к ботов занимает база(модель) в 16 kB файл.
Есть возможность оценить и повлиять на точность определения ботов еще до начала внедрения скрипта в работу, просто обновляю базы и обучая скрипт.


Точность на базе ботов от zTDS:
baidu; Всего IP: 18691; Тестовых IP: 3738; Успешно определенных IP: 3404; Точность определения %: 91
bing; Всего IP: 2802; Тестовых IP: 560; Успешно определенных IP: 383; Точность определения %: 68
google; Всего IP: 5885; Тестовых IP: 1177; Успешно определенных IP: 989; Точность определения %: 84
mail; Всего IP: 486; Тестовых IP: 97; Успешно определенных IP: 58; Точность определения %: 59
yahoo; Всего IP: 2258; Тестовых IP: 451; Успешно определенных IP: 363; Точность определения %: 80
yandex; Всего IP: 3241; Тестовых IP: 648; Успешно определенных IP: 312; Точность определения %: 48


Как проводилось тестирование:
База ботов разделялась 80/20 % , 80 % ip - база для обучения, а 20 % тестовый набор. О тестовых IP скрипт, грубо говоря, не знал и пытался определить к какому подмножеству принадлежит тот или иной адрес.


Системные требования:
php 5.6

Как работать с FireCloack v1:
1) Залейте скрипт куда либо в папку public или куда вам нужно
2) В папку /data/ положите базы IP ботов, где название файла - это названия ПС(или нужное название категории IP), а сами ip - это простой список, где каждый - с новой строки.
3) Введите в адресную строку http://domain.com/test.php , где сможете оценить качество вашей базы, а так же - получить некоторые советы по корректировке скрипта для более точной работы.
4) После того как внесли нужные настройки в config.php, введите в адресную строку http://domain.com/train.php, чтобы обучить скрипт на новых IP.
5) Подключайте скрипт в свой PHP страницу так:

require(__DIR__.'/firecloack.php');

$bot = firecloack();

в $bot - доступны следующие параметры:

$bot->isBot - true или false
$bot->class - название бота, например google
$bot->classes - название всех группа ботов на которых обучен скрипт
$bot->ip - ip Бота.

Полные примеры подключения и использование есть в example.php в корне скрипта.

ПС: Cкрипт находится в тестовом режиме, прошу это учитывать.
ПС: Пробуйте натренировать на своих база ботов, перед тестом, обязательно перемешайте строки в файле с ботам.

Скачать FireCloack v1
Актуальная информация и обновы, если будут
bolyk вне форума   Ответить с цитированием
Сказали спасибо 7 пользователей:

Реклама
Старый 16.09.2019, 10:53   #2
XPraptor
WebMonster
 
Аватар для XPraptor
 
Регистрация: 15.10.2004
Адрес: Minsk
Сообщений: 3,177
Репутация: 242623

По умолчанию Re: FireCloack v1 SEO клоака на Машинном Обучении.

Да хватит уже заморачиваться с ботами на ровном месте, нет с ними никаких проблем. Никакой штатный бот не использует MouseUp - всё, больше вам ничего не нужно знать.

Проблема с ботами состоит в том, чтобы наоборот, отловить нужных ботов именно нужной фирмы, а не в том, чтоб отличить бота от человека.
XPraptor вне форума   Ответить с цитированием
Сказали спасибо 3 пользователей:
Старый 17.09.2019, 17:51   #3
rsheng20
Студент
 
Регистрация: 08.07.2015
Сообщений: 10
Репутация: 10

По умолчанию Re: FireCloack v1 SEO клоака на Машинном Обучении.

@bolyk

Can't download, could you share this FireCloack v1 on google drive?
rsheng20 вне форума   Ответить с цитированием
Старый 17.09.2019, 20:53   #4
bolyk
Профессор
 
Аватар для bolyk
 
Регистрация: 16.02.2006
Сообщений: 875
Репутация: 103522
Отправить сообщение для bolyk с помощью ICQ

ТопикСтартер Re: FireCloack v1 SEO клоака на Машинном Обучении.

Цитата:
Сообщение от rsheng20 Посмотреть сообщение
@bolyk

Can't download, could you share this FireCloack v1 on google drive?
FireCloack on Google Drive
bolyk вне форума   Ответить с цитированием
Старый 17.09.2019, 21:14   #5
CPAinfo
Профессор
 
Регистрация: 22.08.2013
Сообщений: 528
Репутация: 24947

По умолчанию Re: FireCloack v1 SEO клоака на Машинном Обучении.

Цитата:
Сообщение от rsheng20 Посмотреть сообщение
@bolyk

Can't download, could you share this FireCloack v1 on google drive?
Клоаку от гугла на гугл драйв - самое оно
CPAinfo вне форума   Ответить с цитированием
Сказали спасибо 4 пользователей:
Старый 18.09.2019, 07:00   #6
rsheng20
Студент
 
Регистрация: 08.07.2015
Сообщений: 10
Репутация: 10

По умолчанию Re: FireCloack v1 SEO клоака на Машинном Обучении.

@bolyk

if I want to add this script on Wordpress, how should I do?
I use below script on my site but alert error

Цитата:
<?php
require (__ DIR __. '/Firecloack.php');
$ bot = firecloack ();
?>
Appreciate your help in advance.
rsheng20 вне форума   Ответить с цитированием
Старый 18.09.2019, 09:04   #7
bolyk
Профессор
 
Аватар для bolyk
 
Регистрация: 16.02.2006
Сообщений: 875
Репутация: 103522
Отправить сообщение для bolyk с помощью ICQ

ТопикСтартер Re: FireCloack v1 SEO клоака на Машинном Обучении.

Цитата:
Сообщение от rsheng20 Посмотреть сообщение
@bolyk

if I want to add this script on Wordpress, how should I do?
I use below script on my site but alert error



Appreciate your help in advance.
1) Copy folder with firecloack.php into wp-content\themes\YOUR_THEME_NAME folder
2) Add to header.php
PHP код:
<?php
require (__ DIR __'/FIRECLOACK_FOLDER_NAME/Firecloack.php');
bot firecloack ();
?>
3) In all others files of WP Theme, you can use:
PHP код:
<?php if(!$bot->isBot): ?>
Content only for humans
<?php endif; ?>
or
PHP код:
<?php if($bot->isBot): ?>
Content only for crawlers
<?php endif; ?>
bolyk вне форума   Ответить с цитированием
Старый 18.09.2019, 10:47   #8
rsheng20
Студент
 
Регистрация: 08.07.2015
Сообщений: 10
Репутация: 10

По умолчанию Re: FireCloack v1 SEO клоака на Машинном Обучении.

@bolyk

I want to know if FireCloack can work on php7.2?

follow your guidance, add
Цитата:
<?php
require (__ DIR __. '/fire/firecloack.php');
$ bot = firecloack ();
?>
to the theme header.php file

always alert me

Цитата:
The site is experiencing technical difficulties.
rsheng20 вне форума   Ответить с цитированием
Старый 20.09.2019, 00:46   #9
billypelegrini
Временно отключен
 
Регистрация: 20.02.2019
Сообщений: 115
Репутация: -34992

По умолчанию Re: FireCloack v1 SEO клоака на Машинном Обучении.

курогрудка на масле... а клаака на машобучении. непорядок однако
billypelegrini вне форума   Ответить с цитированием
Старый 03.10.2019, 11:45   #10
bolyk
Профессор
 
Аватар для bolyk
 
Регистрация: 16.02.2006
Сообщений: 875
Репутация: 103522
Отправить сообщение для bolyk с помощью ICQ

ТопикСтартер Re: FireCloack v1 SEO клоака на Машинном Обучении.

Приветствую.
Вообщем обновил скрипт:
теперь, он анализирует не только ip но и User Agent.
База ботов IP+User Agent была получена из своих логов, с дорвеев, размером в 1Гб. Больше не хотел брать, ибо предобработка(отсев ботов от пользователей) базы заняла только 6 часов.

По результатам:
baidu; Всего IP+User Agent: 17; Тестовых IP+User Agent: 3; Успешно определенных IP+User Agent: 2; Точность определения %: 66
bing; Всего IP+User Agent: 358; Тестовых IP+User Agent: 71; Успешно определенных IP+User Agent: 70; Точность определения %: 98
bots; Всего IP+User Agent: 953; Тестовых IP+User Agent: 190; Успешно определенных IP+User Agent: 185; Точность определения %: 97
curl; Всего IP+User Agent: 20; Тестовых IP+User Agent: 4; Успешно определенных IP+User Agent: 1; Точность определения %: 25
google; Всего IP+User Agent: 6133; Тестовых IP+User Agent: 1226; Успешно определенных IP+User Agent: 1226; Точность определения %: 100
mail; Всего IP+User Agent: 84; Тестовых IP+User Agent: 16; Успешно определенных IP+User Agent: 15; Точность определения %: 93
yahoo; Всего IP+User Agent: 1155; Тестовых IP+User Agent: 231; Успешно определенных IP+User Agent: 227; Точность определения %: 98
yandex; Всего IP+User Agent: 732; Тестовых IP+User Agent: 146; Успешно определенных IP+User Agent: 145; Точность определения %: 99

Из минусов:
IP типа 127.0.0.1 или 192.168.1.1 определяются как "Бот", любой IP кто пришел с User Agent ПС, определяются как "Бот"

Добавил:
- простой парсер IP+User Agent из стандартных логов Nginx, смотрите папку /parser/

Внимание: Возможен отсев % реальных посетителей, любых подозрительных определяет как "бот".
Внимание: Не тестировать на больший боевых проектах.

Скачать FireCloack v2 Базы в комплекте.
Актуальная информация будет тут
bolyk вне форума   Ответить с цитированием
Сказали спасибо:
Ответ



Опции темы

Быстрый переход


Регистрация Справка Календарь Поддержка Все разделы прочитаны