TopperHarley

TopperHarley
Рейтинг
350
Регистрация
24.03.2009

Серверную часть стоит сделать отключаемой? Чтобы client.php не ходил на server.php.

Или в этой теме смысла нет без централизованного сбора адресов?

Еще заметил что у гуглбота не заполнен HTTP_ACCEPT_LANGUAGE, зато заполнен HTTP_FROM = googlebot(at)googlebot.com

А у меня по всем барузерам(IE,Chrome,Opera,Firefox) HTTP_ACCEPT_LANGUAGE заполнен, а HTTP_FROM - пуст

В общем все понятно, осталось взять и сделать ) Да и вообще давно пора

Force68:
отключены кукисы -----> бот
не шаволит мышкой -----> бот

Проверить отключены ли кукисы можно только так: установить кукис через пых, а потом через js проверить есть ли кука. За 1 обращение к php скрипту никак не узнать отключены ли кукисы у посетителя, так как технически установка кукиса - это ли заполнение заголовка, отправляемого браузеру. А вот установилась ли она можно узнать только на 2м обращении, которое может произойти от второго посещения или от js скрипта.

Также и с шевелением мышкой - только js скриптом это можно узнать.

Вот только я не уверен что боты выполняют скрипты. А если выполняют, то это хитроботы, и им ничего не стоит и мышкой пошевелить и кукисы показать.

Вот и хз че тут сделать можно

Поправил пост, внес в алгоритм ua и размещение ссылки.

А как язык посетителя не можем определить если заголовок "Accept-Language" не передан?

---------- Добавлено 07.05.2015 в 00:07 ----------

Sobesednic:
Для сбора базы ботов можно использовать скрытые ссылки, по которым перейдут только боты.
Изначально нужна база ip ботов, желательно что бы была возможность работы с диапазонами, так же желательно фильтровать еще по юзер агенту

Ну так я про скрытые ссылки и написал же. Если с пустым анкором или анкором, никак не мотивирующим по нему переходить. Например таким: ©

Ну и про диапазоны я тоже написал: Формат адресов: конкретный адрес1, адрес1-адрес2, адрес1/31

---------- Добавлено 07.05.2015 в 00:11 ----------

Force68:
нет поддержки флеша -----> бот

Флеш думаешь стоит проверять? Я себе его уже года два не ставлю, щас вроде как мода на html5 )

Я тут решил на досуге велосипед изобрести. Набросок алгоритма:

На стабильный хостинг заливаем скрипт server.php.

Данный скрипт будет получать данные от всех сайтов-клиентов и будет отдавать данные о наличии ip в своей базе ботов.

В шаблоне делаем инклуд скрипта client.php в хедер.

В шаблоне добавляем php код <? addlink() ?> в произвольное место, который выводит ссылку с пустым/любым(настройка) анкором.

Скрипт проверяет useragent по списку в локальной базе.

Если useragent бота, то устанавливает в переменную $bot=1, добавляет ip в локальную и серверную базу

Скрипт проверяет наличие ip посетителя в локальной базе.

Если ip в локальной базе есть, то устанавливает в переменную $bot=1.

Если ip в локальной базе нет, то делает обращение к server.php:

..Если по данным сервера ip есть в базе, то добавляем адрес себе в локальную базу, пишем в переменную $bot=1.

..Если по данным сервера ip в базе нет, то пишем в переменную $bot=0.

..Если сервер не ответил за 3(настройка) секунды, то считаем что ip в базе нет, пишем в переменную $bot=0.

Если был переход по ссылке с пустым анкором, то ip:

..Записывается в локальную базу

..Записывается в серверную базу(накапливается пачка и сбрасывается не чаще 1 раза в X минут)

..Соответственно будет считаться ботом на данном сайте и на всех клиентах

Исходя из значения $bot показываем контент: <?if($bot){?> для ботов <?}else{?> для не ботов <?}?>

База данных – sqlite

Формат адресов: конкретный адрес1, адрес1-адрес2, адрес1/31

Первоначальное заполнение по пабликовым базам

Возможно будет общий сервер для объединения усилий по сбору адресов группой пользователей.

---

Друзья, если есть или будут мысли по улучшению этого чернового алгоритма, то прошу комментировать!

p.s. Если кто не понял, то эта хрень называется клоакингом ))

Ключ может не ставиться в текст если включена морфология + тюнинг параметр CarefulMorphy=1 + ключ по базе морфологии не найден(ключ вида "впендюрить дефкам онлайн"). Либо морфология включена на английский, а ключи русские или наоборот(тюнинг параметр EngMorphy). Ну или кодировка файла ключей неверная, поэтому ключи не распознаются морфологией.

Если дело не в морфологии, то возможно из-за каких нибудь таких настроек

_Snake_:
opperHarley, включил отложенную публикацию на доре 30к+ кеев, vps(1ядро 1 GB RAM SSD), стал громко попёрдывать, по моему 30 кеев это не так много.

30 кеев это действительно не много.

Пропиши ему эспумизан.

Realtyman:
А тикет это где?

Я еще раз попробовал, и вручную обновления качал, и самой программой обновил файлы..
png файл бьется в новой версии все равно.

Опять кидаю 2,12,1 и тут же все генериться отлично

Вот тут http://toppersoft.ru/sup/

Force68:
TopperHarley, а SyntaxTextGen как обновить? Обновил пандору а чего то нет у меня в настройках SyntaxTextGen "SyntaxTextGen добавлена возможность брать в анализ рандомные предложения исходного текста"

Забыл UI обновить плагина. Перезалил.

Ничего скачивать дополнительно не надо, просто запустите SyntaxTextGen из меню плагинов.

Realtyman:
Обновился на 2.12.2 и у меня, при генерации дора, картинки png стали биться.
Вернулся на 2.12.1 - все нормално стало генерить, картинки целые копируются!

Проверил - все норм при любых настройках.

Закинь в тикет профиль плюс картинку до и картинку после

Всего: 2916