Антиграббер контента

123 4
A
На сайте с 04.11.2007
Offline
134
2790

Уважаемые форумчане!

Кто нибудь встречал понятие антиграббер контента под сервер? То что хотят скачать - скачают. Цель не забанить, а притормозить IP секунд на 5-10. Названия будет вполне достаточно.

Поиск не помог. Скорее всего не те слова забиваю или это не актуально. Для популярных цмс находятся подобные плагины, но это не то.

Посмотрел фильтры fail2ban в последней версии. Похожего нет. Можно попробовать свой фильтр создать и отслеживать по access.log, например. Но этот вопрос не приоритетный и мне пока лень.

K5
На сайте с 21.07.2010
Offline
209
#1
То что хотят скачать - скачают.

вы сами ответили на свой вопрос.

аська 45два48499два записки на работе (http://memoryhigh.ru) помогу с сайтом, удалю вирусы, настрою впс -> отзывы ТУТ (/ru/forum/836248) и ТАМ (http://www.maultalk.com/topic140187.html) !!!всегда проверяйте данные людей, которые сами пишут вам в аську или скайп!!!
eN_Slon
На сайте с 13.02.2007
Offline
159
#2

Если контента мало - скачают под разными проксями и т.п.

А вот если много - можно отсеивать айпи парсеров после нескольких запросов. Активно. Агрессивно. Тогда проксей не наберутся.

Давно есть идея создать хорошую защиту от ботов, инструмент для определения качества трафика и его фильтрации, продвинутую капчу. Но как всегда нет времени.

Жду пока кто нибудь закажет нечто подобное, чтобы хотя бы начать.

Теоретическая база уже собрана.

Там всего то 500-1000 нужны :)

Парсинг, граббинг, автоматизация всего что вы можете сделать в браузере(и не только) сами. Любое кол-во, любые защиты.
donc
На сайте с 16.01.2007
Offline
686
#3
eN_Slon:
Давно есть идея создать хорошую защиту от ботов

Я их тупо добавил в .htaccess

Deny from all|host

Продвижение сайтов от 25 000 в мес, прозрачно, надежно https://searchengines.guru/ru/forum/818412 , но не быстро, отзывы
Artisan
На сайте с 04.03.2005
Offline
375
#4
eN_Slon:
Давно есть идея создать хорошую защиту от ботов,
инструмент для определения качества трафика и его фильтрации,
продвинутую капчу.

Пчёлы против мёда?

www.leak.info / ДАРОМ линки конкурентов и забытых доменов
Сережка
На сайте с 12.01.2007
Offline
97
#5

Я ставил после некоторого числа открытий страниц в минуту по IP, просто выдавал страницу "Слишком много запросов", если в течении часа перевалили некоторую границу посещений с IP, блокировка, которая снималась нажатием на кнопку или через сутки опять открывал доступ. Вроде меньше парсили. Так что пробуйте.

Семён-Ядрён (http://seo-case.com/zakaz_996/submit_brief.html) - Качественное семантическое ядро для Вашего сайта!
A
На сайте с 04.11.2007
Offline
134
#6
eN_Slon:
Если контента мало - скачают под разными проксями и т.п.
А вот если много - можно отсеивать айпи парсеров после нескольких запросов. Активно. Агрессивно. Тогда проксей не наберутся.

15к страниц + 2к картинок скачали за 3 часа с одного IP и не парились.

Пусть скачивают. Я не против. Но, хотелось бы не по "перезарядке", а с интервалом в несколько секунд. А то уж больно нагло получается.

Можно и забанить, но следить за этим и прописывать руками не хочется.

---------- Добавлено 15.10.2015 в 14:33 ----------

Сережка:
Я ставил после некоторого числа открытий страниц в минуту по IP, просто выдавал страницу "Слишком много запросов", если в течении часа перевалили некоторую границу посещений с IP, блокировка, которая снималась нажатием на кнопку или через сутки опять открывал доступ. Вроде меньше парсили. Так что пробуйте.

Это алгоритм, а какими средствами пользовались для достижения? Скрипт? В БД IP с счётчиком?

По логам, думается, проще всего определить такие запросы.

kxk
На сайте с 30.01.2005
Offline
990
kxk
#7

asteroid, Есть написанное нашими инженерами решение, но только через проксирование сайта, по ценнику в зависимости от чистого трафика.

Гасим 95% всяких спаммеров грабберов и тп, даже понимающих куки и аякс редиректы.

Ваш DEVOPS
Z
На сайте с 06.09.2012
Offline
129
#8
asteroid:
15к страниц + 2к картинок скачали за 3 часа с одного IP и не парились.
Пусть скачивают. Я не против. Но, хотелось бы не по "перезарядке", а с интервалом в несколько секунд. А то уж больно нагло получается.
Можно и забанить, но следить за этим и прописывать руками не хочется.

Можно сделать в nginx, как-то так:

http {

limit_req_zone $binary_remote_addr zone=foo:100k rate=10r/m;
server {
location ...php... {
limit_req zone=foo burst=100;
}
}
}

Барста хватит обычным юзерам, а боту после барста будут позволять не больше, чем 10 запросов в минуту.

Черный список врунов и обманщиков: ua-hosting.company, riaas.ru, takewyn.ru, yahoster/cadedic, Andreylab
kxk
На сайте с 30.01.2005
Offline
990
kxk
#9

zzzit, Я могу написать на коленке парсер с прокси и чем это поможет ТС?

Я уже неговорю о профессиональных ворах контента, замечу руками контент давно уже неворуют, а всякие вещи типа Content Downloader и тп давно уже также умеют прокси и разделение потоков.

Z
На сайте с 06.09.2012
Offline
129
#10
kxk:
zzzit, Я могу написать на коленке парсер с прокси и чем это поможет ТС?

Если будет проблема с многопоточными парсерами через разные прокси (мало вероятно), можно добавить еще одну зону, в которой резать больше тех, кто после попадания в первую зону долго продолжал парсить:

limit_req_zone  $binary_remote_addr  zone=bar:100k  rate=1r/m;

limit_req  zone=bar  burst=200 nodelay;
123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий