Блокировка тупых парсеров

Appassionato
На сайте с 22.06.2010
Offline
328
777

Собственно просьба поделиться рулями для блокировки особо тупых текстовых парсеров (которы ходят с юзер-агентом аля php5), да так, чтобы не цеплял ничего полезного.

Заранее признателен.

Хостинг Работает, как Часы ( http://tinyurl.com/nze85xw ). Проверено за 11+ лет.
S
На сайте с 23.05.2004
Offline
315
#1

Под nginx как вариант https://github.com/mariusv/nginx-badbot-blocker

Но php5 юзерагента ни разу не встречал.

Это просто подпись.
Appassionato
На сайте с 22.06.2010
Offline
328
#2

Больше всего повеселило:

~Russian search engine Yandex~ (Per users request Yandex was removed)

Эх... злые спамеры :)

Вообще мне бы для htaccess. И максимально легкое что-нибудь. Чтобы хотя бы чуть меньше контент растягивали на говносайты.

L
На сайте с 30.10.2015
Offline
34
#3

по HEAD заголовкам через переменную $_server легко все вычисляются

...
Appassionato
На сайте с 22.06.2010
Offline
328
#4

Вообще хотелось бы избавиться от конкретного парсера - в стиле:

deejaay.ru

kr-moto.ru

Досаждает сильно. Буду признателен за помощь в его блокировке.

R
На сайте с 31.08.2010
Offline
78
#5

так вам надо логи сервера смотреть, кто вас парсит, с какого ип и как он представляется и потом блокировать уже

Appassionato
На сайте с 22.06.2010
Offline
328
#6

Да оно не так, чтобы постоянно. Наскоками. Из серпа парсят страницы, которые в выдаче по запросам, по которым хотят поднять ГС.

Возможно кто-то знает, что за парсер, и как конкретно его заблочить.

S
На сайте с 23.05.2004
Offline
315
#7

Без шансов, по крайней мере если парсят намеренно. Т.е. по IP заблокировать разве что. А по рефу только ну очень тупых ботов, которые фактически в природе не встречаются.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий