Большая проблема с парсерами

SilverMaster
На сайте с 08.10.2003
Offline
228
1827

Есть у нас сайт.

Оптимизированы запросы, довольно шустрое железо, свой сервер, 16гб оперативки, memcache и проч.

И повадились к нам контент парсить.

Прикинулись гугльботом.

Работают через сеть IPов - порядка 10000.

Все это видимо ботнет, т.к. постоянно появляются новые ИПЫ.

Скорость выгребания 5-10 страниц в секунду.

А так как страниц ооочень много - то в кеш они не помещаются, а парсеры из мемкеша выбивают

нужные кешированые страницы.

Мы конечно оперделили что это не гугль и стали отдавать не то что от нас ждут, но и на "той" стороне поняли это и теперь прикинулись msnbot-ом.

Понятно, что это мы присекли, но как только они поставят обычный, не ботовый ип - всё, как защититься я не знаю.

Мы сейчас эту базу из 10к ипов не пускаем как бы к нам, но что делать дальше? ;(

Из детских комшаров: "А вдруг ночью придет страшный робот!" Из взрослых: "И криво проиндексирует сайт". Не всякий гик добежит до середины поисковой страницы гугла
malls
На сайте с 08.08.2005
Offline
255
#1

Жестко!!! :)

10К ипов - это мрак...

Это что за контент такой сладкий, что под него ботнета не жалеют?

По сабжу могу только посоветовать его перенести в раздел "Администрирование серверов" - там соответствующих спецов больше тусится.

юни
На сайте с 01.11.2005
Offline
902
#2
malls:
10К ипов - это мрак...

Та ладно... :)

SilverMaster:
Мы сейчас эту базу из 10к ипов не пускаем как бы к нам, но что делать дальше?

Пополняйте базу. Ресурсы вечными не бывают, рано или поздно такой парсинг станет нерентабельным.

https://a-parser.com/ - парсер для профессионалов SEO, маркетологов, арбитражников и SaaS, https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
SilverMaster
На сайте с 08.10.2003
Offline
228
#3

Юни, ты как всегда прав. НО... если они не будут тупить и поменяют юзер-агент на что-то более приближенное к нормальному посетителю - я не имею ни одного шанса их отсечь.

Что делать?

юни
На сайте с 01.11.2005
Offline
902
#4

SilverMaster, та полно. IP-то не подделаешь (вернее, дорого это весьма). Так что, независимо от куко-заголовков, парсера всегда можно вычислить по адресу.

Если это ботнет, то пеняй юзеру, чтобы машину чистил, ну а если белый адрес, то имеет смысл поговорить с провайдером про такую активность.

Brand from Amber
На сайте с 18.08.2007
Offline
291
#5
юни:
Так что, независимо от куко-заголовков, парсера всегда можно вычислить по адресу.

Для вычисления парсера по IP необходимо, как минимум, знать IP парсера :-) Вопрос в том и стоит - как определить то, что пришел бот, а не человек, после того как бот прикинется человеком (правильный юзнрагент, нормальные рефереры, рандомные промежутки между запросами... и т.п...) ?

юни:
Если это ботнет, то пеняй юзеру, чтобы машину чистил, ну а если белый адрес, то имеет смысл поговорить с провайдером про такую активность

Пенять 10К юзеров ? Анрил (особенно учитывая нежелание провайдеров сотрудничать и динамические IP аля Yota, MGTS)

Лучший способ понять что-то самому - объяснить это другому.
A2
На сайте с 03.01.2008
Offline
80
#6

В Google поиске сделано просто. Если с 1 ип больше опеределённого кол-ва запросов в минуту идёт выдаётся страница с капчей, если не бот докажи. (5-10 страниц в секунду - жесть)

Защита от хотлинков. (/ru/forum/488704) Оптимизация скорости загрузки страниц сайта (/ru/forum/435863). ICQ:345100870
Brand from Amber
На сайте с 18.08.2007
Offline
291
#7
alexber220:
В Google поиске сделано просто

баян...

alexber220:
5-10 страниц в секунду - жесть

...который легко обходится сеткой из 10К ботов

xpert13
На сайте с 15.09.2008
Offline
127
#8

У вас уже есть какая-то часть их ипов? Так вы не баньте их, а просто выдавайте всякую хр*нь (или перенаправляйте их куда-то) на запросы из этих ипов. У них получится такая ситуация: одни страницы парсится нормально, другие плохо. А почему - сразу не догонят.

Пусть немного голову поломают, а потом думаю надоест (разве что у вас контент очень нужный)

SilverMaster
На сайте с 08.10.2003
Offline
228
#9

Если бы сетка была из 10к ботов (которые мы уже определили) это было бы еще полбеды.

А так в минуту добавляесься новых 10-15 ипов, а со старых больше заходов нет.

xpert13
На сайте с 15.09.2008
Offline
127
#10
SilverMaster:
Если бы сетка была из 10к ботов (которые мы уже определили) это было бы еще полбеды.
А так в минуту добавляесься новых 10-15 ипов, а со старых больше заходов нет.

Я даже боюсь спросить, что у вас за контент такой...

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий