Большая проблема с парсерами

SilverMaster
На сайте с 08.10.2003
Offline
228
#11
xpert13:
У вас уже есть какая-то часть их ипов? Так вы не баньте их, а просто выдавайте всякую хр*нь на запросы из этих ипов. У них получится такая ситуация: одни страницы парсится нормально, другие плохо. А почему - сразу не догонят.

Пусть немного голову поломают, а потом думаю надоест (разве что у вас контент очень нужный)

Правильно!

Мы так и сделали, отдавали не те страницы ( отдавали закешированые ПОХОЖИЕ страницы).

Разумеется - у них теперь не база, а каша, но судя по всему они нас парсят на заказ ( я видел на гетафрилансере запрос на парсинг нашего сайта), так что

мы только ухудшаем ситуацию, так как они по новой пойдут.

Из детских комшаров: "А вдруг ночью придет страшный робот!" Из взрослых: "И криво проиндексирует сайт". Не всякий гик добежит до середины поисковой страницы гугла
юни
На сайте с 01.11.2005
Offline
901
#12
SilverMaster:
А так в минуту добавляесься новых 10-15 ипов, а со старых больше заходов нет.

Смотри хуизы и трассировку.

Brand from Amber:
Вопрос в том и стоит - как определить то, что пришел бот, а не человек, после того как бот прикинется человеком (правильный юзнрагент, нормальные рефереры, рандомные промежутки между запросами... и т.п...) ?

Будет давать нагрузку - в бан. А если не нагружает сервак, то и ладно.

Brand from Amber:
...который легко обходится сеткой из 10К ботов

Сеткой из множества подсетей. А 10К, это всего лишь 40 блоков /24, ими Гугл особо не попарсишь.

https://a-parser.com/ - парсер для профессионалов SEO, маркетологов, арбитражников и SaaS, https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
SilverMaster
На сайте с 08.10.2003
Offline
228
#13

да обычный сайт, тематика рингтоны

SilverMaster добавил 06.01.2010 в 18:49

юни:
Смотри хуизы и трассировку.

Будет давать нагрузку - в бан. А если не нагружает сервак, то и ладно.
Сеткой из множества подсетей. А 10К, это всего лишь 40 блоков /24, ими Гугл особо не попарсишь.

юни, это не 10к из одной сети, это все разные сетки

походу зараженные компы

юни
На сайте с 01.11.2005
Offline
901
#14

SilverMaster, кхм... ну, давай в студию штук пять разных.

SilverMaster
На сайте с 08.10.2003
Offline
228
#15

114.39.206.132

109.88.5.201

122.100.239.174

124.6.181.143

195.229.236.212

из последних

юни
На сайте с 01.11.2005
Offline
901
#16

Ну, похоже, что действительно кто-то из ботнета выжимает остатки... причём американские пулы, судя по всему, уже проверяются регистратором на предмет спама и прочих абуз, а райп, как всегда, не шевелится.

Поскольку в noc`и писать бесполезно, можно только к провайдеру обратиться (или к хостеру, а он сам потом всё сделает), на предмет рассмотрения твоей собранной базы, чтобы передали их регистраторам и аплинкам, для более оперативного реагирования.

А так, тактика нормальная, подсовывай им всякий хлам и далее. Можно, кстати, по региональному признакому блокирнуть - зачем тебе всякие дубайско-штатовские непоймикто?

SilverMaster
На сайте с 08.10.2003
Offline
228
#17

Да, юни, ты прав. Надо подсовывать, но реально если они прикидываются нормальными людьми - то я не могу их определи.

Просто я поражаюсь как динамично и красиво меняеться их пул ипов.

Вообщем судя по всему только наращивать железо...

В дальнейшем тоже пригодиться имхо.

Отсеивать тоже не дело. Они приносять деньги, хоть правда копейки, но сейчас такое время.

юни
На сайте с 01.11.2005
Offline
901
#18
SilverMaster:
Просто я поражаюсь как динамично и красиво меняеться их пул ипов.

Ботнет, палюбасу. Разные подсети, разные владельцы, разные регистраторы, разные роуты, разные маршруты. Но вот левые хуизы у американцев говорят обо многом.

В общем, их нужно по нагрузке отличать. Легче с ними часть копеек отрубить, чем потом с хостером разбираться (и таки да, ты ему скинь базу, нехай поразмыслят и в работу включатся, после НГ-то).

SilverMaster
На сайте с 08.10.2003
Offline
228
#19
юни:

В общем, их нужно по нагрузке отличать.

аааа это как?

можно ткнуть носом?

юни
На сайте с 01.11.2005
Offline
901
#20

SilverMaster, ну, это у своих технарей лучше узнавать, кто за движок/апач отвечает.

Они тебе нагрузку создают на сервер, вот и отсеки всех, кто скачивает больше страницы в секунду, например. Точный интервал лучше по статистике определить, дабы не отсечь шутстрых, но всё-таки пользователей, а не ботов.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий