Защита от дебильного сграбливания не вредящая ботам.

123
Андрей
На сайте с 30.09.2009
Offline
482
#11

zexis и Алеандр говорят дело.

Вайт лист сетей популярных ботов и лимит на запросы для других решает проблему.

EuroHoster.org ( https://eurohoster.org/ru/ ) - территория быстрых серверов. Выделенные серверы, VPS, SSL, домены и VPN.
[Удален]
#12
сообщал мне об этом на телефон. И тогда я шустренько лез на сервак и проверял - этот IP правда принадлежит ПС, или нет. Если да - в белый лист, если нет - оставлял в бане.

А зачем столько гимора и угрозы ложных срабатываний? Кто захочет контент спарсит или просканит на дыры и опытный админ про это даже не узнает.

А так проблемы создаются для пользователей за NAT, для различных пулов динамичных IP, где переподключившись, можно оказаться в бане за грехи предыдущего юзера айпишника, случайно забанить поисковик и т.п.

Также многие из предложенных в теме способов забанят юзеров с Оперы турбо/Яндекс турбо и прочих ускорителей. А юзер не будет гадать, почему он не может попасть на сайт. Он просто уйдет на другой.

Нужно брать пример с крупнейших ресурсов - Яндекс, Вконтакте дают прекрасно себя парсить и выдают каптчу только для совсем "взбесившихся" ботов. На файрволле они не банят никого.

При правильной настройке сервера и правильных скриптах они должны переваривать любой поток запросов, банить нужно только совсем обнаглевших на гране ддоса. Нужно не способы отсечения гадов искать, а настраивать работу сервера и софта так, чтобы присутствие паразитов даже не замечалось.

Vin_cent
На сайте с 22.01.2010
Offline
165
#13
znaikin:
Нужно не способы отсечения гадов искать, а настраивать работу сервера и софта так, чтобы присутствие паразитов даже не замечалось.

Так может сразу паразитам дать ссылку на архив с базой данных сайта? И серверу нагрузка меньше, и не заметишь их больше. Тупизм.

Автоматический анализ access log каждый час. Если больше 1000 запросов от одного IP -> алерт в жабер или на мыло. И смотришь, если ИП принадлежит какому-то хостингу - банишь сразу всю подсеть. Если сомневаешься, бань ИП адрес на сутки. Если ИП хороший, добавляй в белый список, чтобы потом алерт не слался.

seocore
На сайте с 25.09.2006
Offline
143
#14
Vin_cent:
Так может сразу паразитам дать ссылку на архив с базой данных сайта? И серверу нагрузка меньше, и не заметишь их больше. Тупизм.

те кто парсят аккуратно Вы их не словите, те кто парсят тупо - их можно пыл можно ограничивать через тот же nginx, БАНить ботов только за то, что они непонятные боты - это глупость, так Вы перебаните реальных юзеров

в фильтрацию трафика от ботов лучше с такими знаниями не лезть, не стоит экономить на железе и правильной настройке сервера, сейчас прикупить дедик с 64Гб ОЗУ можно баксов за 100 месяц, - это всяко лучше, чем потерять 10-15% реальных пользователей, а стало быть и деньги 🍿

Vin_cent:
Автоматический анализ access log каждый час. Если больше 1000 запросов от одного IP -> алерт в жабер или на мыло. И смотришь, если ИП принадлежит какому-то хостингу - банишь сразу всю подсеть.

столько пустой работы, поберегите нервы ТС 😂

Инструменты для веб-мастера: кластеризатор СЯ (https://goo.gl/MQWfqO), все запросы конкурента (https://goo.gl/hd5uHS), дешевые XML-лимиты (https://goo.gl/aDZbPI)
Vin_cent
На сайте с 22.01.2010
Offline
165
#15
seocore:
те кто парсят аккуратно Вы их не словите, те кто парсят тупо - их можно пыл можно ограничивать через тот же nginx, БАНить ботов только за то, что они непонятные боты - это глупость, так Вы перебаните реальных юзеров

в фильтрацию трафика от ботов лучше с такими знаниями не лезть, не стоит экономить на железе и правильной настройке сервера, сейчас прикупить дедик с 64Гб ОЗУ можно баксов за 100 месяц, - это всяко лучше, чем потерять 10-15% реальных пользователей, а стало быть и деньги 🍿


столько пустой работы, поберегите нервы ТС 😂

Напиши еще 100 килобайт текста. Занимайся лучше SEO, твои советы, сорри, сео-бредо-текст:) Мегабайты вывел, проценты подытожил, деньги подсчитал... все прикинул и написал, да? 😂

eN_Slon
На сайте с 13.02.2007
Offline
159
#16

Кому нужно Вас спарсят.

Защиту обойдут с легкостью.

Не встречал еще сайта, который не мог содрать. Бывают упертые, но итог всегда один.

Парсинг, граббинг, автоматизация всего что вы можете сделать в браузере(и не только) сами. Любое кол-во, любые защиты.
Vin_cent
На сайте с 22.01.2010
Offline
165
#17
eN_Slon:
Кому нужно Вас спарсят.
Защиту обойдут с легкостью.

Не встречал еще сайта, который не мог содрать. Бывают упертые, но итог всегда один.

Много разных условий может быть. Сайт 100 страниц - да, глупости что тут банить. А если сайт, допустим, 5млн страниц... Есть же умники, которые и API написать и раздавать могут, основываясь на данных вашего сайта. И вот таких и подобных вылавливать и банить, можно и нужно. Способов много, я привел свой, который мне помогает. Они ж как пьявки... присосутся, и пьют кровь вашего сайта 😂

Средняя нагрузка у моего сервера упала на ~20% после того, как я добавил весь Amazon хостинг в бан :) Минусов никаких, но вот многие роботы-скрипты чувствую обломались. Или хостинг новый им покупать нужно, или прокси... один фиг, геморроя у них прибавилось :)

Skom
На сайте с 02.12.2006
Offline
166
#18
Vin_cent:

Средняя нагрузка у моего сервера упала на ~20% после того, как я добавил весь Amazon хостинг в бан :) Минусов никаких, но вот многие роботы-скрипты чувствую обломались. Или хостинг новый им покупать нужно, или прокси... один фиг, геморроя у них прибавилось :)

Туда же весь хетцнер и digital ocean.

Cras amet qui numquam amavit quique amavit cras amet
Андрей
На сайте с 30.09.2009
Offline
482
#19

Ну если уж так пачками, так сразу добавьте еще OVH, SA, TR, etc.

seocore
На сайте с 25.09.2006
Offline
143
#20
WapGraf:
Ну если уж так пачками, так сразу добавьте еще OVH, SA, TR, etc.

и вообще забиндить все сервисы на 127.0.0.1, но АНБ все равно спарсит 😂

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий