Как защититься от парсинга?

12
sabotage
На сайте с 14.02.2007
Offline
192
#11
Алексей Барыкин:
Это скобка, а не смайлик как Вам кажется.

е-мае, сколько не закрытых скобок.

соррь

R
На сайте с 08.04.2004
Offline
58
#12

например тут есть скрипт который считает обращения с ip и при превышении лимита выдает капчу, есть список разрешенных и запрещенных ip. для храненния использует оперативку, хотя может быть и другое хранилище поддерживаемое классом System/SharedMemory

malls
На сайте с 08.08.2005
Offline
255
#13
greyhard:
у поисковых ботов есть айпи...

О ВЕЛИКИЙ! дай список плиз!

Lord Maverik
На сайте с 15.04.2003
Offline
471
#14

Сам пишу парсеры, индивидуальные. Скажу со своей стороны, есть 2 варианта:

1. никак вы не защититесь.

2. защититесь, но тогда пострадают также ваши пользователи и поисковые боты.

2-й вариант на мой взгляд много хуже 1-го.

RedMall.Ru (https://redmall.ru) - Товары из Китая (Таобао, Tmall) с проверкой качества, скидка для форумчан 7% Партнерская программа 2 уровня: 5% + 5%. Подробнее. (https://redmall.ru/about/partner/)
R
На сайте с 08.04.2004
Offline
58
#15

абсолютно защититься никак, но можно максимально усложнить процесс парсинга так, что не будет экономической выгоды парсить. Как вариант защиты придумалось ставить куку-ключ дающую право открыть следующую страницу (или несколько страниц, тк пользователь может открыть несколько страниц и из-за задержки соединения он могут придти не в том порядке в каком отправлялись) и при каждом запросе обновлять куку (кука привязана к ip и user-agent). это ограничит использование прокси в рамках одной сессии качания и подстановку разных user-agent. в результате получатся цепочки запросов. если цепочка слишком длиная (для каждого сайта индивидуально), то проверяем ее капчей.

Solmyr
На сайте с 10.09.2007
Offline
501
#16
dkameleon:
- стартовать сессию со служебной инфой и дальше главной без сессии не пускать.

Вот к этому, дополнение: сессионную куку устанавливать не хеадерами с сервера, а джаваскриптом отгруженным в код страницы. Как писатель парсеров скажу, что если первое я легко обошел бы, то со втором уже не стал бы заморачиваться из уважения к владельцу сайта :)

P.S. А множественные обращения с одного IP по хорошему все равно надо блокировать, даже если не стоит задача защиты от парсера. Потому что сервер они грузят не по детски.

Lord Maverik
На сайте с 15.04.2003
Offline
471
#17
Solmyr:
Вот к этому, дополнение: сессионную куку устанавливать не хеадерами с сервера, а джаваскриптом отгруженным в код страницы. Как писатель парсеров скажу, что если первое я легко обошел бы, то со втором уже не стал бы заморачиваться из уважения к владельцу сайта

И тем самым обломить все поисковых ботов, а так же тех юзеров кто отключил куки? Не слишком ли большая цена?

Solmyr:
то со втором уже не стал бы заморачиваться из уважения к владельцу сайта

А как же спортивный интерес?

S2
На сайте с 07.01.2008
Offline
611
#18
Lord Maverik:
А как же спортивный интерес?

Насчёт спортивного интереса. Я слышал про метод защиты от него, правда для обычных программ. Даётся некое пояснение как обойти защиту, доступное только сильно продвинутому взломщику - таким образом для него это становится не интересным, а новичёк до этого пояснения и не доберётся.

Не надо приписывать мне свои выводы, я имею ввиду только то, что написал. Лучшая партнёрка по футболкам/толстовкам (http://partnerka.kolorado.ru/?ref=1921540) Опрос: Проверить текст на уник - как? (/ru/forum/495885)
Алексей Барыкин
На сайте с 04.02.2008
Offline
272
#19
Str256:
Насчёт спортивного интереса. Я слышал про метод защиты от него, правда для обычных программ. Даётся некое пояснение как обойти защиту, доступное только сильно продвинутому взломщику - таким образом для него это становится не интересным, а новичёк до этого пояснения и не доберётся.

Ага, а ещё можно написать в комментариях: "Кто будет парсить - тот дурак"

Dreammaker
На сайте с 20.04.2006
Offline
569
#20

Как написано на одном сайте: "Все права защищёны грубой физической силой!" :)

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий