Как защититься от парсинга?

12
-S
На сайте с 10.12.2006
Offline
1354
2593

Просьба знающим людям рассказать какие основные меры можно принять для того, чтобы защитить свою базу данных от парсинга.

dkameleon
На сайте с 09.12.2005
Offline
386
#1

Скорее усложнить, чем защититься.

- ограничить количество запросов с одного ИП.

- периодиически можно спрашивать капчу.

- стартовать сессию со служебной инфой и дальше главной без сессии не пускать.

- не забывать, что поисковый бот, это по сути тот же парсер.

Иногда парсеров сбивает с толку трюк с <base />

Дизайн интерьера (http://balabukha.com/)
Kide
На сайте с 29.03.2007
Offline
69
#2

-= Serafim =-, от "умных" парсеров все-равно не убежать...

Пробуйте проверку на время просмотра и бан по ip.

dkameleon согласен, что только усложнить... +1

но вот с этим

dkameleon:
Скорее усложнить, чем защититься.
- стартовать сессию со служебной инфой и дальше главной без сессии не пускать.

не согласен... имхо, но может принести больше вреда, чем пользы.

а трюки подобные

dkameleon:
Скорее усложнить, чем защититься.
Иногда парсеров сбивает с толку трюк с <base />

помогают только для "случайных" парсеров... т.е. когда что-то стандартное кривыми руками затачивают под сайт.

Hasta La Victoria Siempre!
S2
На сайте с 07.01.2008
Offline
611
#3

Тут всё написано, что можно сделать:

/ru/forum/160853

/ru/forum/216380

Не надо приписывать мне свои выводы, я имею ввиду только то, что написал. Лучшая партнёрка по футболкам/толстовкам (http://partnerka.kolorado.ru/?ref=1921540) Опрос: Проверить текст на уник - как? (/ru/forum/495885)
-S
На сайте с 10.12.2006
Offline
1354
#4
dkameleon:
не забывать, что поисковый бот, это по сути тот же парсер

Также есть такая проблема, так как стандартные скрипты, которые режут по запросам с одного IP могут отрезать и ботов поисковиков.

Dim_K
На сайте с 11.07.2007
Offline
85
#5

можно сделать набор равносильных версток, поисковым ботам будет все равно, а простые парсеры не сработают. простой пример

<span style="font-weight:bold;">вариант1</span>

и

<strong>вариант2</strong>

заморочек правда с движком для такого будет ужасно много. ну и опять же захотят все равно распарсят. только усилий надо будет больше намного

neznaika
На сайте с 28.06.2006
Offline
356
#6

все это херня ©

извините за грубость.

лучшее средство от парсинга — выставление мощных ссылок в момент публикации контента.

Дорого покупаю настоящие сайты. Не инвестирую деньги и не беру кредиты.
-S
На сайте с 10.12.2006
Offline
1354
#7

neznaika, с Вами согласен полностью, просто хочется знать технические средства для сохранения свой БД.

S2
На сайте с 07.01.2008
Offline
611
#8
-= Serafim =-:
neznaika, с Вами согласен полностью, просто хочется знать технические средства для сохранения свой БД.

Против самописного парсера заточенного под ваш сайт, мало что спасёт. Против стандартного есть варианты.

Кстати, а почему вы не закроете доступ к базе на пароль - тогда без регистрации доступа не будет. Ну а регистрацию сделать платной например + ещё несколько ограничений.

greyhard
На сайте с 20.09.2008
Offline
35
#9

у поисковых ботов есть айпи )

от этого можно и плясать )

выдаем контент без ограничения ботам ) и с ограничениями для парсеров(люди,роботы) )

а вобще провести анализ логов

сколько кликов в минуту генерит стандартный юзер

защита по паролю тоже может не сработать ) я могу зарегаться ) получить логин пароль и использовать их в парсере, поставляя данные получая куку ) и передавая куку с каждим запросом )

з.ы. только в росии лицензионное соглашение читают 0.5 сек )

з.ы.ы вобщем разрешать не более Н-числа кликов ) в минуту если больше это парсер ) или офигевший юзер )

йа бездельник
Алексей Барыкин
На сайте с 04.02.2008
Offline
272
#10
greyhard:

выдаем контент без ограничения ботам ) и с ограничениями для парсеров(люди,роботы) )

Потом нарываемся на бота-проверяльщика и схватываем бан за клоакинг. Супер совет.

p.s. у Вас правая круглая скобка запала.

Это скобка, а не смайлик, как Вам кажется.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий