Как строить сайты, защищенные от автоматического выкачивания (эксперимент)

12
I
На сайте с 29.04.2006
Offline
135
#11

Надо смотреть в конкретном случае за что именно может зацепиться парсер... и строить данные элементы динамически=))

A
На сайте с 05.11.2005
Offline
111
#12

парсер может без проблем брать все линки из html => если эти линки оттуда убрать, то проблема со сливанием сайтов будет во многом решена. Слить линки из флеша - это уже трудно (javascript сливается только так), так что направление с флеш-навигацией весьма верное, главное, чтобы поисковики на флеше не растерялись :)

slimer2
На сайте с 05.06.2006
Offline
82
#13

Если надо будет стянуть сайт, можно получить список его страниц из поисковой выдачи и спокойно их парсить.

Тут либо забить на поисковики, либо на пользователей имхо и генерить все рандомно.

Slimer
M
На сайте с 20.08.2004
Offline
376
#14
slimer2:
Если надо будет стянуть сайт, можно получить список его страниц из поисковой выдачи и спокойно их парсить.
Тут либо забить на поисковики, либо на пользователей имхо и генерить все рандомно.

Если на то пошло тогда уже и с кеша поисковиков можно будет качать, а смысла никакого.

Затраты должны быть пропорциональны ценности.

Те вы не будете делать банковский сейф (как в фильмах, увы в жизни не знаю как там и что) что бы спрятать 100 долларов.

Я счию что это все утопия, кому надо тот заберет, и что бы вы не делали, дае елси бы всю страницу картинкой отдавали бы :))

отец сыночка, лапочки дочки и еще одного сыночка
S
На сайте с 25.11.2007
Offline
143
#15

я так и не смог отпарсить страницу которая формируется функцией document.write

выглядит это примерно так:

Код:

<script>document.write(two('hjkhjkhjkhjhJKHKJHJKhjkhJKHJKHJKH'));</script>

но скорее всего это тоже не большая проблема - было бы желание :)

P
На сайте с 08.03.2007
Offline
250
#16
Miracle:
Я счию что это все утопия, кому надо тот заберет, и что бы вы не делали, дае елси бы всю страницу картинкой отдавали бы :))

Вот именно. В конце концов, есть хитрый модуль ScrapBook для FF2 - и как только кого-то начнёт беспокоить проблема захватить контент, то этот шибко хитрый модуль будет использован либо без изменений, либо с минимальными правками. И JavaScript не спасёт. А время у программистов такие защиты отнимают. Пожалейте программистов, им хочется более интересными задачами заниматься.

sun
На сайте с 22.10.2005
Offline
81
sun
#17
_Ad:
Первый способ удобен тем, что грамотно сделанные ссылки в яваскрипте можно юзать даже тем, у кого яваскрипт отключен (полностью параметр href прописывать). По виду ничем от обычных не будет отличаться, значит юзабилити не пострадает.
Второй способ не так универсален, зато с картой сайта возиться не надо. Ну и опять же, оформить можно красиво..
Напоминаю, что поисковики флэш-ссылки нормально кушают.

Вот здесь я что то не понял, если прописать href к ссылке чем она будет отличаться от обычной? Кроме того что будут обработчики висеть.

sun добавил 08.04.2008 в 12:34

Есть способ трудоемкий, но эффективный. Нужно отслеживать активность бота.

Как я вижу: отслеживаем на какие страницы заходит бот, а он будет ломиться на все подряд, рубим ип. Но здесь нужно найти золотую середину, отслеживать поисковых ботов + подсети откуда они ходят. Тогда будет 100% вариант.

Хорошо если несколько сайтов для сбора статистики. Хорошо бы LI открыла свои статы откуда боты поисковиков ходят, можно было бы просто отлавливать парсеры.

devmen.com (http://devmen.com/)
aleks8897
На сайте с 24.03.2006
Offline
48
#18

Хм народ а никто не задумывался про то как ищут копипастеры свою жертву ??? Вполне возможно что через белые каталоги ? Хм вероятность встретить жертву с полностью уникальным контентом там гораздо выше чем парсить яндекс (не беру в расчет часто обновляющиеся сайты, так как интересует только спасение своих свежих сайтов). Считаю что новые сайты в этом смысле лучше сразу после создания не прогонять по каталогам. У меня есть старый богом забытый сателит с полностью уникальным контентом, который я не прогонял по каталогам, и он до сих пор полностью остаётся уникальным (хотя и в яше его сложно найти). По своим несозданными и прорегеным сайтам неоднократно после 3-4 недель замечал проиндексированный скопированный материал (НИКАКИЕ RSS ленты и прочее.. не юзал, да и в яндексе, на тот момент мои свеженькие сайты еще далеко в жопе были).

A
На сайте с 09.08.2004
Offline
82
#19

А может стоит смотреть не в сторону дизайна, а настроек сервера?

Установить модуль Апача вроде mod_evasive и/или mod_limitipconn, вывести модель среднего посетителя по времени нахождения на страничке и количества запросов страничек в единицу времени, увеличить ее на 15-20% на всякий случай и отдельно разрешить полезных поисковых ботов.

Все ИП, что превышают установленные пределы, можно скидывать в отдельный блек-лист и далее по своему усмотрению. Я их обычно баню на сутки.

DI
На сайте с 03.01.2007
Offline
123
#20

а чем древний метод с невидимой ссылкой не подходит? Если урлы грабятся автоматически, то сграбится и линк, висящий на какой-нибудь прозрачной гифке 1х1. Но при попадании на этот урл - ip граббера вешается в фаервол, например, на сутки. Для поисковиков можно поставить noindex и прочие запрещающие условия.

А от самописного граббера, написанного конкретно под данный сайт, имхо, очень трудно защититься (особенно если цель - один раз сграббить контент, а не тянуть новости раз в час).

Высказывание идиотского утверждения требует на порядок меньше усилий, чем его последовательное и обоснованное опровержение и более того, иногда это опровержение вообще невозможно. © (http://zhurnal.lib.ru/s/shapiro_m_a/raspidiota.shtml)
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий