Надо смотреть в конкретном случае за что именно может зацепиться парсер. Отслеживать активность поисковых ботов подсети откуда они ходят - Веб-строительство

Как строить сайты, защищенные от автоматического выкачивания (эксперимент)

_Ad · 2008-03-23T08:59:37.0000000Z

Полное название топика звучит так: Как строить сайты, защищенные от автоматического выкачивания с помощью программ типа Teleport всякими пианерами, которые хотят повесить на ваш контент свой дизайн и зарабатывать на контексте :smoke: Суть эксперимента заключалась в том, чтобы не дать офлайн броузерам и грабилкам сайтов линков по структуре вашего сайта, но при этом чтобы поисковики нормально могли бродить по нему. В ходе эксперимента выяснилось, что есть два пути. оба примерно одинаковые по трудоемкости, но разные в плане отображения для нормальных юзеров ваших ссылок навигации сайта: 1. Все меню запихать в яваскрипт, сделать карту сайта на флэше. 2. Сразу делать меню на простом флэше. Первый способ удобен тем, что грамотно сделанные ссылки в яваскрипте можно юзать даже тем, у кого яваскрипт отключен (полностью параметр href прописывать). По виду ничем от обычных не будет отличаться, значит юзабилити не пострадает. Второй способ не так универсален, зато с картой сайта возиться не надо. Ну и опять же, оформить можно красиво.. Напоминаю, что поисковики флэш-ссылки нормально кушают . Сейчас все будут возмущаться на тему того, что это осуществимо только на небольших статичных сайтах и что карту сайта во флэше для гигантских сайтов хрен нарисуешь вручную... Нифига не так. Умные люди придумали библиотеку Ming SWF, которая будучи подключена на сервере позволяет генерить флэшки скриптом (так же как библиотека GD2 генерит картинки). Если у вас свой сервак, ставите эту библиотеку и пишете скрипт, который вам навигацию генерит во флэше. Если вы на хостинге, упросите хостера поставить эту библиотеку. ничего сложного в установке и настройке там нет. Метод проверялся на программах Teleport Pro (страницу, на которую вела ссылка во флэше он не нашел) и Offline Explorer (мало того, что не нашел страницу, так еще и намертво подвис обрабатывая счетчик рамблера :D ) Лично я использую комбинированную навигацию. С главной страницы прямые ссылки есть только на флэш-карту сайта, которая генерится каждый раз когда добавляется новый контент.. Ссылки на подподразделы сайта (третий, четвертый уровни вложенности) остаются в html-виде.. Можно и их защитить конечно, но я пока еще тестю и не хочу усложнять жизнь поисковикам.. Если окажется, что им не принципиально, то я и их защитю.. Предполагается, что способ будет работать и для защиты от парсилок контента (им тоже ведь нужно карту сайта составлять, прежде чем они текст отковыривать будут). Но это не точно, потому что мне на вопрос "как работают парсилки" очень умные люди вместо того чтоб ответить, начали рассуждать на тему того что, мол, сайт все равно не защитить, кому надо тот по страничке все сохранит.. :no:

I

135

ipconfig

23 марта 2008, 13:13

#11

Надо смотреть в конкретном случае за что именно может зацепиться парсер... и строить данные элементы динамически=))

A

111

azzz

23 марта 2008, 19:04

#12

парсер может без проблем брать все линки из html => если эти линки оттуда убрать, то проблема со сливанием сайтов будет во многом решена. Слить линки из флеша - это уже трудно (javascript сливается только так), так что направление с флеш-навигацией весьма верное, главное, чтобы поисковики на флеше не растерялись :)

Перевод флеш баннеров в Видео находится за пределами Что если не указывать

82

slimer2

7 апреля 2008, 13:30

#13

Если надо будет стянуть сайт, можно получить список его страниц из поисковой выдачи и спокойно их парсить.

Тут либо забить на поисковики, либо на пользователей имхо и генерить все рандомно.

Slimer

M

376

Miracle

7 апреля 2008, 15:35

#14

slimer2:
Если надо будет стянуть сайт, можно получить список его страниц из поисковой выдачи и спокойно их парсить.
Тут либо забить на поисковики, либо на пользователей имхо и генерить все рандомно.

Если на то пошло тогда уже и с кеша поисковиков можно будет качать, а смысла никакого.

Затраты должны быть пропорциональны ценности.

Те вы не будете делать банковский сейф (как в фильмах, увы в жизни не знаю как там и что) что бы спрятать 100 долларов.

Я счию что это все утопия, кому надо тот заберет, и что бы вы не делали, дае елси бы всю страницу картинкой отдавали бы :))

отец сыночка, лапочки дочки и еще одного сыночка

S

143

sapien

7 апреля 2008, 16:06

#15

я так и не смог отпарсить страницу которая формируется функцией document.write

выглядит это примерно так:

Код:

но скорее всего это тоже не большая проблема - было бы желание :)

P

250

Pilat

7 апреля 2008, 18:38

#16

Miracle:
Я счию что это все утопия, кому надо тот заберет, и что бы вы не делали, дае елси бы всю страницу картинкой отдавали бы :))

Вот именно. В конце концов, есть хитрый модуль ScrapBook для FF2 - и как только кого-то начнёт беспокоить проблема захватить контент, то этот шибко хитрый модуль будет использован либо без изменений, либо с минимальными правками. И JavaScript не спасёт. А время у программистов такие защиты отнимают. Пожалейте программистов, им хочется более интересными задачами заниматься.

Блог (http://www.pilat66.ru/)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

81

sun

8 апреля 2008, 08:21

#17

_Ad:
Первый способ удобен тем, что грамотно сделанные ссылки в яваскрипте можно юзать даже тем, у кого яваскрипт отключен (полностью параметр href прописывать). По виду ничем от обычных не будет отличаться, значит юзабилити не пострадает.
Второй способ не так универсален, зато с картой сайта возиться не надо. Ну и опять же, оформить можно красиво..
Напоминаю, что поисковики флэш-ссылки нормально кушают.

Вот здесь я что то не понял, если прописать href к ссылке чем она будет отличаться от обычной? Кроме того что будут обработчики висеть.

sun добавил 08.04.2008 в 12:34

Есть способ трудоемкий, но эффективный. Нужно отслеживать активность бота.

Как я вижу: отслеживаем на какие страницы заходит бот, а он будет ломиться на все подряд, рубим ип. Но здесь нужно найти золотую середину, отслеживать поисковых ботов + подсети откуда они ходят. Тогда будет 100% вариант.

Хорошо если несколько сайтов для сбора статистики. Хорошо бы LI открыла свои статы откуда боты поисковиков ходят, можно было бы просто отлавливать парсеры.

devmen.com (http://devmen.com/)

Яндекс кобласит Что делать с ботами? Google: HTML-карта сайта не

48

aleks8897

29 апреля 2008, 06:57

#18

Хм народ а никто не задумывался про то как ищут копипастеры свою жертву ??? Вполне возможно что через белые каталоги ? Хм вероятность встретить жертву с полностью уникальным контентом там гораздо выше чем парсить яндекс (не беру в расчет часто обновляющиеся сайты, так как интересует только спасение своих свежих сайтов). Считаю что новые сайты в этом смысле лучше сразу после создания не прогонять по каталогам. У меня есть старый богом забытый сателит с полностью уникальным контентом, который я не прогонял по каталогам, и он до сих пор полностью остаётся уникальным (хотя и в яше его сложно найти). По своим несозданными и прорегеным сайтам неоднократно после 3-4 недель замечал проиндексированный скопированный материал (НИКАКИЕ RSS ленты и прочее.. не юзал, да и в яндексе, на тот момент мои свеженькие сайты еще далеко в жопе были).

A

82

Asher

29 апреля 2008, 18:54

#19

А может стоит смотреть не в сторону дизайна, а настроек сервера?

Установить модуль Апача вроде mod_evasive и/или mod_limitipconn, вывести модель среднего посетителя по времени нахождения на страничке и количества запросов страничек в единицу времени, увеличить ее на 15-20% на всякий случай и отдельно разрешить полезных поисковых ботов.

Все ИП, что превышают установленные пределы, можно скидывать в отдельный блек-лист и далее по своему усмотрению. Я их обычно баню на сутки.

DI

123

DenIT

29 апреля 2008, 20:01

#20

а чем древний метод с невидимой ссылкой не подходит? Если урлы грабятся автоматически, то сграбится и линк, висящий на какой-нибудь прозрачной гифке 1х1. Но при попадании на этот урл - ip граббера вешается в фаервол, например, на сутки. Для поисковиков можно поставить noindex и прочие запрещающие условия.

А от самописного граббера, написанного конкретно под данный сайт, имхо, очень трудно защититься (особенно если цель - один раз сграббить контент, а не тянуть новости раз в час).

Высказывание идиотского утверждения требует на порядок меньше усилий, чем его последовательное и обоснованное опровержение и более того, иногда это опровержение вообще невозможно. © (http://zhurnal.lib.ru/s/shapiro_m_a/raspidiota.shtml)

Зачем быть уникальным в мире, где все можно скопировать

Дзен реализовал для авторов возможность вывода денег через СПБ

Как строить сайты, защищенные от автоматического выкачивания (эксперимент)