Внимание! Помогаем составит ФАК, как защитить сайт от..

6666
На сайте с 10.01.2005
Offline
505
50767

Как защитить сайт от воровства контента?

Я понимаю, что способов очень мало и защитить контент от копирования невозможно. Однако есть способы затрудняющие копирование контента. В частности, интересно, как защититься от граббера для говносайтов.

ПС реплики типа "все равно сопрут" убедительная просьба не писать. ;)

Каждое мое сообщение проверила и одобрила Елена Летучая. (c) Для меня очень важно все что Вы говорите! (http://surrealism.ru/123.mp3) .
antono
На сайте с 12.07.2004
Offline
285
#1

Делать для каждой страницы уникальную структуру из тэгов, нумеровать их нелогично, то есть не 1.php,2.php,3.php.

Это усложнит работу грабберов но совсем не спасет (упс, извиняюсь за реплику).

edogs software
На сайте с 15.12.2005
Offline
775
#2

Если именно о грабберах...

1) "Рандомный" html-код. Смотрим общую структуру CMS, откуда начинается контент, за какие тэги мог бы цеплятся граббер и так или иначе дублируем это в html коде. Допустим если контент отделяется <p id="dd">dfdf</p> - то добавляем где-нибудь ещё такой же тэг случайным образом - добавляя туда мусорный контент (можно закрыть от индексирования или видимости). Граббер начнет тянуть "не то".

1.1) Вариация способа, когда сами тэги оформления немного рандомно меняются. Тогда граббер просто не всегда сможет зацепиться и сработать.

2) Класть в контент "скрытую" метку с какой-то информацией. После этого проверять наличие этого скрытой метки на сайте который "тырит" контент. Скрытый код может быть разным (например можно слово какое-то ключевое написать с использованием русских букв, или пробелы по разному нарисовать или комментарий специфический). Есть смысл записывать соответствие "метка" - IP - HTTP_USER_AGENT - реферер. Если где-то на сайте "врага" найдена такая метка, то IP можно смело банить.

3) Банить анонимные прокси, да и открытые тоже. Можно пользоваться базой с maxmind.com (GeoIP). Банить левых юзер-агентов.

4) Для совсем параноиков есть граф.код. Особенно пригождается на сайтах с достаточно постоянной аудиторией. Граф.код вводится один раз при попытке, допустим, просмотра полной новости. После этого IP прошедшего проверку вносится в белый список. Что бы не забанить яндекс и прочие поисковики - сразу внести их IP в белый список, или проверять по reverse DNS и вносить при соответствии. Заодно и от слабых слабых ддосов помогает немного иногда:)

5) По поводу бана - лучше не банить, а отдавать левый контент, например слова, где половина русских букв заменена аналогичными английскими аналогами. Или текст бред полный, но с виду похожий на правду и т.д.. Можно просто надпись "негодяи" написать (иногда живет долго:)). Можно яваскрипт отдавать выводящий что-то не то, или редиректящий на сайт оригинал.

6) В принципе отдавать "правильный" контент только поисковикам. А для людей отдавать смесь русско-английских буков. Не знаем как на это отреагируют поисковики.

P.S.: На самом деле это далеко не полный список способов, просто... ну в общем учитывая предупреждение - ничего не скажем:)

Разработка крупных и средних проектов. Можно с криптой. Разумные цены. Хорошее качество. Адекватный подход. Продаем lenovo legion в спб, дешевле магазинов, новые, запечатанные. Есть разные. skype: edogssoft
6666
На сайте с 10.01.2005
Offline
505
#3
edogs:
В принципе отдавать "правильный" контент только поисковикам. А для людей отдавать смесь русско-английских буков. Не знаем как на это отреагируют поисковики.

Забанят за клоакинг. Потом, что будет читать посетитель сайта? Набор букв?

6666
На сайте с 10.01.2005
Offline
505
#4

Да, от себя: Не нумеруйте джипеги "1.jpg , 2.jpg......"

Видел грабилки, которые тупо пытаются их качать по порядку.

MoMM
На сайте с 16.06.2006
Offline
727
#5

если грабер тянет с картинками, то работать с картинками + поставить код на подмену линков картинок

на "родные" картинки ставить урл сайта видимый, а при личе (часто даже не тащат картинки, а практикуют загрузку с ограбленного сайта) подменять урл на генеренную картинку с текстом типа "эта статья украдена с сайта такого-то"

dkameleon
На сайте с 09.12.2005
Offline
386
#6

Если параллельно с первой задачей ставить вторую: чтобы сайт был проиндексирован.

То первая существенно усложняется: надо защититься от анонимной грабилки, но в то же время выдать нормальный контент грабилке поисовика. Ведь что одно, что другое - по сути обычные грабилки :)

Если же задача индексации не стоит, то методов борьбы с грабберами контента можно напридумывать море :)

Например, яваскриптом устанавливать в куки какой-то хитрый идентификатор и последующую страницу выдавать только если был передан правильный идентификатор.

Кстати, сами куки можно устанавливать не только при загрузке самой ХТМЛ-ки, а и при загрузке любой картинки, внешнего скрипта или таблицы стилей ;)

Дизайн интерьера (http://balabukha.com/)
broken
На сайте с 03.10.2006
Offline
228
#7

делаем два вида контента.

1. отдаем пользователю - из БД текст по средством одной простой :) строчки на php превращается в картиночку. и юзер читает, и фик сграбишь.

2. для поисковика отдаем контент без пробелов- попробуй расшифруй.

а вообще, я делаю часто сайты на флэше - селектабельный текст жрется поисковиками. а небольшой скрипт не дает скопировать в буфер блокируя комбинации клавишь и команды.

cide
На сайте с 27.05.2006
Offline
109
#8

Подписывайте фото и видео контент своими копирайтами, какая не какая, но тоже защита :)

leonid.ws
На сайте с 14.07.2006
Offline
137
#9

Пишем небольшой скрипт, который работает по крону и через каждые 5 минут проверяет лог. Если в логе больше х запросов от одного ip за 5 минут - баним через .htaccess.

От проксей не спасает, помогает от парсинга крупных сайтов.

S
На сайте с 13.07.2007
Offline
56
#10

Имхо, единственный приемлемый технический вариант: почаще менять внутреннюю структуру сайта.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий