Хочу защитить проект от парсинга

123 4
B
На сайте с 13.02.2008
Offline
262
2695

Господа, у меня на подходе интересный проект и в силу интересности он однозначно вызовет интерес всяких нехороших вредных личностей, поэтому будет нуждаться в защите.

Контентом там будут не авторские тексты, а некая весьма полезная информация, являющаяся результатом работы некоего аналитического алгоритма. Поэтому каждая индивидуальная страница объектом авторских прав являться не будет, ее и не требуется защищать от копипаста.

Т.е. каждую индивидуальную страницу защищать от копипаста не надо. Если кому то данные со страницы понадобятся - пусть копипастят.

А надо защитить сайт от полного парсинга всех страниц, т.е. надо защитить от создания полных копий сайта. И то лишь в период юности сайта. Количество страниц будет - несколько десятков тысяч.

Также не стоит задача полностью исключить возможность парсинга, достаточно будет сильно усложнить. Потенциальные вредители - не из нашей среды, сами они парсеры писать не умеют и не будут, они будут эту работу заказывать на стороне. Поэтому требуется, чтобы эта работа не была дешевой.

Основным методом доступа к нужной странице на сайте будет встроенный поиск.

Пока склоняюсь к такому решению:

1) Пока сайт молодой доступ ко всем страницам через ссылки категорий исключить. Оставить доступ к страницам только через строку поиска.

2) К урлам добавить случайные щепотки соли, чтобы основываясь на структуре урлов нельзя было написать парсер.

3) Для индексации поисковыми системами (Гуглом и Яндексом) создать карту сайта, но не публиковать ее на самом сайте, а загрузить в панели вебмастера поисковиков.

Что думаете? Поможет? Может быть еще что посоветуете?

Присущ
На сайте с 06.01.2011
Offline
929
#1

borisd, Баньте всякого кто с нездоровым интересом и все. Другого пути нет. Айпи всякого кто ведет себя странно не похоже на среднего пользуна, в бан беспощадно. + жесткое кеширование, контроль за rss, не стандартные пагенации и тд. Но что мне говорит, что все равно не справитесь или проблема преувеличена.

Прототипы и юзабилити, чтоб продавал и в топ попал Анализ сложившихся бизнес моделей и поиска точек роста Директ — от 2500 р, включая бюджет на клики / Аудит РК до и после запуска — от 5000 р
AdelinaHost
На сайте с 21.11.2012
Offline
169
#2

Легче на уровне сервера добавить капчу или какую нибудь другую защиту. Открыли 5 страниц сразу = введи капчу

ADELINAhost - На рынке с 2012 года! - Шаред Хостинг, VPS, Выделенные Сервера, VPN . (https://lyrics.az)
Локации: Россия, США, Англия, Германия, Франция, Нидерланды, Украина, Сингапур, Австралия, Япония, Австрия (https://www.adelinahost.com/ru)
Присущ
На сайте с 06.01.2011
Offline
929
#3
AdelinaHost:
Легче на уровне сервера добавить капчу или какую нибудь другую защиту. Открыли 5 страниц сразу = введи капчу

И распугали пользователей))))) + капчу пройти можно, если нужно.

B
На сайте с 13.02.2008
Offline
262
#4
AdelinaHost:
Легче на уровне сервера добавить капчу или какую нибудь другую защиту. Открыли 5 страниц сразу = введи капчу

Кстати, спасибо, что напомнили про капчу. Только лучше не капчу выдавать, а молча что-нибудь не так делать, чтобы нарушать работу парсера, причем случайным образом - пусть ломают голову. И скачку в несколько потоков надо будет на корню пресекать, но это будет на стороне nginx. Сталкивался уже - видел, как идиоты каким нибудь wget-ом в сотню параллельных потоков пытались скачивать.

---------- Добавлено 25.10.2016 в 13:54 ----------

Присущ:
И распугали пользователей)))))

Да, этого допустить никак нельзя.

E
На сайте с 21.06.2008
Offline
74
#5

Реально никак не сделать защиту. Парсят все даже YA и G

Ссылки тут интересные . (to-ali.com)
Присущ
На сайте с 06.01.2011
Offline
929
#6
evova:
Реально никак не сделать защиту. Парсят все даже YA и G

100% нельзя, но покупка многих тысяч айпи (необходимого количества) бывает оказывается излишне дорогим удовольствием и не всякому подьемным. Ибо купить сейчас одно, а наторговать результатом на нужную сумму - другое.

B
На сайте с 13.02.2008
Offline
262
#7
evova:
Реально никак не сделать защиту. Парсят все даже YA и G

Обратите внимание на то, что мне не требуется 100%-я защита. Мне по сути нужна фора по времени. У меня уже есть опыт таких интересных проектов. По началу он хоть и интересен многим в плане повторения, но вкладывать не очень копеешные деньги в копипаст или серьезные деньги в полную разработку аналога желающих обычно не находится. А вот когда ресурс активно занимает топы по тысячам позиций и жестко там устраивается, тогда уже подтягиваются люди с денежными ресурсами, но... уже поздно как правило.

Поэтому мне нужна лишь фора по времени, нужно лишь чтобы тупо не смогли сделать копипастные клоны дешевыми средствами. Пока сайт молод и не набрал какого-то веса.

ZomBat
На сайте с 08.10.2016
Offline
24
#8

Если необходимо что бы google и юзер "адекватно" могли читать сайт, то от копирования контента, не как не защититься.

borisd:
Поэтому мне нужна лишь фора по времени

Фора по времени будет вида количество_страниц*делай*обработка.

в свободное время шаманю над веб-окружением VPS...
tommy-gung
На сайте с 22.11.2006
Offline
287
#9
borisd:
Потенциальные вредители - не из нашей среды, сами они парсеры писать не умеют и не будут, они будут эту работу заказывать на стороне. Поэтому требуется, чтобы эта работа не была дешевой.

те, кто занимаются парсингом, знают, как обходить подобные защиты

Присущ:
покупка многих тысяч айпи (необходимого количества)

столько и не нужно. на 20к страниц-то. даже самые "тормознутые-защищенные" с таким количеством парсятся за сутки

Здесь не могла быть ваша реклама
_
На сайте с 24.03.2008
Offline
381
#10
ZomBat:
Если необходимо что бы google и юзер "адекватно" могли читать сайт, то от копирования контента, не как не защититься.

Вроде бы ботов гугла можно определять довольно уверенно.

Не всех конечно. Но тех кто забирает помногу можно.

Более того, они (боты) слушаются обычно директив.

Весь вопрос в том, сколько типичному юзеру надо страниц.

Если одна - две :), то можно больше двух на 1 ip и не отдавать, в сутки.

Да - это сурово, но такова жизнь.

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий