Тырят статьи

C
На сайте с 22.08.2012
Offline
104
#81
Weblady #:

если это вообще не абузоустойчивый хостинг

В вопросах авторского права любой вменяемый хостинг (по сути, кроме тех которыми занимаются в перерывах между парами) абузоустойчивый.

Хотите пытаться бороться с парсингом - ищите откуда идёт парсинг (пул адресов, user-агенты и т.п.). Когда гарантированно (со 100% уверенностью) найдёте, то загрязните для них контент - слепляйте местами слова, заменяйте "омографические" буквы, но без особого усердия - не дайте быстро понять парсеровщикам, что контент испорчен. Добейтесь, того, чтобы они сами не захотели прилагать для чистки контента усилий больше, чем его ценность.

А все жалобы - это пустая трата времени. У меня был случай, когда представитель фонда ВикиМедиа жаловался в OVH. Кроме настойчивых уведомлений в кабинете и по e-mail никаких санкций применено не было.

Weblady
На сайте с 26.07.2011
Offline
141
#82
chaturanga #:

ищите откуда идёт парсинг (пул адресов, user-агенты и т.п.). 

Как найти, откуда идет парсинг?

vashfreelancer
На сайте с 24.10.2023
Offline
27
#83
nrossin #:
А кто-нибудь использует плагины, запрещающие копировать текст и/или добавляющий ссылку на сайт. Работает ли это или есть побочки?

Как дополнение к основной защите это хорошо. Но в основном копируют не ручками, а ботами (скриптами, парсерами), если и ручками - то все лишнее удаляют. Я видел людей, которые самостоятельно копируют контент..)

Защита сайта от ботов - накрутки ПФ, роботность, DDoS, Cloudflare ДДос - https://vashfreelancer.com
C
На сайте с 22.08.2012
Offline
104
#84
Weblady #:

Как найти, откуда идет парсинг?

Здесь однозначного рецепта нет.
Анализировать трафик веб-сервера в первую очередь. Критерии всегда есть. Конечно, если страниц мало, то есть парсится 1-2 в день, то шансов не много. У меня, в основном, опыт с сайтами миллионниками - там это несколько проще.

Также бывает, что страницы не парсятся, а просто используется реверс-прокси, то есть сайт-паразит просто транслирует контент с сайта донора, даже без хранения его у себя. В таком случае достаточно просто в режиме tail-инга отследить запрос в логе.

TB
На сайте с 16.01.2009
Offline
181
#85
chaturanga #:

В вопросах авторского права любой вменяемый хостинг (по сути, кроме тех которыми занимаются в перерывах между парами) абузоустойчивый.

Хотите пытаться бороться с парсингом - ищите откуда идёт парсинг (пул адресов, user-агенты и т.п.). Когда гарантированно (со 100% уверенностью) найдёте, то загрязните для них контент - слепляйте местами слова, заменяйте "омографические" буквы, но без особого усердия - не дайте быстро понять парсеровщикам, что контент испорчен. Добейтесь, того, чтобы они сами не захотели прилагать для чистки контента усилий больше, чем его ценность.

А все жалобы - это пустая трата времени. У меня был случай, когда представитель фонда ВикиМедиа жаловался в OVH. Кроме настойчивых уведомлений в кабинете и по e-mail никаких санкций применено не было.

Глупости. Всё зависит от того, как составить жалобу. Если писать, что некий Вася с такого-то сайта тырит тексты, то ничего не будет. А если составить претензию юридическим языком, при этом в ответчиках указать саму хостинг компанию, т.к. стыренный текст находится на серверах, принадлежащих хостингу, и в случае неудаления пригрозить судом хостингу, то хостинг быстро начинает шевелиться, т.к. ему лишние проблемы не нужны.

C
На сайте с 22.08.2012
Offline
104
#86

Опять, же самое примитивное - посмотрите не идут ли запросы с того же ДЦ, где они хостятся. Да и вообще закройте доступ со всех автономок хетнера, ovh, лизвеба, зомро, do и т.п. - живые пользователи оттуда не придут.

Совсем кривой вариант (если парсят не headless-браузерными ботами) - навесьте проверку js/testcookie, только поисковых ботов не порежьте. Опять же спрячьтесь за cf - вдруг будет достаточно.

Конечно, особо прошаренные будут парсить через, например, гугл-прокси, но опять же всё индивидуально, пока не проанализируешь трафик, выводов и рекомендаций не сделать.

-S
На сайте с 10.12.2006
Offline
Модератор1355
#87
Weblady #:
Как найти, откуда идет парсинг?

Гораздо эффективнее отключать нецелевые страны, 80-90% трафика идет из одной страны чаще всего. В целевых странах есть подсети крупных хостеров, они гуглятся и их также надо блокировать. Также есть лимиты.

Rate limiting rules · Cloudflare Web Application Firewall (WAF) docs
Rate limiting rules · Cloudflare Web Application Firewall (WAF) docs
  • 2023.09.21
  • developers.cloudflare.com
Rate limiting rules allow you to define rate limits for requests matching an expression, and the action to perform when those rate limits are reached. Like other rules evaluated by Cloudflare’s , rate limiting rules have the following basic parameters: An that specifies the criteria you are matching traffic on using the . An that specifies what...
Weblady
На сайте с 26.07.2011
Offline
141
#88
chaturanga #:

Также бывает, что страницы не парсятся, а просто используется реверс-прокси, то есть сайт-паразит просто транслирует контент с сайта донора, даже без хранения его у себя. В таком случае достаточно просто в режиме tail-инга отследить запрос в логе.

В моем случае сайт именно парсится, а не отображается на чужом домене. Заменяются некоторые ссылки, рекламные блоки. Страниц на сайте более 50 тысяч, то есть парсят огромное количество, как можно это отследить?

-S
На сайте с 10.12.2006
Offline
Модератор1355
#89
Weblady #:
как можно это отследить?

Выше написал, никто не будет мучаться с сайтом, где в блоке все, кроме мобильных прокси и лимит на подключение с 1 ip на несколько страниц в минуту.

C
На сайте с 22.08.2012
Offline
104
#90
TonyBlackberry #:

Глупости. Всё зависит от того, как составить жалобу. Если писать, что некий Вася с такого-то сайта тырит тексты, то ничего не будет. А если составить претензию юридическим языком, при этом в ответчиках указать саму хостинг компанию, т.к. стыренный текст находится на серверах, принадлежащих хостингу, и в случае неудаления пригрозить судом хостингу, то хостинг быстро начинает шевелиться, т.к. ему лишние проблемы не нужны.

Школошарашку напугаете, от нормального хостинга получите, что-то вроде (только размазанное на 10+ страниц):

---

Удаление запрашиваемых материалов невозможно до соответсвующего решения компетентного органа (суда и т.п.), так как, не обладая соответствующими правами ХОСТЕР не может выносить оценочных суждений о соответствии действительности требований заявителя, а также законности или незаконности информации, размещенной третьим лицом. Исходя из этого и, поскольку ХОСТЕР не наделен оперативно-розыскными полномочиями и правом устанавливать происхождение контента и/или виновное поведение лица его разместившего, до момента установления компетентным органом нарушения прав заявителя, ХОСТЕР не берёт на себя ответственность за вмешательство во взаимоотношения третьих лиц, и определять противоправность поведения клиента, если деятельность клиента не противоречит правилам ХОСТЕРА.

---

Для вменяемого хостинга действенным фактором будет только решение ркн или суда. Да, они могут притянуть за уши какой-нибудь пункт правил (типа подозрения на фрод) и отключить под левым основанием, но беспричинно на основании жалобы, как бы она не была составлена, нормальный хостер не отключит. Ну а если хостер допускает аракчеевщину, то бежать от него надо без оглядки.

Как пример такого случая, как раз когда викимедиа писал в OVH, параллельный запрос от него ушёл в нэймчип, и тот в итоге мне разделегировал домен, НО не за сам факт жалобы, а за то что я не ответил на их e-mail в течении 14 дней, то есть подвёл под пункт нарушения WDPR, но никак не нарушения авторрских прав. 

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий