В моем случае сайт именно парсится, а не отображается на чужом домене. Заменяются некоторые ссылки, рекламные блоки. Страниц на сайте более 50 тысяч, то есть парсят огромное количество, как можно это отследить?
Как пример, тогчто написал -= Serafim =-
Для начала проанализируйте частотность запросов per IP, выделите тех, кто обращается к динамике сайта чаще N запросов в час/минуту.
Что получится проверьте по whois или обратной зоне - очистите от поисковых ботов. Всех остальных в бан.
Глупости. Всё зависит от того, как составить жалобу. Если писать, что некий Вася с такого-то сайта тырит тексты, то ничего не будет. А если составить претензию юридическим языком, при этом в ответчиках указать саму хостинг компанию, т.к. стыренный текст находится на серверах, принадлежащих хостингу, и в случае неудаления пригрозить судом хостингу, то хостинг быстро начинает шевелиться, т.к. ему лишние проблемы не нужны.
Школошарашку напугаете, от нормального хостинга получите, что-то вроде (только размазанное на 10+ страниц):
---
Удаление запрашиваемых материалов невозможно до соответсвующего решения компетентного органа (суда и т.п.), так как, не обладая соответствующими правами ХОСТЕР не может выносить оценочных суждений о соответствии действительности требований заявителя, а также законности или незаконности информации, размещенной третьим лицом. Исходя из этого и, поскольку ХОСТЕР не наделен оперативно-розыскными полномочиями и правом устанавливать происхождение контента и/или виновное поведение лица его разместившего, до момента установления компетентным органом нарушения прав заявителя, ХОСТЕР не берёт на себя ответственность за вмешательство во взаимоотношения третьих лиц, и определять противоправность поведения клиента, если деятельность клиента не противоречит правилам ХОСТЕРА.
Для вменяемого хостинга действенным фактором будет только решение ркн или суда. Да, они могут притянуть за уши какой-нибудь пункт правил (типа подозрения на фрод) и отключить под левым основанием, но беспричинно на основании жалобы, как бы она не была составлена, нормальный хостер не отключит. Ну а если хостер допускает аракчеевщину, то бежать от него надо без оглядки.
Как пример такого случая, как раз когда викимедиа писал в OVH, параллельный запрос от него ушёл в нэймчип, и тот в итоге мне разделегировал домен, НО не за сам факт жалобы, а за то что я не ответил на их e-mail в течении 14 дней, то есть подвёл под пункт нарушения WDPR, но никак не нарушения авторрских прав.
Опять, же самое примитивное - посмотрите не идут ли запросы с того же ДЦ, где они хостятся. Да и вообще закройте доступ со всех автономок хетнера, ovh, лизвеба, зомро, do и т.п. - живые пользователи оттуда не придут.
Совсем кривой вариант (если парсят не headless-браузерными ботами) - навесьте проверку js/testcookie, только поисковых ботов не порежьте. Опять же спрячьтесь за cf - вдруг будет достаточно.
Конечно, особо прошаренные будут парсить через, например, гугл-прокси, но опять же всё индивидуально, пока не проанализируешь трафик, выводов и рекомендаций не сделать.
Как найти, откуда идет парсинг?
Здесь однозначного рецепта нет.Анализировать трафик веб-сервера в первую очередь. Критерии всегда есть. Конечно, если страниц мало, то есть парсится 1-2 в день, то шансов не много. У меня, в основном, опыт с сайтами миллионниками - там это несколько проще.
Также бывает, что страницы не парсятся, а просто используется реверс-прокси, то есть сайт-паразит просто транслирует контент с сайта донора, даже без хранения его у себя. В таком случае достаточно просто в режиме tail-инга отследить запрос в логе.
если это вообще не абузоустойчивый хостинг
В вопросах авторского права любой вменяемый хостинг (по сути, кроме тех которыми занимаются в перерывах между парами) абузоустойчивый.
Хотите пытаться бороться с парсингом - ищите откуда идёт парсинг (пул адресов, user-агенты и т.п.). Когда гарантированно (со 100% уверенностью) найдёте, то загрязните для них контент - слепляйте местами слова, заменяйте "омографические" буквы, но без особого усердия - не дайте быстро понять парсеровщикам, что контент испорчен. Добейтесь, того, чтобы они сами не захотели прилагать для чистки контента усилий больше, чем его ценность.
А все жалобы - это пустая трата времени. У меня был случай, когда представитель фонда ВикиМедиа жаловался в OVH. Кроме настойчивых уведомлений в кабинете и по e-mail никаких санкций применено не было.
Если очень хочется наступить на грабли, тоhttps://regex101.com/r/znDnRq/1
Back reference тут нафиг не нужен, всё проще
https://regex101.com/r/pLL162/1
например, Гугл Ньюз?
https://news.google.com/
не блокируется
Как обстоят дела с блокировками? Есть ли у вас свой РКН?)
Блокируют провайдеры на основании списков предоставляемых белгиэ.
Вы не понимаете. Никто ничего не переопределяет, а заключает договор, условия которого принимают обе договаривающиеся стороны, в соответствии с законами того самого правового государства. Система в лице судов и надзирающих органов работает на основе императивных норм, прописанных в законодательстве, а коммерческий договор заключается по соглашению сторон.
Вы не хотите замечать, что в случае определения авторства контента возникает 3-я сторона. И в тот момент, когда хостер берет на себя право определить авторство он уже регулирует взаимоотношения третьих лиц.Отсюда 2 вопроса:Какой пункт в договоре может позволить хостеру наделять себя правом определить авторство?Какой пункт в договоре может позволить хостеру наделять себя правом регулировать взаимоотношения третьих лиц?
Не наделяет. Просто договор заключается с принятием условий, которые в нём прописаны. А там могут быть прописаны самые разные условия.
То есть хостер переопределяет правовые атрибуты вышестоящей системы, тем самым нарушая принципы верховенства права. Это и значит, что он наделяет себя полномочиями, которых у него нет и быть не может (в правовом государстве).
а среди нарушений встречались и нарушение авторских прав
Вот только хостер не имеет права выносить оценку того нарушены авторские права или нет. В противном случае он наделяет себя полномочиями суда/ркн.