Тырят статьи

C
На сайте с 22.08.2012
Offline
104
#91
Weblady #:

В моем случае сайт именно парсится, а не отображается на чужом домене. Заменяются некоторые ссылки, рекламные блоки. Страниц на сайте более 50 тысяч, то есть парсят огромное количество, как можно это отследить?

Как пример, тогчто написал -= Serafim =- 

Для начала проанализируйте частотность запросов per IP, выделите тех, кто обращается к динамике сайта чаще N запросов в час/минуту.

Что получится проверьте по whois или обратной зоне - очистите от поисковых ботов. Всех остальных в бан.

C
На сайте с 22.08.2012
Offline
104
#92

Раз я уже дважды упоминал ситуацию, то опишу её полностью.

Года 3 назад на своём en-сайте я разместил статью из Википедии. Статья была скопирована полностью без всяких правок, то есть включала элементы изображений, ссылки, логотипы и т.п. Так как я стараюсь соблюдать авторские права, то разместил отсылку на лицензию CC BY-SA 4 , ссылку на первоисточник и авторов. Был уверен, что ничего не нарушил.

Страница стала весьма популярной, на неё шло ну очень много трафика, каким-то макаром она даже влетела в рекомендуемый ответ гугла.  А спустя несколько месяцев домен оказывается разделегированным. По определенным причинам у меня был утерян доступ к e-mail, который был указан на хостинге OVH и регистраторе  Нэймчип. Восстановив доступ к почте, обнаруживаю, что на протяжении 14 дней и хостинг и регистратор шлют уведомления об абузе от Фонда Викимедиа о нарушении авторских прав (и права были достаточно основательно подтверждены ссылками/копиями документов,  хотя и так понятно что лого Википедии явно принадлежит Викмедиа).

Списываюсь с Викимедиа (ещё не понимая до конца, что я мог нарушить). Выясняется, что по CC BY-SA 4 я могу копировать и видоизменять текст, а вот оставлять логотипы/плашки Викимедиа нельзя. Обещаю устранить в ближайшее время.

Боясь получить отключение сервера, созваниваюсь с ОВХ (спустя почти час добираюсь до ответственного за мою абузу) - сообщаю, что с заявителем связался и в ближайшее время устраню проблему. Получаю ответ в духе: "до решения суда, нам вообще пофиг будет ли устранена проблема, но нам важен факт реагирования на абузу - отразите это в кабинете"

Пишу в нэймчип, что по абузе ответил и уточняю за что меня отключили. Ответ - за неподтверждение e-mail, то есть не реагирование на e-mail в течении 14 дней они расценили как нарушение wdpr (домен в зоне gTLD). И теперь, раз я таки пишу с этого e-mail, они мне возобновляют делегирование. 

Полностью восстанавливаю работу сайта, ничего ещё не устранив, но уже и не имея претензий ни от хостера, ни от регистратора.

Хэппи-энд: убираю логотипы, пишу в Викимедиа и даже получаю в ответ "спасибо за понимание". На всякий случай дублирую ответы Викимедиа хостеру и регистратору и получаю ещё два "спасибо".

Weblady
На сайте с 26.07.2011
Offline
141
#93
chaturanga #:

Для начала проанализируйте частотность запросов per IP, выделите тех, кто обращается к динамике сайта чаще N запросов в час/минуту.

Спасибо, как это можно сделать? 

C
На сайте с 22.08.2012
Offline
104
#94
Weblady #:

Спасибо, как это можно сделать? 

Поймите, готового рецепта нет. Это всё зависит от настроек вашего веб-сервера, ос и т.п. Наймите разово админа, для такой задачи работы немного.

Здесь вам дадут только рецепты, а не готовое блюдо, но если по шагам, то всё просто:

1) выделить в отдельный локейшин / access-лог.

2) найти самые назойливые ip а-ля

cat /var/log/nginx/example.com | awk '{print $1}' | sort | uniq -c | sort -rn | head -n 10
   1114 77.75.76.165
    445 77.75.78.165
    362 85.208.98.23
    299 85.208.96.203
    271 85.208.96.210
    263 85.208.96.201
    262 85.208.96.211
    257 85.208.96.206
    252 185.191.171.15
    247 185.191.171.14

3) проверить, что это не полезные поисковые боты

# host 77.75.76.165
165.76.75.77.in-addr.arpa domain name pointer fulltextrobot-77-75-76-165.seznam.cz.
# host 85.208.96.210
210.96.208.85.in-addr.arpa domain name pointer 210.bl.bot.semrush.com.

4) сделать для них отдельный map

5) для подпадающих под этот map задйствовтаь ngx_http_sub_module

дальше только зависит от полёта фантазии

Ну и, разумеется, всё это автоматизировать, а не делать руками :)

Weblady
На сайте с 26.07.2011
Offline
141
#95
chaturanga #:

Поймите, готового рецепта нет. Это всё зависит от настроек вашего веб-сервера, ос и т.п. Наймите разово админа, для такой задачи работы немного.

Спасибо большое, надо попытаться хотя бы усложнить задачу парсинга.

Альберт
На сайте с 05.07.2007
Offline
153
#96

Воровство - беда.

Но сейчас бОльшую проблему создают не копипасты даже, а компиляты. Это когда на 1 тему собирают данные из разных источников и сваливают их в кучу. Там уже и с авторскими правами сложнее. Могут часть текста взять, а не весь. Это уже цитирование, а не полное копирование. Поди докажи хоть в суде, хоть через хостинг.

Недавний МПК от Яши выявил эту проблему (мой сайт улетел под МПК из-за компилятов).

За Cloud подвтерждаю - трафик режет жестко. Уже 3-й месяц с ним экспериментирую, много чего для себя открыл))) То закручивал гайки, то откручивал.

Те настройки, которые в мануалах раскиданы по РУнету не вполне корректны. Вот траф и режется. Но советы давать не буду, не дорос))

А вот по поводу блокировок дам совет: сколько я за диджитал океан наблюдал, оттуда прут только роботы, парсеры, сканеры. У них 2 сети - с одной переходы были только четко из Нидердандов ( 14061 ), со второй - Нидерланды и Германия ( 200197 ). Есть и другие сети, например 212238. По началу ставил их на капчу, блокировал отдельные IP,  потом плюнул и полностью заблочил сети.  Поперли боты с других сетей... В итоге я вообще Нидерланды закрыл. Ну сколько там русскоязычных чтобы мне с сетями ботов бороться, стоит ли оно того? В моем случае точно нет.

И да, сетку  8075 тоже блочьте сразу.

Блочьте всякие экзотичексие страны. Как вы думаете, сколько трафика вы можете получить из Афганистана, Бутана, Новой Гвинеи и прочих ? Вам тут правильно пишут - блокируйте не целевые страны. Даже в целевых (допустим СНГ) проблем хватает. А бодаться со всем миром... У вас на это все силы и будут уходить вместо развития сайта.

Просматривайте логи и ставьте ограничения на число запросов. Или настраивайте Claud и там отслеживайте блокируйте.

Но это не панацея. Увы, ее не существует. 100% защита только одна - написать на бумаге и спрятать в стол, а лучше вообще не писать и держать в голове ;)

neutomim30
На сайте с 10.06.2008
Offline
158
#97
TonyBlackberry #:

Глупости. Всё зависит от того, как составить жалобу. Если писать, что некий Вася с такого-то сайта тырит тексты, то ничего не будет. А если составить претензию юридическим языком, при этом в ответчиках указать саму хостинг компанию, т.к. стыренный текст находится на серверах, принадлежащих хостингу, и в случае неудаления пригрозить судом хостингу, то хостинг быстро начинает шевелиться, т.к. ему лишние проблемы не нужны.

глупости пишете вы, ахинею причем...

ваш юридический язык не более чем набор букв для нормального хостера, ну не будет он глушить своего клиента, который приносит деньги, ради рандомного абуза..кто вы, а кто клиент...

и ни-ка-ких проблем хостеру в случае решения суда и (или) РКН, приходит предупреждение об удалении спорного контента, например одной страницы..если не исполнится, РКН может заблочить айпи и доменное имя..

P
На сайте с 09.09.2007
Offline
131
pzn
#98
Альберт #:

В итоге я вообще Нидерланды закрыл. Ну сколько там русскоязычных чтобы мне с сетями ботов бороться, стоит ли оно того?

Часть из них могут быть посетители с впном, это достаточно популярная страна у многих приложений/расширений

Альберт
На сайте с 05.07.2007
Offline
153
#99
pzn #:

Часть из них могут быть посетители с впном, это достаточно популярная страна у многих приложений/расширений

Теоретически - да. На практике в логах нормальных заходов из Нидерландов не видел.

Может быть актуально для сайтов с запрещенкой, под блоком РКН. Но это не случай ТС.

Я и Тор прикрыл, уж больно не хорошие запросы с этого браузера приходят.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий