- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
В моем случае сайт именно парсится, а не отображается на чужом домене. Заменяются некоторые ссылки, рекламные блоки. Страниц на сайте более 50 тысяч, то есть парсят огромное количество, как можно это отследить?
Как пример, тогчто написал -= Serafim =-
Для начала проанализируйте частотность запросов per IP, выделите тех, кто обращается к динамике сайта чаще N запросов в час/минуту.
Что получится проверьте по whois или обратной зоне - очистите от поисковых ботов. Всех остальных в бан.
Раз я уже дважды упоминал ситуацию, то опишу её полностью.
Года 3 назад на своём en-сайте я разместил статью из Википедии. Статья была скопирована полностью без всяких правок, то есть включала элементы изображений, ссылки, логотипы и т.п. Так как я стараюсь соблюдать авторские права, то разместил отсылку на лицензию CC BY-SA 4 , ссылку на первоисточник и авторов. Был уверен, что ничего не нарушил.
Страница стала весьма популярной, на неё шло ну очень много трафика, каким-то макаром она даже влетела в рекомендуемый ответ гугла. А спустя несколько месяцев домен оказывается разделегированным. По определенным причинам у меня был утерян доступ к e-mail, который был указан на хостинге OVH и регистраторе Нэймчип. Восстановив доступ к почте, обнаруживаю, что на протяжении 14 дней и хостинг и регистратор шлют уведомления об абузе от Фонда Викимедиа о нарушении авторских прав (и права были достаточно основательно подтверждены ссылками/копиями документов, хотя и так понятно что лого Википедии явно принадлежит Викмедиа).
Списываюсь с Викимедиа (ещё не понимая до конца, что я мог нарушить). Выясняется, что по CC BY-SA 4 я могу копировать и видоизменять текст, а вот оставлять логотипы/плашки Викимедиа нельзя. Обещаю устранить в ближайшее время.
Боясь получить отключение сервера, созваниваюсь с ОВХ (спустя почти час добираюсь до ответственного за мою абузу) - сообщаю, что с заявителем связался и в ближайшее время устраню проблему. Получаю ответ в духе: "до решения суда, нам вообще пофиг будет ли устранена проблема, но нам важен факт реагирования на абузу - отразите это в кабинете"
Пишу в нэймчип, что по абузе ответил и уточняю за что меня отключили. Ответ - за неподтверждение e-mail, то есть не реагирование на e-mail в течении 14 дней они расценили как нарушение wdpr (домен в зоне gTLD). И теперь, раз я таки пишу с этого e-mail, они мне возобновляют делегирование.
Полностью восстанавливаю работу сайта, ничего ещё не устранив, но уже и не имея претензий ни от хостера, ни от регистратора.
Хэппи-энд: убираю логотипы, пишу в Викимедиа и даже получаю в ответ "спасибо за понимание". На всякий случай дублирую ответы Викимедиа хостеру и регистратору и получаю ещё два "спасибо".
Для начала проанализируйте частотность запросов per IP, выделите тех, кто обращается к динамике сайта чаще N запросов в час/минуту.
Спасибо, как это можно сделать?
Спасибо, как это можно сделать?
Поймите, готового рецепта нет. Это всё зависит от настроек вашего веб-сервера, ос и т.п. Наймите разово админа, для такой задачи работы немного.
Здесь вам дадут только рецепты, а не готовое блюдо, но если по шагам, то всё просто:
1) выделить в отдельный локейшин / access-лог.
2) найти самые назойливые ip а-ля
3) проверить, что это не полезные поисковые боты
4) сделать для них отдельный map
5) для подпадающих под этот map задйствовтаь ngx_http_sub_module
дальше только зависит от полёта фантазии
Ну и, разумеется, всё это автоматизировать, а не делать руками :)
Поймите, готового рецепта нет. Это всё зависит от настроек вашего веб-сервера, ос и т.п. Наймите разово админа, для такой задачи работы немного.
Спасибо большое, надо попытаться хотя бы усложнить задачу парсинга.
Воровство - беда.
Но сейчас бОльшую проблему создают не копипасты даже, а компиляты. Это когда на 1 тему собирают данные из разных источников и сваливают их в кучу. Там уже и с авторскими правами сложнее. Могут часть текста взять, а не весь. Это уже цитирование, а не полное копирование. Поди докажи хоть в суде, хоть через хостинг.
Недавний МПК от Яши выявил эту проблему (мой сайт улетел под МПК из-за компилятов).
За Cloud подвтерждаю - трафик режет жестко. Уже 3-й месяц с ним экспериментирую, много чего для себя открыл))) То закручивал гайки, то откручивал.
Те настройки, которые в мануалах раскиданы по РУнету не вполне корректны. Вот траф и режется. Но советы давать не буду, не дорос))
А вот по поводу блокировок дам совет: сколько я за диджитал океан наблюдал, оттуда прут только роботы, парсеры, сканеры. У них 2 сети - с одной переходы были только четко из Нидердандов ( 14061 ), со второй - Нидерланды и Германия ( 200197 ). Есть и другие сети, например 212238. По началу ставил их на капчу, блокировал отдельные IP, потом плюнул и полностью заблочил сети. Поперли боты с других сетей... В итоге я вообще Нидерланды закрыл. Ну сколько там русскоязычных чтобы мне с сетями ботов бороться, стоит ли оно того? В моем случае точно нет.
И да, сетку 8075 тоже блочьте сразу.
Блочьте всякие экзотичексие страны. Как вы думаете, сколько трафика вы можете получить из Афганистана, Бутана, Новой Гвинеи и прочих ? Вам тут правильно пишут - блокируйте не целевые страны. Даже в целевых (допустим СНГ) проблем хватает. А бодаться со всем миром... У вас на это все силы и будут уходить вместо развития сайта.
Просматривайте логи и ставьте ограничения на число запросов. Или настраивайте Claud и там отслеживайте блокируйте.
Но это не панацея. Увы, ее не существует. 100% защита только одна - написать на бумаге и спрятать в стол, а лучше вообще не писать и держать в голове ;)
Глупости. Всё зависит от того, как составить жалобу. Если писать, что некий Вася с такого-то сайта тырит тексты, то ничего не будет. А если составить претензию юридическим языком, при этом в ответчиках указать саму хостинг компанию, т.к. стыренный текст находится на серверах, принадлежащих хостингу, и в случае неудаления пригрозить судом хостингу, то хостинг быстро начинает шевелиться, т.к. ему лишние проблемы не нужны.
глупости пишете вы, ахинею причем...
ваш юридический язык не более чем набор букв для нормального хостера, ну не будет он глушить своего клиента, который приносит деньги, ради рандомного абуза..кто вы, а кто клиент...
и ни-ка-ких проблем хостеру в случае решения суда и (или) РКН, приходит предупреждение об удалении спорного контента, например одной страницы..если не исполнится, РКН может заблочить айпи и доменное имя..
В итоге я вообще Нидерланды закрыл. Ну сколько там русскоязычных чтобы мне с сетями ботов бороться, стоит ли оно того?
Часть из них могут быть посетители с впном, это достаточно популярная страна у многих приложений/расширений
Часть из них могут быть посетители с впном, это достаточно популярная страна у многих приложений/расширений
Теоретически - да. На практике в логах нормальных заходов из Нидерландов не видел.
Может быть актуально для сайтов с запрещенкой, под блоком РКН. Но это не случай ТС.
Я и Тор прикрыл, уж больно не хорошие запросы с этого браузера приходят.