Мы, наверно, о разном говорим. В том то и дело, что лично мне на эти 100% ботов плевать, они мне не мешают.
Я конкретно про тех, кто целенаправленно, вручную пишут скрипты, чтобы весь контент сайта скопировать и на другой сайт вставить.
Как от таких защититься блэк-листами? Да никак, потому что они не боты, а живые люди.
Никто не пишет парсеры конкретно под ваш сайт, плюс чаще это не парсинг а проксирование. Как раз эти скрипты и входят в те 100% ботов.
Состояние и берется только тогда, когда его откладывают вообще-то (в банк, в акции или в бриллианты под подушку - дело вкуса)!
Ну то есть миллионеры наоткладывали или может заработали? 😀 Откладывают с зарплаты копейки. Состоятельный - у которого уже есть что нужно.
Состоятельный, который откладывает. Как каламбур звучит.
Значит нужно подавать в суд без промедления!
Убрать 90% парсеров и ботов можно легко, просто блокируя ненужные страны и подсети. А если детектить обращение к множеству страниц за короткий промежуток, то можно и 99% убрать, добавив в вайтлист нужные боты.
В блеклист все страны, откуда не идет основной трафик + подсети хостеров.
Защита от парсеров сокрытием стандартных путей... ну это дилетантство какое-то.
лично я вообще не вспоминаю никогда про них. Само всё обновляется.
Очень рад за тебя, только к общей ситуации это мало относится.
Ну эта глупая шутка от непонимания процессов. Нормальные и легальные краулеры все ставят юзер-агенты по которым можно блчить, тот же ахрефс или бинг, которые очень могут грузить. Понятно, что нелегальные парсеры не ставят в юзер-агент что они парсеры, потому и было написано про подсети.
Постоянно сканировать сайт 200-500 тыс страниц на наличие обновлений?
Парсеру проще сверять список, и после этого "приватизировать" авторскую статью на говнобложик
Сайтмапы часто не обновляются и никто в здравом уме не будет полагаться на сайтам при парсинге. И при частом сканировании это проблемы сайта будут, а не парсера.
Кто скрывал от парсеров свои сайтмапы будут неприятно удивлены тому факту, что Google стал показывать рядом с выдачей истинный путь к карте сайтов.
То есть, для парсеров раньше было препятствием отсутствие списка адресов всех страниц сайта.
А сейчас всё... спаслил google наши карты.
1. Зачем скрывать от парсеров сайтмапы если они могут просто парсить сайт без них?
2. Парсеры блочат по странам, подсетям или по User-Agent, а не скрывают из стандартных путей.
Когда у молодежи что-то признается запрещенным, то это хочется слушать с удвоенным желанием. Запрет поощряет к использованию. Когда реально что-то запрещают, чтобы запретить - об этом не говорят, просто принимают жесткие меры.
Просто качество всего должно быть повыше, тогда 2 ни на что не хватит.