Как усложнить парсинг сайта?

123 4
B
На сайте с 13.02.2008
Offline
262
2599

Имеется сайт с хорошо структурированной информацией. Многие со временем создали его клоны, причем тупо парсят вместе с разметкой и стилями.

В общем решил создать сложности парсерам. Ручной копипаст мне вреда не приносит.

Пока в голове крутятся мысли смены классов у стилей или смены разметки, например чтобы все страницы немного друг от друга разметкой отличались или чтобы разметка на лету немного рандомно менялась...

Может у кого идеи какие будут, как с минимальными усилиями программно усложнить жизнь парсеров? Конкуренты там сами не спецы в программировании - пусть на каждый чих нанимают спецов.

Также хотелось бы понять, как к таким постоянным изменениям разметки отнесутся поисковики?

R
На сайте с 20.02.2015
Offline
59
#1

Пару простых вариантов, отпугнут школьников которые тупо запрашивают страницу типа file_get_contents

Проверять на не пустой user-agent, если пустой то тупо редиректить. Решается в две строчи в htaccess.

Второй по сложней.

Проверка включенного javascript и записанного куки JS скриптом.

Если user-agent не поисковый робот/разрешенный бот и не записана кука, то редиректить на специально подготовленную страницу со скриптом который пишет некую куку к примеру valid=true и перенапровляет обратно на точку входа и так по кругу пока не запишится кука скриптом.

Разметку менять это скорее плохой вариант.

B
На сайте с 13.02.2008
Offline
262
#2

rereg, нет, по поисковым роботам я фильтровать не хочу, т.к. любая ошибка будет сильно критичной.

Но у меня не стоит задача полностью запрещать парсинг, мне достаточно лишь усложнить его, но усложнить осторожно, не навредя сайту. Инфа там структурированная, поэтому при парсинге имеет значение как блоки вычленять. Также информация такого рода, что недопустимы искажения. И информация периодически обновляется, поэтому парсят ее также периодически.

В общем если у копипастеров возникнет регулярно постоянно обращаться к программисту для перенастройки парсера, это меня устроит.

Или вообще не дергаться? У меня сейчас по посещаемости и всем прочим параметрам 4-100 кратное преимущество.

K
На сайте с 03.06.2015
Offline
45
#3

Это невозможно. Все можно украсть. Забейте. Подумаешь день посидеть. Да ваши эти стили и id не стучат. У вас есть шаблон - он и есть ключ. Вы можете менять верстку случайно? Ну и все.

ЗЫ я систематически пишу скрипты для тыренья и знаю что говорю. Стили и ID это так, mercy сказать, with no mercy я стырю все точно так же.

MYSQL PHP JS HTML CSS SEO TXT США СССР
B
На сайте с 13.02.2008
Offline
262
#4
kostyanet:
Вы можете менять верстку случайно?

Могу без проблем. Там десятки тысяч страниц. Пока подумываю над вариантом небольших изменений верстки в зависимости от содержимого страницы, например от объема или еще чего-нибудь. Т.е. некоторые страницы будут отличаться версткой.

Или просто буду периодически (раз в несколько месяцев) менять верстку, так как не дело, что они и верстку блоков один в один копируют - поисковики этого не любят.

Подчеркну - воровство самого по себе контента меня мало волнует, проблема в том, что они копируют всё до малейших деталей, включая структуру информации и стили.

TF-Studio
На сайте с 17.08.2010
Offline
334
#5

Никак.

Захотят - что угодно спарсят

Всё ещё лучший способ заработка для белых сайтов: GoGetLinks (https://www.gogetlinks.net/?inv=fahbn8).
B
На сайте с 13.02.2008
Offline
262
#6
TF-Studio:
Захотят - что угодно спарсят

Это я понимаю. Но меня устроит простое усложнение жизни парсера и удорожание услуг программиста. Те, кто действительно представляет проблему, не являются сами IT-специалистами, они будут нанимать программиста на каждое изменение парсера, а это деньги и время. Думаю, большинство из них забъет на регулярные парсинги и останется с тем вариантом, который успели спарсить ранее. Это меня также устроит.

Оптимизайка
На сайте с 11.03.2012
Offline
396
#7

Для начала забаньте все ip-подсети основных провайдеров, откуда к вам лезут. Далее - поставьте лимиты на кол-во загружаемых страниц в час. Это не потребует вносить никаких изменений на сайт.

⭐ BotGuard (https://botguard.net) ⭐ — защита вашего сайта от вредоносных ботов, воровства контента, клонирования, спама и хакерских атак!
ДП
На сайте с 23.11.2009
Offline
203
#8

Насколько я в курсе, у какого-то cdn была защита от ботов (cloudfront вроде) - сначала загружалась страница, там выполнялся js и затем уже открывалась нужная страница.

Еще есть какая-то защита на https://www.crunchbase.com/ - попробуйте дернуть несколько раз страницу скриптом - там по-моему будет название сервиса.

Но это если внешние сервисы использовать - они денег стоят и как на Seo отразятся - не знаю.

B
На сайте с 13.02.2008
Offline
262
#9

Оптимизайка, некоторые люди wget-ом или подобными утилитами мой сайт скачивают, чтобы потом локально на своем компе работать. Их затрагивать я не хочу. Я лишь ограничил их скоростью скачки - не более 5-ти страниц в секунду.

Хотя я в принципе наверно смогу точно узнать, с каких ip идет интересующая меня закачка. В общем надо подумать над этим вариантом, спасибо.

Оптимизайка
На сайте с 11.03.2012
Offline
396
#10
borisd:
Оптимизайка, некоторые люди wget-ом или подобными утилитами мой сайт скачивают

Люди скачивают из дома, а злодеи - из серверов на амазоне, хетцнере и пр. Баньте хостинги.

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий