Защита от парсинга сайта

1 234 5
Ervin
На сайте с 15.08.2008
Offline
112
#21

bearman, в данном случае меня мало интересует валидность вёрстки. Меня интересует сам принцип. Если не можете сказать по существу - скажите что и где мне читать/искать.

Credendo vidas!
Brand from Amber
На сайте с 18.08.2007
Offline
293
#22

bearman, +1

Лучший способ понять что-то самому - объяснить это другому.
[Удален]
#23

одна из смешных для меня, но отпугивающая школьников наповал была на амазоне в свое время, сейчас не знаю как там, там было несколько ксс файлов и один из них был "убирающий шум", потому что хтмл содержал огромное кол-во тегов с контентом которые ничего не значили, все они были display: none :D

ну потратил я тогда не час, а два, ну а школоту да, похоронит это

Brand from Amber
На сайте с 18.08.2007
Offline
293
#24
pelvis:
В чем отличие парсера от бота ПС?

Ботов ПС мы знаем в лицо =) (ЮзерАгенты, подсети, география)

pelvis
На сайте с 01.09.2005
Offline
345
#25
Brand from Amber:
Ботов ПС мы знаем в лицо =)

Ну это обычно не пугает тех, кто чуть из-за школьной парты встал.

А хотите, я его стукну? Он станет фиолетовым.. в крапинку (с)

Продаю вывески. Задарма и задорого (https://www.ledsvetzavod.ru/)
Brand from Amber
На сайте с 18.08.2007
Offline
293
#26
pelvis:
Ну это обычно не пугает тех, кто чуть из-за школьной парты встал.

Однако смысл сказанного мне непонятен

Я сейчас заканчиваю разработку системы фильтрации скликов ЯДа, так там 30% ботов отсеивается именно пробивкой по IP. т.е: стучится к нам кто-либо - первым делом смотрим страну, вторым - регион, третьим - провайдера... левые страны, регионы (в ЯДе с геотаргетингом проще), левые провайдеры (датацетнры, хостинг-провайдеры... и т.п..) сразу идут садом (получают достаточно большой процент вероятности). Так-что непуганые "ЧутьПослеШкольники" нам не страшны - сами с усами.

Ervin
На сайте с 15.08.2008
Offline
112
#27

pelvis, я понял, спасибо :)

Brand from Amber:
P.S. Кстати... самый простой способ обойти все ваши защиты - дёрнуть контент из кеша ПС, так-что не обольщайтесь ;)

Ну так в кеше он тоже будет "разбавленный", так сказать...

Да и понятно, что если надо будет - всё сольют :) Я хочу просто усложнить задачу, чтобы усилия на настройку парсера были больше, чем ценность слитой инфы... ну или хотя бы больше, чем усилия на парсинг другого, не моего сайта ))

Anton Pbn
На сайте с 15.01.2010
Offline
128
#28

Главное на сайт не ставьте различные XML интерфейсы, типа RSS тогда проблем будет меньше с парсингом.

Ink-developer
На сайте с 31.01.2009
Offline
138
#29
Ervin:
То есть, чтобы осложнить жизнь парсеру, можно периодически менять порядок и количество тегов, вроде
<html>

<div class="article">
<table width="100%">
<p>ТЕКСТ</p>
</table>
</div>
</html>

<html>

<div class="superarticle">
<div class="article">
<table height="100%" width="99%">
<p>ТЕКСТ</p>
</table>
</div>
</div>
</html>

<html>

<div class="article">
<div>
<p>ТЕКСТ</p>
</div>
</div>
</html>

?

И чем вы тут усложнили? Обсолютно ни чем всегда контент тут: <p></p>, а парсер на другое и смотреть не будет и соответственно не догадается об усложнении ему жизни :)

И как бы вы не делали всегда можно будет зацепиться за что ни буть чтобы парсить. В итоге советую просто не забивать мозг, больше времени потратите на придумывание защиты чем человек на написание парсера.

[Удален]
#30
Gar-ant:
Главное на сайт не ставьте различные XML интерфейсы, типа RSS тогда проблем будет меньше с парсингом.

ню-ню- :::)

1 234 5

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий