Защита от парсинга сайта

1 234 5
Ervin
На сайте с 15.08.2008
Offline
112
#21

bearman, в данном случае меня мало интересует валидность вёрстки. Меня интересует сам принцип. Если не можете сказать по существу - скажите что и где мне читать/искать.

Credendo vidas!
Brand from Amber
На сайте с 18.08.2007
Offline
291
#22

bearman, +1

Лучший способ понять что-то самому - объяснить это другому.
[Удален]
#23

одна из смешных для меня, но отпугивающая школьников наповал была на амазоне в свое время, сейчас не знаю как там, там было несколько ксс файлов и один из них был "убирающий шум", потому что хтмл содержал огромное кол-во тегов с контентом которые ничего не значили, все они были display: none :D

ну потратил я тогда не час, а два, ну а школоту да, похоронит это

Brand from Amber
На сайте с 18.08.2007
Offline
291
#24
pelvis:
В чем отличие парсера от бота ПС?

Ботов ПС мы знаем в лицо =) (ЮзерАгенты, подсети, география)

pelvis
На сайте с 01.09.2005
Offline
345
#25
Brand from Amber:
Ботов ПС мы знаем в лицо =)

Ну это обычно не пугает тех, кто чуть из-за школьной парты встал.

А хотите, я его стукну? Он станет фиолетовым.. в крапинку (с)

Продаю вывески. Задарма и задорого (https://www.ledsvetzavod.ru/)
Brand from Amber
На сайте с 18.08.2007
Offline
291
#26
pelvis:
Ну это обычно не пугает тех, кто чуть из-за школьной парты встал.

Однако смысл сказанного мне непонятен

Я сейчас заканчиваю разработку системы фильтрации скликов ЯДа, так там 30% ботов отсеивается именно пробивкой по IP. т.е: стучится к нам кто-либо - первым делом смотрим страну, вторым - регион, третьим - провайдера... левые страны, регионы (в ЯДе с геотаргетингом проще), левые провайдеры (датацетнры, хостинг-провайдеры... и т.п..) сразу идут садом (получают достаточно большой процент вероятности). Так-что непуганые "ЧутьПослеШкольники" нам не страшны - сами с усами.

Ervin
На сайте с 15.08.2008
Offline
112
#27

pelvis, я понял, спасибо :)

Brand from Amber:
P.S. Кстати... самый простой способ обойти все ваши защиты - дёрнуть контент из кеша ПС, так-что не обольщайтесь ;)

Ну так в кеше он тоже будет "разбавленный", так сказать...

Да и понятно, что если надо будет - всё сольют :) Я хочу просто усложнить задачу, чтобы усилия на настройку парсера были больше, чем ценность слитой инфы... ну или хотя бы больше, чем усилия на парсинг другого, не моего сайта ))

Gar-ant
На сайте с 15.01.2010
Offline
31
#28

Главное на сайт не ставьте различные XML интерфейсы, типа RSS тогда проблем будет меньше с парсингом.

ДонЛоад ТраФ конВерТим здесь (http://loadpays.com/s.php?f=5724) и Вот здесь ! (http://happytraffic.biz/register?ref=531)
Ink-developer
На сайте с 31.01.2009
Offline
138
#29
Ervin:
То есть, чтобы осложнить жизнь парсеру, можно периодически менять порядок и количество тегов, вроде
<html>

<div class="article">
<table width="100%">
<p>ТЕКСТ</p>
</table>
</div>
</html>

<html>

<div class="superarticle">
<div class="article">
<table height="100%" width="99%">
<p>ТЕКСТ</p>
</table>
</div>
</div>
</html>

<html>

<div class="article">
<div>
<p>ТЕКСТ</p>
</div>
</div>
</html>

?

И чем вы тут усложнили? Обсолютно ни чем всегда контент тут: <p></p>, а парсер на другое и смотреть не будет и соответственно не догадается об усложнении ему жизни :)

И как бы вы не делали всегда можно будет зацепиться за что ни буть чтобы парсить. В итоге советую просто не забивать мозг, больше времени потратите на придумывание защиты чем человек на написание парсера.

[Удален]
#30
Gar-ant:
Главное на сайт не ставьте различные XML интерфейсы, типа RSS тогда проблем будет меньше с парсингом.

ню-ню- :::)

1 234 5

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий