Как усложнить парсинг сайта?

1 234
TOBBOT
На сайте с 04.11.2014
Offline
41
#21

хотел было что-то посоветовать, но пришел к выводу, что такую защиту лучше делать под определенный сайт, т.е. нужно видеть что именно копируют и в каком виде.

Инструменты интернет-маркетинга - JLAB (http://jlab.io/) Бесплатная автоматизация с программой TOBBOT (http://tobbot.com/)
[Удален]
#22

а кто какими инструментами пользуется для парсинга?

AK
На сайте с 23.02.2009
Offline
117
#23

Спаршу ваш сайт:

- с cookies/без cookies

- с proxy/socks, через vpn могу зайти

- с js/без js

- могу выполнять js ie/chromium/webkit или не выполнять

- любой юзерагент

- с капчей/без капчи, вообще все равно

- с ajax - подожду подрузки браузером, протетестирую, потом жахну через casper.js в 100500 потоков с проксями, а также без ajax

- либо распаршу ваш json, если у вас все по уму сделано

Не тратьте время зря, это бесполезно, поверьте :)

B
На сайте с 13.02.2008
Offline
262
#24
ant_key:
Не тратьте время зря, это бесполезно, поверьте

Ну, почему же бесполезно? Вы же к примеру не бесплатно будете работать :) Задача ведь не в полной защите от парсинга, а в экономической нецелесообразности. Да не разового копирования, а регулярного. Плюс временной лаг между обновлением контента на моем сайте и сайтах конкурентов - чем больше, тем лучше.

Из опыта: нанимать программиста на каждый чих они не будут, удовлетворятся старыми данными.

Qinghua
На сайте с 01.09.2009
Offline
103
#25
ant_key:
это бесполезно, поверьте :)

Ещё один классический программист, который "сделает всё за выходные". Вы хоть заголовок темы (=техзадание) прочтите.

Или для вас любая работа одинакова по сложности?

Беда программистов в том, что они думают, что могут сделать всё. И это правда, хороший программист сделает что угодно. Вот только такой нюанс как необходимые ресурсы они почему-то не учитывают. Как будто у них есть всё время в мире.

TOBBOT
На сайте с 04.11.2014
Offline
41
#26

Можно усложнить парсинг. Для этого нужно max усложнять логику его работы. Просто откройте исходный код страниц своего сайта и попробуйте описать на словах: парсить от А до Б. Потом попробуйте повторить тоже самое на другой странице. Если правило работает, то надо сделать так, чтобы описать такое правило стало тяжело на языке программирования. С определенного порога сложности никто не захочет связываться с вашим сайтом.

- могу выполнять js ie/chromium/webkit или не выполнять
- любой юзерагент
- с капчей/без капчи, вообще все равно
- с ajax - подожду подрузки браузером, протетестирую, потом жахну через casper.js в 100500 потоков с проксями, а также без ajax

да это возможно, но вам должно быть на это глубоко пофигу, т.к. на практике никто не использует такие технологии.

AK
На сайте с 23.02.2009
Offline
117
#27
Ну, почему же бесполезно? Вы же к примеру не бесплатно будете работать Задача ведь не в полной защите от парсинга, а в экономической нецелесообразности.

Все верно, это стоит денег. Мне за это плятят, например.

Можно усложнить парсинг. Для этого нужно max усложнять логику его работы. Просто откройте исходный код страниц своего сайта и попробуйте описать на словах: парсить от А до Б. Потом попробуйте повторить тоже самое на другой странице. Если правило работает, то надо сделать так, чтобы описать такое правило стало тяжело на языке программирования. С определенного порога сложности никто не захочет связываться с вашим сайтом.

Ерунда. Это решается регулярками.

Беда программистов в том, что они думают, что могут сделать всё. И это правда, хороший программист сделает что угодно. Вот только такой нюанс как необходимые ресурсы они почему-то не учитывают. Как будто у них есть всё время в мире.

Здесь нет по сути никаких ресурсов, лично у меня для всего перечисленного есть уже наработки, фреймворки свои, там действительно ничего сложного нет.

Вся суть моего поста выше - ГОРАЗДО трудозатратнее выстраивать стену, нежели спарсить.

Всем мир.

B
На сайте с 13.02.2008
Offline
262
#28
ant_key:
Ерунда. Это решается регулярками.

К примеру, есть 20 тысяч страниц и у всех или некоторых страниц - своя верстка. Как вы это решите регулярками? Ведь еще перед началом написания (модификации) парсера необходимо провести анализ всех страниц, для чего также надо написать отдельный парсер и анализатор всех вариантов верстки. Потом надо будет искать общее решение для всех вариантов. А если их много?

Подчеркну, что в моем случае вычленить просто основной контент недостаточно, надо отдельно вычленять каждый элемент структуры и очень важно сохранить точность и целостность информации. Если будут ошибки, то поисковики конечно схавают, но как серьезный инструмент это уже не будет годиться.



---------- Добавлено 22.09.2015 в 11:55 ----------

ant_key:
Здесь нет по сути никаких ресурсов, лично у меня для всего перечисленного есть уже наработки, фреймворки свои, там действительно ничего сложного нет.

Разобрать конкретную страницу с конкретной версткой, действительно, нет проблем. Но если страницы могут отличаться версткой - это уже проблема, которая требует анализа и не решается с ходу.

Также любое обращение к программисту и составление ТЗ - это уже деньги.

SeVlad
На сайте с 03.11.2008
Offline
1609
#29
ant_key:
Это решается регулярками.

Решается всё. Можно даже без регулярок, а просто школьниками. Мб это даже дешевле будет. В данном случае речь идёт о целесообразности - затратах.

Делаю хорошие сайты хорошим людям. Предпочтение коммерческим направлениям. Связь со мной через http://wp.me/P3YHjQ-3.
Solmyr
На сайте с 10.09.2007
Offline
501
#30

Нужно банить датацентровские диапазоны IP. Домашние прокси - денег стоят. А у школоты денег нету. Домашние IP тоже надо банить за много запросов.

1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий