Хороший программист сделает что угодно - Веб-строительство

41

TOBBOT

21 сентября 2015, 17:32

#21

хотел было что-то посоветовать, но пришел к выводу, что такую защиту лучше делать под определенный сайт, т.е. нужно видеть что именно копируют и в каком виде.

Инструменты интернет-маркетинга - JLAB (http://jlab.io/) Бесплатная автоматизация с программой TOBBOT (http://tobbot.com/)

[Удален]

21 сентября 2015, 17:56

#22

а кто какими инструментами пользуется для парсинга?

AK

117

ant_key

21 сентября 2015, 19:34

#23

Спаршу ваш сайт:

- с cookies/без cookies

- с proxy/socks, через vpn могу зайти

- с js/без js

- могу выполнять js ie/chromium/webkit или не выполнять

- любой юзерагент

- с капчей/без капчи, вообще все равно

- с ajax - подожду подрузки браузером, протетестирую, потом жахну через casper.js в 100500 потоков с проксями, а также без ajax

- либо распаршу ваш json, если у вас все по уму сделано

Не тратьте время зря, это бесполезно, поверьте :)

B

262

borisd

21 сентября 2015, 20:00

#24

ant_key:
Не тратьте время зря, это бесполезно, поверьте

Ну, почему же бесполезно? Вы же к примеру не бесплатно будете работать :) Задача ведь не в полной защите от парсинга, а в экономической нецелесообразности. Да не разового копирования, а регулярного. Плюс временной лаг между обновлением контента на моем сайте и сайтах конкурентов - чем больше, тем лучше.

Из опыта: нанимать программиста на каждый чих они не будут, удовлетворятся старыми данными.

103

Qinghua

22 сентября 2015, 07:11

#25

ant_key:
это бесполезно, поверьте :)

Ещё один классический программист, который "сделает всё за выходные". Вы хоть заголовок темы (=техзадание) прочтите.

Или для вас любая работа одинакова по сложности?

Беда программистов в том, что они думают, что могут сделать всё. И это правда, хороший программист сделает что угодно. Вот только такой нюанс как необходимые ресурсы они почему-то не учитывают. Как будто у них есть всё время в мире.

41

TOBBOT

22 сентября 2015, 07:26

#26

Можно усложнить парсинг. Для этого нужно max усложнять логику его работы. Просто откройте исходный код страниц своего сайта и попробуйте описать на словах: парсить от А до Б. Потом попробуйте повторить тоже самое на другой странице. Если правило работает, то надо сделать так, чтобы описать такое правило стало тяжело на языке программирования. С определенного порога сложности никто не захочет связываться с вашим сайтом.

- могу выполнять js ie/chromium/webkit или не выполнять
- любой юзерагент
- с капчей/без капчи, вообще все равно
- с ajax - подожду подрузки браузером, протетестирую, потом жахну через casper.js в 100500 потоков с проксями, а также без ajax

да это возможно, но вам должно быть на это глубоко пофигу, т.к. на практике никто не использует такие технологии.

AK

117

ant_key

22 сентября 2015, 08:40

#27

Ну, почему же бесполезно? Вы же к примеру не бесплатно будете работать Задача ведь не в полной защите от парсинга, а в экономической нецелесообразности.

Все верно, это стоит денег. Мне за это плятят, например.

Можно усложнить парсинг. Для этого нужно max усложнять логику его работы. Просто откройте исходный код страниц своего сайта и попробуйте описать на словах: парсить от А до Б. Потом попробуйте повторить тоже самое на другой странице. Если правило работает, то надо сделать так, чтобы описать такое правило стало тяжело на языке программирования. С определенного порога сложности никто не захочет связываться с вашим сайтом.

Ерунда. Это решается регулярками.

Беда программистов в том, что они думают, что могут сделать всё. И это правда, хороший программист сделает что угодно. Вот только такой нюанс как необходимые ресурсы они почему-то не учитывают. Как будто у них есть всё время в мире.

Здесь нет по сути никаких ресурсов, лично у меня для всего перечисленного есть уже наработки, фреймворки свои, там действительно ничего сложного нет.

Вся суть моего поста выше - ГОРАЗДО трудозатратнее выстраивать стену, нежели спарсить.

Всем мир.

B

262

borisd

22 сентября 2015, 08:52

#28

ant_key:
Ерунда. Это решается регулярками.

К примеру, есть 20 тысяч страниц и у всех или некоторых страниц - своя верстка. Как вы это решите регулярками? Ведь еще перед началом написания (модификации) парсера необходимо провести анализ всех страниц, для чего также надо написать отдельный парсер и анализатор всех вариантов верстки. Потом надо будет искать общее решение для всех вариантов. А если их много?

Подчеркну, что в моем случае вычленить просто основной контент недостаточно, надо отдельно вычленять каждый элемент структуры и очень важно сохранить точность и целостность информации. Если будут ошибки, то поисковики конечно схавают, но как серьезный инструмент это уже не будет годиться.

---------- Добавлено 22.09.2015 в 11:55 ----------

ant_key:
Здесь нет по сути никаких ресурсов, лично у меня для всего перечисленного есть уже наработки, фреймворки свои, там действительно ничего сложного нет.

Разобрать конкретную страницу с конкретной версткой, действительно, нет проблем. Но если страницы могут отличаться версткой - это уже проблема, которая требует анализа и не решается с ходу.

Также любое обращение к программисту и составление ТЗ - это уже деньги.

1609

SeVlad

22 сентября 2015, 08:59

#29

ant_key:
Это решается регулярками.

Решается всё. Можно даже без регулярок, а просто школьниками. Мб это даже дешевле будет. В данном случае речь идёт о целесообразности - затратах.

Делаю хорошие сайты хорошим людям. Предпочтение коммерческим направлениям. Связь со мной через http://wp.me/P3YHjQ-3.

501

Solmyr

22 сентября 2015, 09:14

#30

Нужно банить датацентровские диапазоны IP. Домашние прокси - денег стоят. А у школоты денег нету. Домашние IP тоже надо банить за много запросов.

Что делать, чтобы попасть в ответы Google Bard

Google: E-E-A-T не является фактором ранжирования

Как усложнить парсинг сайта?