- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
хотел было что-то посоветовать, но пришел к выводу, что такую защиту лучше делать под определенный сайт, т.е. нужно видеть что именно копируют и в каком виде.
а кто какими инструментами пользуется для парсинга?
Спаршу ваш сайт:
- с cookies/без cookies
- с proxy/socks, через vpn могу зайти
- с js/без js
- могу выполнять js ie/chromium/webkit или не выполнять
- любой юзерагент
- с капчей/без капчи, вообще все равно
- с ajax - подожду подрузки браузером, протетестирую, потом жахну через casper.js в 100500 потоков с проксями, а также без ajax
- либо распаршу ваш json, если у вас все по уму сделано
Не тратьте время зря, это бесполезно, поверьте :)
Не тратьте время зря, это бесполезно, поверьте
Ну, почему же бесполезно? Вы же к примеру не бесплатно будете работать :) Задача ведь не в полной защите от парсинга, а в экономической нецелесообразности. Да не разового копирования, а регулярного. Плюс временной лаг между обновлением контента на моем сайте и сайтах конкурентов - чем больше, тем лучше.
Из опыта: нанимать программиста на каждый чих они не будут, удовлетворятся старыми данными.
это бесполезно, поверьте :)
Ещё один классический программист, который "сделает всё за выходные". Вы хоть заголовок темы (=техзадание) прочтите.
Или для вас любая работа одинакова по сложности?
Беда программистов в том, что они думают, что могут сделать всё. И это правда, хороший программист сделает что угодно. Вот только такой нюанс как необходимые ресурсы они почему-то не учитывают. Как будто у них есть всё время в мире.
Можно усложнить парсинг. Для этого нужно max усложнять логику его работы. Просто откройте исходный код страниц своего сайта и попробуйте описать на словах: парсить от А до Б. Потом попробуйте повторить тоже самое на другой странице. Если правило работает, то надо сделать так, чтобы описать такое правило стало тяжело на языке программирования. С определенного порога сложности никто не захочет связываться с вашим сайтом.
- любой юзерагент
- с капчей/без капчи, вообще все равно
- с ajax - подожду подрузки браузером, протетестирую, потом жахну через casper.js в 100500 потоков с проксями, а также без ajax
да это возможно, но вам должно быть на это глубоко пофигу, т.к. на практике никто не использует такие технологии.
Все верно, это стоит денег. Мне за это плятят, например.
Ерунда. Это решается регулярками.
Здесь нет по сути никаких ресурсов, лично у меня для всего перечисленного есть уже наработки, фреймворки свои, там действительно ничего сложного нет.
Вся суть моего поста выше - ГОРАЗДО трудозатратнее выстраивать стену, нежели спарсить.
Всем мир.
Ерунда. Это решается регулярками.
К примеру, есть 20 тысяч страниц и у всех или некоторых страниц - своя верстка. Как вы это решите регулярками? Ведь еще перед началом написания (модификации) парсера необходимо провести анализ всех страниц, для чего также надо написать отдельный парсер и анализатор всех вариантов верстки. Потом надо будет искать общее решение для всех вариантов. А если их много?
Подчеркну, что в моем случае вычленить просто основной контент недостаточно, надо отдельно вычленять каждый элемент структуры и очень важно сохранить точность и целостность информации. Если будут ошибки, то поисковики конечно схавают, но как серьезный инструмент это уже не будет годиться.
---------- Добавлено 22.09.2015 в 11:55 ----------
Здесь нет по сути никаких ресурсов, лично у меня для всего перечисленного есть уже наработки, фреймворки свои, там действительно ничего сложного нет.
Разобрать конкретную страницу с конкретной версткой, действительно, нет проблем. Но если страницы могут отличаться версткой - это уже проблема, которая требует анализа и не решается с ходу.
Также любое обращение к программисту и составление ТЗ - это уже деньги.
Это решается регулярками.
Решается всё. Можно даже без регулярок, а просто школьниками. Мб это даже дешевле будет. В данном случае речь идёт о целесообразности - затратах.
Нужно банить датацентровские диапазоны IP. Домашние прокси - денег стоят. А у школоты денег нету. Домашние IP тоже надо банить за много запросов.