Как усложнить парсинг сайта?

123 4
A
На сайте с 19.07.2010
Offline
130
#11
borisd:
некоторые люди wget-ом или подобными утилитами мой сайт скачивают, чтобы потом локально на своем компе работать. Их затрагивать я не хочу. Я лишь ограничил их скоростью скачки - не более 5-ти страниц в секунду.

Ставьте правильно постановку задачи... :) Одного потока wget-а вполне достаточно для парсинга всего сайта.

Ограничить количество страниц в секунду можно limit_req. Только не забудьте, что лимины нужно устанавливать только на страницы, т.е. картинки, графику, скрипты, цсс-ы нужно отдавать без лимитов.

.............
lonelywoolf
На сайте с 23.12.2013
Offline
151
#12

Да зачем... Может, проще скрипт какой на перле накатать, который будет слишком активных в .htaccess заносить?

Платный и бесплатный хостинг с защитой от DDoS (http://aquinas.su)
NEWProject
На сайте с 16.01.2011
Offline
102
#13

Если они у вас все тырят включая разметку, то добавляйте ссылки в текст на ваш сайт, и визуально стилями сделайте их обычным текстом. Или добавляйте в тексты. что материал скопирован/взят с сайта ...

А так, выше уже сказали спарсить можно практически все. Но вашу цель вы достигните если немного будете менять верстку.

Универсальный парсер Datacol, скидка 20% и ПРОЕКТ в ПОДАРОК!! (https://bestweb4u.net/skidka-na-datacol/) БЛОГ о парсинге, Datacol! (https://bestweb4u.net/) Купить прокси для парсинга от 33р. Купон на скидку Y23y4sXqYP (https://proxy6.net/?r=55325)
SeVlad
На сайте с 03.11.2008
Offline
1609
#14
admak:
Одного потока wget-а вполне достаточно для парсинга всего сайта.

Одно дело ждать часы, а другое - неск мин :) Не стоит забывать и про всякие 404/302 (а то и 502) и внешние сервисы (гуглошрифты, аяксы, вк/ок/фб, дискуссы, счётчики и пр)

Даже в браузерах многопоточка.

Один поток не остановит "злодеев" - им-то как раз качать не много и по хорошим каналам, а вот людям создаст геморой.

Делаю хорошие сайты хорошим людям. Предпочтение коммерческим направлениям. Связь со мной через http://wp.me/P3YHjQ-3.
S
На сайте с 13.10.2014
Offline
171
#15
SeVlad:
Даже в браузерах многопоточка

Двухпоточка, на самом деле, если не влезть в конфиг и не поменять ручками настройки.

SeVlad
На сайте с 03.11.2008
Offline
1609
#16
silicoid:
Двухпоточка

8ми, как я видел в ФФ на винде. МБ зависит от браузера. Помниться в старой опере дефолтно тоже было 8 и настраивалось в фейсе.

Qinghua
На сайте с 01.09.2009
Offline
103
#17

Выводите некоторые данные ajaxом. Например, какие-то цифры, адреса и т.п., смотря что там у вас. Поисковикам они не нужны, делается легко, а граберам головняка добавят ощутимо. Другой вариант - выводить их картинкой. Можно не все, а случайным образом.

Если вы создадите систему, которая отлавливает слишком активных, то лучше не блокировать их (слишком для них очевидно), а подсовывать левые данные, например, менять цифры на неправильные или менять данные из других записей. И не всегда, а случайным образом. Делается легко, поисковые боты в порядке, граберы незаметно получают бракованные данные. Все счастливы.

Polkan
На сайте с 28.09.2005
Offline
102
#18

borisd, предлагаю подшутить на копипастерами, как я недавно сделал на одном (тогда еще своем) сайте.

Ручные копипастеры не сильно мешали, другое дело - практически моментальный репост на автомате (и появление в поиске дублей копирайта).

В общем, собрал ip с которых работали грабберы (все работали на тех же серверах, где лежали сами сайты) и в той части поста, которая идет после "читать далее" все картинки заменил на такую(мат), а текст на "Этот пост мы пытались стянуть с сайта... Читайте его лучше на первоисточнике >>".

В итоге на главных страницах сайтов-доноров и в категориях все выглядело "ок" (ибо до "читать далее" контент не изменялся) и при беглом визуальном контроле злодей ничего не замечал. Зато реальные посетители, переходя внутрь постов, очень даже замечали. :)

Было весело + профит: уникальный текст поста не копируется в момент публикации, посетители доноров переходят ко мне, чтобы исправить парсер нужно нанять разработчика, который допишет граббер под прокси, плюс постоянно держать свежие прокси.

Где-то около недели провисели у них такие посты. Потом репостинг прекратился.

WordPress-плагин для Apishops (http://p-api-shop.ru/) P-API-Shop WooCommerce-плагин для Apishops (http://woo-apishops.ru/) Woo-Apishops
T
На сайте с 15.11.2011
Offline
120
#19

Стили...

А что с таким делать???

Стои<div class="X8gP">имости у</div>мость ус<span class="n9O">ДС за 1 </span>луги сос<span class="n9O"> номер и</span>тавляет <div class="n9O"> Для отк</div>20.32 ру<div class="Q9nG">и набери</div>блей с Н<p class="v6YfW">луги сос</p>ДС за 1 <span class="v6YfW"> а также</span>календар<p class="a7wa">е с кома</p>ный день<div class="G0o">в раздел</div>. С разм<p class="a7wa">ный день</p>ером сто<div class="g4xDg"> позвони</div>имости у<div class="p5K">, введя </div>слуги и<p class="Q9nG">мость ус</p> порядко<p class="E6N">и набери</p>м ее спи<p class="p5K">номерам»</p>сания мо<div class="E6N">в строке</div>жно озна<p class="p5K">сания мо</p>комиться<div class="E6N">, введя </div> на cайт<span class="n9O">команду </span>е ПАО «М<p class="Q9nG"> Для отк</p>ТС» www<div class="a7wa">ификатор</div>.mts.ru <p class="Q9nG">дписки н</p>в раздел<p class="s6Pw">дписки н</p>е «Услуг<p class="p5K">ером сто</p>и по к<p class="v6YfW">слуги и</p>оротким <div class="G0o">сания мо</div>номерам»<p class="E6N">аза от п</p>, введя <span class="G0o">имости у</span>короткий<div class="Q9nG"> порядко</div> номер и<span class="E6N">бесплатн</span>ли идент<div class="s6Pw">.mts.ru </div>ификатор<span class="n9O">е с кома</span> услуги <p class="E6N">короткий</p>в строке<span class="a7wa">ному ном</span> поиска,<div class="s6Pw">есплатно</div> а также<p class="E6N">ления По</p> позвони<p class="n9O">имости у</p>в по еди<p class="G0o">короткий</p>ному ном<p class="g4xDg">комиться</p>еру 8800<p class="X8gP"> на cайт</p>2500890.<span class="Q9nG">о в дома</span> Для отк<span class="s6Pw">и набери</span>аза от п<span class="X8gP">, введя </span>редостав<div class="n9O">в по еди</div>ления По<div class="p5K">слуги и</div>дписки н<div class="G0o">и набери</div>а Контен<p class="X8gP">номерам»</p>т отправ<div class="G0o">. С разм</div>ьте смс-<p class="v6YfW">луги сос</p>сообщени<p class="n9O">сообщени</p>е с кома<div class="Q9nG">аза от п</div>ндой СТО<p class="G0o"> порядко</p>П на ном<p class="X8gP">т отправ</p>ер 77065<span class="g4xDg">комиться</span>0 (смс <span class="n9O">те ussd-</span>бесплатн<div class="s6Pw">ДС за 1 </div>о в дома<p class="p5K"> а также</p>шнем рег<p class="E6N">.mts.ru </p>ионе) ил<p class="Q9nG">о в дома</p>и набери<div class="v6YfW">оротким </div>те ussd-<p class="n9O">ный день</p>команду <span class="x4cGr">тавляет </span>*152*22#<div class="v6YfW">и по к</div>вызов (б<div class="G0o">а Контен</div>есплатно<span class="G0o">имости у</span>)<div class="G0o">сообщени</div><br>
Дешевые VDS - Дешевле некуда! (http://0ll0.ru/4Ta9y)
Polkan
На сайте с 28.09.2005
Offline
102
#20
Tecak:
А что с таким делать???

Такой текст на вашем сайте поисковики скорее всего не "проглотят". Вы же слова рвете. Ну а копипастер просто регуляркой вырежет все лишнее и получит хороший ровный текст.

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий