Нужна защита контента от парсеров

12
IT_DED
На сайте с 07.03.2007
Offline
236
#11

картинками текст выдавай... ;)

⭐ Рекомендации Дорвейщикам тут - https://in.gl/itded
SocFishing
На сайте с 26.09.2013
Offline
118
#12
SocFishing а зачем парсерам исполнять js, можно же просто взять код.

Предложенный вариант не даст содержимое страницы боту, так как большинство ботов не воспринимает JS.

★Сервис идентифицирует (https://socfishing.com/?utm_source=searchengines) посетителей вашего сайта и предоставляет их профили ВКонтакте, Телефон, Почта! Цены копеечные, работаем 8 лет.
Ferago
На сайте с 12.04.2008
Offline
98
#13

вся эта ваша защита и гроша не стоит если программист знает что такое selenium webdriver.

serjoo
На сайте с 12.09.2011
Offline
389
#14
Думка:
картинками текст выдавай...

И че, не парсится, точно? Слышал, что можно вытягивать текст из картинок, не знаю как правда, но вот вот узнаю. ))

Мультур..
SocFishing
На сайте с 26.09.2013
Offline
118
#15
Ferago:
вся эта ваша защита и гроша не стоит если программист знает что такое selenium webdriver.

Полностью согласен. Так и написал простое решение. Если кому-то надо, можно в 5 минут понять, что нужно дописать

curl_setopt($ch,CURLOPT_COOKIE,'_gg=63');

может быть кому-то пригодится ;)

Для более продуманной защиты нужно постараться. Как например avito или поисковые системы закрываются.

Ferago
На сайте с 12.04.2008
Offline
98
#16
SocFishing:

Для более продуманной защиты нужно постараться. Как например avito или поисковые системы закрываются.

авито парсится легко) если ты про блокировки айпи - так же решается приватными проксями)

SocFishing
На сайте с 26.09.2013
Offline
118
#17

В таком случае все решается приватными проксями. Но какова цена этого парсинга. Приватные прокси сейчас не дешево стоят.

Я бы посоветовал копать в сторону определения, реальный это заход с браузера или это socks, curl ..

Это можно определить считывая ряд параметров JS, получение информации с SWF или хеширование в localstorage. Все другие параметры идентификации могут работать не корректно.

Как простой пример http://toolster.ru/about_browser

Попробуйте повторить эти параметры при среднестатистическом парсинге на php или perl.

Цель понять, браузер это или бот, передать хеш и на основе хеша показывать страницу или нет. Имхо хороший и дешевый вариант защиты.

Solmyr
На сайте с 10.09.2007
Offline
501
#18

Единственный более-менее действенный способ - блокировать все IP датацентров, пропускать только IP человеческих провайдеров.

SocFishing
На сайте с 26.09.2013
Offline
118
#19

Как вариант. Именно так.

Тогда: http://99webtools.com/php-whois-script.php

А теперь где взять базу IP масок для отделения котлет от мух.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий