Защита от парсера, гонка вооружений

123
LEOnidUKG
На сайте с 25.11.2006
Offline
1731
#11
И вообще, без регулярок, пжалста.

А брать информацию он будет с помощью магического шара! Потрёшь его, скажешь запрос и вся информацию лежит уже на столе.

В чё там вёрстка то меняется часто? По-моему 1 раз в год.

---------- Добавлено 30.09.2012 в 01:12 ----------

Хотя кстати можно, подрубить API от ПС и работать с ними.

✅ Мой Телеграм канал по SEO, оптимизации сайтов и серверов: https://t.me/leonidukgLIVE ✅ Качественное и рабочее размещение SEO статей СНГ и Бурж: https://getmanylinks.ru/
WEB-мастер
На сайте с 23.07.2009
Offline
174
#12

Тут больше тех кто парсит, чем тех кто защищает свой труд.

Лучший парсер ( https://goo.gl/aw7tPJ ) чего угодно.
юни
На сайте с 01.11.2005
Offline
903
#13
LEOnidUKG:
По-моему 1 раз в год.

Да хоть раз в столетие. Задача стоит именно так - создать "кодонезависимый" парсер (выдача - лишь одно из прикладных применений).

А что с интерпертацией js? Решаемо?

Сколько времени уйдёт на расклад по полочкам функционала скрипта mc.yandex.ru/metrika/watch.js?

https://a-parser.com/ - парсер для профессионалов SEO, маркетологов, арбитражников и SaaS, https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
LEOnidUKG
На сайте с 25.11.2006
Offline
1731
#14
юни:
Да хоть раз в столетие. Задача стоит именно так - создать "кодонезависимый" парсер (выдача - лишь одно из прикладных применений).

Чудес не бывает. Я понимаю, что хочется помечтать, но жизнь диктует свои правила.

Хочу трубы, которые не прорывали!

Хочу дерево, которое не ломалось!

Хочу одежду, которая не снашивалась!

и т.п.

юни:

А что с интерпертацией js? Решаемо?

Смотря какой, если можно разобрать по кусочкам то не вопрос. Я очень редко вижу, ту информацию, которую не возможно взять, в основном все беспокоятся, чтобы инфа была в ПС, поэтому всё доступно в HTML так или иначе.

---------- Добавлено 30.09.2012 в 01:18 ----------

юни:
Сколько времени уйдёт на расклад по полочкам функционала скрипта mc.yandex.ru/metrika/watch.js?

У меня она заблокирована, поэтому в платный раздел или на фриланс, может кто займётся.

---------- Добавлено 30.09.2012 в 01:19 ----------

p.s. пока этим заниматься мне лично некогда, я тут как консультант с опытом работы :)

IL
На сайте с 20.04.2007
Offline
435
#15
WEB-мастер:
Какой школьник будет так изворачиваться, лучше найдет другой сайт для парсинга.

Вопрос был про возможность ajax-обращения... Для чего -

LEOnidUKG:
Зачем такие сложности? Открываем сохранённую копию из гугла и парсим в своё удовольствие.

Случай уникальной информации совсем не рассматривался...

юни:
Сделайте мне кто-нибудь парсер поисковой выдачи, который не нужно было бы перекраивать после каждой смены вёрстки.

Теоретически, если исходить из того, что в результате выдачи заранее известное количество (10, к примеру) "повторяющихся" (с некоторыми отличиями) участков, которые обязательно содержат определённую информацию (№ позиции, Title, URL, сниппет), задача решаема. Однако, для конкретного случая - соглашусь с Леонидом - проще раз в год подправить регулярку..

... :) Облачные серверы от RegRu - промокод 3F85-3D10-806D-7224 ( http://levik.info/regru )
beginerx
На сайте с 13.07.2009
Offline
173
#16

ай-пи не хватает потому банить, замучаются новые покупать...

кроме аякса есть другие трюки :)

и учтите JS АПИ компонента браузера в дельфи не равен АПИ лисы и оперы и хрома так что на раз задетектим ваш дельфи и нет не заблокируем а подсуним бредо текст. (Активный-Х, Видимый Основняк :) JS ясно дело кодированный

>>>Скорость и Реакция<<< (https://vk.com/app4629907 ): онлайн тренировка скорости и времени реакции.... (https://vk.com/app4612117 )... (https://vk.com/club18740762 ).
LEOnidUKG
На сайте с 25.11.2006
Offline
1731
#17
beginerx:
ай-пи не хватает потому банить, замучаются новые покупать...

Смешно 😂

wwwwww
На сайте с 29.04.2011
Offline
195
#18

Вот тема

/ru/forum/743928

Была жалоба на невозможность прасинга сайта ХХХ, поскольку защита была через установку Cookiee на через JS.

Понятно, что куки не панацея. И для больших объмов нужно что-то серьезное. Но тот же Яндекс пока борется с парсингом Вордстата капчей и баном целых подсетей. Куда уж простым сайтам.

Если подходить комплексно, то можно задействовать 2 стороны:

- серверную

- клиентскую

Считать сколько и когда приходил пользователь, используя "неудаляемые куки", сессии на 5-10 минут и изменять разметку контента. Доплнительно можно украсить сайт капчей, хотя это может оттолкнуть некоторых и добавить нечто самописное на AJAX, которое будет например с интервалами 5-10 минут спрашивать вопросы или показывать ту же капчу. Обработка руками всегда нервирует и снижает скорость парсинга.

Но всегда верно отмечают, если очень надо - все равно найдут как.

Главной проблемой всегда остается поисковй бот и его присутсвие на сайте. А также отношение ПС к контенту.

Возможный вариант, который затратен, но позволит сузить автоматичекий масовый парсинг, сведя почти к нулю - реверс IP и определение кто пришел, с подключением черныхх списков. Так можно отсеять черные и серые прокси, а так же различные массовые краулеры и псевдо поисковые системы.

Но ведь можно нанять и школоту, которая тупо руками все скопирует :)

Ну или например кеш сервер запустить и серфить неспеша.

Видишь? Свободная подпись.
C
На сайте с 07.09.2007
Offline
123
#19

Добрый день. Тоже интересна данная тема. Только у меня сайт каталог собранный в ручную.

Возможен ли следующий вариант простой защиты:

Если пользователь (парсер или хз кто там) просматривает больше n страниц за время t, выводить попап с капчей? Или если нереально много запросов, бан по IP. Только как вычислить что пришел бот от ПС? И нельзя ли его "подделать"?

Извиняюсь за глупые вопросы - столкнулся в первые.

LEOnidUKG
На сайте с 25.11.2006
Offline
1731
#20
Chrom:
Добрый день. Тоже интересна данная тема. Только у меня сайт каталог собранный в ручную.
Возможен ли следующий вариант простой защиты:
Если пользователь (парсер или хз кто там) просматривает больше n страниц за время t, выводить попап с капчей? Или если нереально много запросов, бан по IP. Только как вычислить что пришел бот от ПС? И нельзя ли его "подделать"?
Извиняюсь за глупые вопросы - столкнулся в первые.

Ну и ч0? Собрал через ПС все ваши страницы и всё. Или в лоб через прокси.

Ваша защита пустая трата времени.

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий