Помощь в фильтрации ботов через CloudFlare

юни
На сайте с 01.11.2005
Offline
922
#1391
У Озона одна из наиболее серьёзных защит от парсинга.
https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
alaev
На сайте с 18.11.2010
Offline
817
#1392
юни #:
У Озона одна из наиболее серьёзных защит от парсинга.

Только они ее забыли включить сегодня)))

Под cloudflare так не пролезешь, если владелец чуть заморочился и настроил защиту от парсинга.

Рандомную подкатегорию всю читает.


Создание и продвижение сайтов - https://alaev.net , аудиты сайтов, контекстная реклама
юни
На сайте с 01.11.2005
Offline
922
#1393
alaev #:
Рандомную подкатегорию всю читает.

Это сколько позиций?

В чатах парсеров больше всего жалуются именно на Озон. И на 2Гис.

Delysid
На сайте с 27.05.2019
Offline
239
#1394
alaev #:
Под cloudflare так не пролезешь, если владелец чуть заморочился и настроил защиту от парсинга.

Юзай платную версию.. Бесплатная определяется. 😉

alaev
На сайте с 18.11.2010
Offline
817
#1395
юни #:

Это сколько позиций?

В чатах парсеров больше всего жалуются именно на Озон. И на 2Гис.

Я его вырубил на 5%, 389 он на тот момент нашел.

Но если настроить, то он все соберет.

Со свистка мобильного в один поток, хотя можно и больше дать, я не пробовал. И с дефолтным юзер агентом. Мак и хром.

Delysid #:
Юзай платную версию.. Бесплатная определяется. 

Платный cloudflare? Или ты про ScreamingFrog? Так прога по дефолту имеет много user agent, включая всяких яндекс и гугл ботов.

CloudFlare может и пропустить. Советую скачать прогу и посмотреть свои настройки. Прога не сложная.

Delysid
На сайте с 27.05.2019
Offline
239
#1396
alaev #:

Или ты про ScreamingFrog?

Я про  ScreamingFrog она в бесплатной версии в user agent добавляет название. Программа умеет в http 2 хотя бы? А так у меня информация узконаправленная, парсить особо нечего.

юни
На сайте с 01.11.2005
Offline
922
#1397
alaev #:
Но если настроить, то он все соберет

Дьявол в деталях.  389 позиций ни о чём, промышленный объём это миллионы, т.е. десятки запросов в секунду.

alaev
На сайте с 18.11.2010
Offline
817
#1398
юни #:

Дьявол в деталях.  389 позиций ни о чём, промышленный объём это миллионы, т.е. десятки запросов в секунду.

Парсить у них можно!!! Речь об этом была))

1 поток на 1 ip они дают парсить, а банят при большом количестве запросов. 

Поэтому для промышленных объемов нужны промышленные мощности, т.е. много потоков и много прокси, и не ipv6 за 30 центов в месяц.

Но я понимаю, что хочется дешево и сердито, т.е. чтобы вы им сразу уронили все сервера.

Если ваша промышленность будет рентабельна при более дорогом парсинге с меньшими нагрузками, то они вам начнут кидать капчу, как это делают яндекс или гугл.

Тупо бизнес. Ваш парсинг требует много дополнительных серверов. А вот боты ПФ им совершенно пофиг. Позиции им не уронят, а просмотр одной страницы им погоды не делает.

юни
На сайте с 01.11.2005
Offline
922
#1399
alaev #:
Но я понимаю, что хочется дешево и сердито, т.е. чтобы вы им сразу уронили все сервера.
Странный вывод. Никто никого ронять не хочет - напротив, и Озону, и Яндексу, и остальным парсеры желают счастья и процветания. Ведь они приносят деньги.
alaev #:
Если ваша промышленность будет рентабельна при более дорогом парсинге с меньшими нагрузками, то они вам начнут кидать капчу, как это делают яндекс или гугл.

Капча зависит не от рентабельности, а от технической реализации защиты. Кто, что и по каким критериям считает высокой или критической нагрузкой.

Понятно, что всё упирается в деньги в конечном итоге. Но взаимосвязь здесь не такая непосредственная, как кажется.

alaev #:
Ваш парсинг требует много дополнительных серверов.

Это тоже вопрос архитектуры. К примеру, для такой нагрузки требуется всего пара-тройка не самых сильных машин:


Имеются в виду пиковые значения(справа вверху).

Delysid
На сайте с 27.05.2019
Offline
239
#1400
юни #:
Это тоже вопрос архитектуры. К примеру, для такой нагрузки требуется всего пара-тройка не самых сильных машин:

JS браузером на сервере никого не удивить. 

alaev #:
Ваш парсинг требует много дополнительных серверов.
Хватит и домашнего Ryzen 9 5950X, главное чтобы интернет был от 200 Мбит/с. 😀

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий