Screaming Frog и Хостинги - блокируется сканирование крупных сайтов. Есть решение?

regta
На сайте с 15.04.2006
Offline
305
968

Здравствуйте

Уже не на одном хостинге (виртуальном) наблюдаю. При попытке сканировать большие сайты (от 10 тысяч страниц и больше) - происходит следующее:

сканирование практически полностью останавливает (если и продолжается - то в час по чайной ложке и 50/50 с "No Response").
на сайт с браузера зайти уже не могу - пишет "Превышено время ожидания"

После остановки сканирования - примерно через 30-40 минут доступ к сайту через браузер восстанавливается.

Что это???

Звонил в ТП хостинга - отмазываются, мол не при делах. Трассировка вроде тоже не показала ничего особенного ("Превышен интервал ожидания для запроса." через раз...)

Понятно, что дело в хостинге скорее всего. Но как быть? Причем вопрос не в том, что я сканирую чужой сайт, я сканирую свой (к которому у меня полный доступ). И как решить проблему - не понятно пока...

Вопросы:

- сталкивались с подобным? Кто хостинг-провайдер?

- наоборот - все ок, летает, хоть полмиллиона страниц берет. Кто хостер?

- как быть в таком случае? (возможно сталкивались, искали уже решение?)

Причем, повторюсь, что я сканирую свой (или клиентский сайт), к которым у меня полный доступ.... Как быть?

Буду признателен за любые советы. Спасибо

Цитируйте, плиз, историю переписки в личке. Спасибо.
S
На сайте с 20.03.2020
Offline
52
#1
Я в таких случаях задержку ставлю между запросами, чтобы постепенно сканировало, и в 1 поток а не множество. На виртуальном хостинге без желания хостера это никак не решить самому.
alaev
На сайте с 18.11.2010
Offline
750
#2
Лягушкой можно легко уложить сайт на слабом хостинге с сервака.
Разумно, если они делают ограничение при большом количестве запросов с одного ip.

Можно попробовать мобильный прокси взять с ротацией ip 1-2 минуты. Многие дают бесплатный тест на час.
Создание и продвижение сайтов - https://alaev.net , аудиты сайтов, контекстная реклама
Антоний Казанский
На сайте с 12.04.2007
Offline
674
#3
regta :
Здравствуйте

Regta, моё почтение, приятно когда на форум заглядывает кто-то из "старичков" 😎 🤝


regta :

Уже не на одном хостинге (виртуальном) наблюдаю. При попытке сканировать большие сайты (от 10 тысяч страниц и больше) - происходит следующее:

сканирование практически полностью останавливает (если и продолжается - то в час по чайной ложке и 50/50 с "No Response").
на сайт с браузера зайти уже не могу - пишет "Превышено время ожидания"

После остановки сканирования - примерно через 30-40 минут доступ к сайту через браузер восстанавливается.

Что это???

Именно так это происходит во время временной, либо постоянной блокировки IP со стороны сервера (нередко со стороны CDN сервиса).

Либо полный блок и FROG в процессе просто замирает и с текущего IP невозможно зайти на сайт (проверку проще всего организовать через TOR), либо временный - при превышении числа обращений к сайту, временная блокировка, которая со временем автоматически снимается.

Какое самое очевидное решение - снизить лимит нагрузки при парсинге, возможно вам удастся "проскочить" систему блокировки, напоминаю это здесь

   


regta :
Звонил в ТП хостинга - отмазываются, мол не при делах.

Бывает и такое. Если это общие настройки шаред хостинга, то они просто игнорируют и говорят, у нас всё нормально, но на самом деле просто не собираются решать подобные "узкие вопросы", говорят - переходите на выделенный сервер, там для клиентов могут быть другие условия. Ну а если вы не клиент, то вообще присылают шаблонные ответы суть которых - становитесь клиентом, оплачивайте услуги и потом будем разговаривать про ваши хотелки.


regta :

Вопросы:

- сталкивались с подобным? Кто хостинг-провайдер?

Я в последние 2 года по клиентским анализам сталкиваюсь частенько. Крайний раз - буквально на прошлой неделе, CDN сервис блокировал, я написал клиенту с просьбой проверить, он передал мою просьбу админку и админ подтвердил, - ответил, ваш IP автоматически забанен - переносим его в список доверенных IP.

После этого действия Frog беспрепятственно всё спарсил.


regta :
- как быть в таком случае? (возможно сталкивались, искали уже решение?)

Увы, принять политику хостинга и попытаться подстроиться. Frog как ни крути создаёт множественные параллельные (если число потоков несколько) и последовательные запросы к серверу и сервис хостинга в зависимости от своей политики может их блокировать - это их право определять порядок доступа.


regta :
Причем, повторюсь, что я сканирую свой (или клиентский сайт), к которым у меня полный доступ.... Как быть?

По ситуации. Если вы арендуете выделенный хостинг и вам запрещают для работы подобный доступ к сайту - искать хостинг, где ваш IP внесут в список доверенных IP. Это, пожалуй, самый универсальный вариант.

Если всё равно банят (или договориться не удалось), а ситуации такие бывают, то я предпочитаю не работать с таким сайтом/клиентом. Я вообще последние несколько лет стараюсь не загонять себя в угол и не работать с проблемными клиентами, которые не хотят решать вопросы, не хотят вникать в процесс, не понимают, что современное продвижение - это путь технических и организационных преобразований, как сайта, так и бизнеса - словом, не работать с теми, кто не хочет, не может, не будет, не понимает - не созрел до того, чтобы решать текущие проблемы на качество ином уровне.

Однако, если расширять видение вопроса, то могут быть следующие варианты:

1)  Как уже сказал выше попытаться изменить скорость запросов к серверу.

2)  Вспомнить про то, что Frog даёт возможность изменить User-Agent и можно представиться, например, Гуглом,

в ряде случае это тоже помогает. Также там есть возможность кастомных настроек.

3) Если у хостинга есть ограничение на кол-во последовательных запросов, то можно рассмотреть варианты динамической смены IP в рабочем цикле парсинга.

- точно знаю, что есть сервисы, которые по времени, либо по команде обеспечивают смену IP на лету (такие предложения довольно частое явление у селлеров мобильных прокси);

- есть услуги VPN сервисов, которые делают это в вашем ручном управлении (условно говоря, вы устанавливаете клиент VPN на свой компьютер) и примерно на глаз через каждые 900 страниц ставите Frog на паузу и на горячую меняете переподключение к другому VPN серверу с другим IP - ожимаете паузу и продолжаете дальше собирать.

4) Добавлю еще возможности парсинга сторонними уже специализированными инструментами. Это уже конечно не про Frog вообще, но в ряде случае актуализирует некоторые важные задачи. Здесь я бы обратил внимание конечно на Зенку (Zennoposter), потому как по себя можно самостоятельно писать полноценные алгоритмы обработки данных. И A-Parser. 

Для наглядности - в Зенке вы пишите шаблон или скрипт для парстинга рабочих данных, покупаете в районе 1000 рублей несколько сотен шарен IP-шников (которые вы будете использовать не только для этих целей) и формируете рабочий цикл, где автоматически меняете IP-шники.  

Так, что коллега, пробуйте, но в принципе, когда что-то намеренно блокируется и не решается, то я уже морально не берусь за такие задачи. Хотя всегда существует спортивный интерес перебороть ситуацию, тут уж выбирайте, что вам ближе 😉

√ SEO продвижение https://akazansky.ru - экспертный аудит сайтов ( https://akazansky.ru/audit-sajtov ), внедрение эффективных решений цифрового маркетинга.
chaser
На сайте с 03.08.2005
Offline
205
#4
У сайта может стоять ограничение на кол-во запросов в секунду, чтобы не грузить сервак, соотв. вы получаете "отлуп" при большом числе запросов к сайту в секунду, либо банилка при большом кол-ве запросов с одного IP, так что ставьте больше времени задержки между запросами или работайте через прокси, и проблема решится.
SiteAnalyzer ( https://site-analyzer.ru/ ) - аналог Screaming Frog | Majento ( https://majento.ru/index.php?page=seo-analize ) - 70+ бесплатных сервисов SEO-аналитики
Антоний Казанский
На сайте с 12.04.2007
Offline
674
#5
chaser #:
работайте через прокси, и проблема решится.

Вечер добрый, покуда вы как автор напомнили про SiteAnalyzer.

Cкажите пожалуйста, а в вашей программе планируется использование динамической смены прокси в одном рабочем цикле? 

Mik Foxi
На сайте с 02.03.2011
Offline
1109
#6
Так наоборот норм хостинги, блочат ботовые запросы. Чтоб непонятно кто не парсил сайты и не создавал нагрузку.
Универсальный антибот, антиспам, веб файрвол, защита от накрутки поведенческих № 1 в рунете: https://antibot.cloud/
regta
На сайте с 15.04.2006
Offline
305
#7
Антоний Казанский #:

Regta, моё почтение, приятно когда на форум заглядывает кто-то из "старичков" 😎 🤝


Мега-респект за развернутый ответ. Буду изучать, спасибо!

Заглядываем постоянно, пишем не часто //

chaser
На сайте с 03.08.2005
Offline
205
#8
Антоний Казанский #:

Вечер добрый, покуда вы как автор напомнили про SiteAnalyzer.

Cкажите пожалуйста, а в вашей программе планируется использование динамической смены прокси в одном рабочем цикле? 

Может подробнее расписать, как это по вашему должно работать?
И лучше в соответствующей ветке...

Антоний Казанский
На сайте с 12.04.2007
Offline
674
#9
chaser #:
Может подробнее расписать, как это по вашему должно работать?

Идея в принципе проста. 

1) Добавляем список проксей.

2) Определяем лимит полученных URL-ов (поле, куда можно ввести численное значение, например, 500).

3) Определяем режим обхода при котором при достижении указанного лимита URL-ов, происходит пауза и дальше досбор данных происходим уже со следующего прокси.

Наглядно примерно так:

прокси1 -> URLs: 1-500

прокси2 -> URls: 501-1000

прокси3 -> URls: 1001-1500

и т.д. 

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий