- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Здравствуйте
Уже не на одном хостинге (виртуальном) наблюдаю. При попытке сканировать большие сайты (от 10 тысяч страниц и больше) - происходит следующее:
сканирование практически полностью останавливает (если и продолжается - то в час по чайной ложке и 50/50 с "No Response").
на сайт с браузера зайти уже не могу - пишет "Превышено время ожидания"
После остановки сканирования - примерно через 30-40 минут доступ к сайту через браузер восстанавливается.
Что это???
Звонил в ТП хостинга - отмазываются, мол не при делах. Трассировка вроде тоже не показала ничего особенного ("Превышен интервал ожидания для запроса." через раз...)
Понятно, что дело в хостинге скорее всего. Но как быть? Причем вопрос не в том, что я сканирую чужой сайт, я сканирую свой (к которому у меня полный доступ). И как решить проблему - не понятно пока...
Вопросы:
- сталкивались с подобным? Кто хостинг-провайдер?
- наоборот - все ок, летает, хоть полмиллиона страниц берет. Кто хостер?
- как быть в таком случае? (возможно сталкивались, искали уже решение?)
Причем, повторюсь, что я сканирую свой (или клиентский сайт), к которым у меня полный доступ.... Как быть?
Буду признателен за любые советы. Спасибо
Здравствуйте
Regta, моё почтение, приятно когда на форум заглядывает кто-то из "старичков" 😎 🤝
Уже не на одном хостинге (виртуальном) наблюдаю. При попытке сканировать большие сайты (от 10 тысяч страниц и больше) - происходит следующее:
сканирование практически полностью останавливает (если и продолжается - то в час по чайной ложке и 50/50 с "No Response").
на сайт с браузера зайти уже не могу - пишет "Превышено время ожидания"
После остановки сканирования - примерно через 30-40 минут доступ к сайту через браузер восстанавливается.
Что это???
Именно так это происходит во время временной, либо постоянной блокировки IP со стороны сервера (нередко со стороны CDN сервиса).
Либо полный блок и FROG в процессе просто замирает и с текущего IP невозможно зайти на сайт (проверку проще всего организовать через TOR), либо временный - при превышении числа обращений к сайту, временная блокировка, которая со временем автоматически снимается.
Какое самое очевидное решение - снизить лимит нагрузки при парсинге, возможно вам удастся "проскочить" систему блокировки, напоминаю это здесь
Звонил в ТП хостинга - отмазываются, мол не при делах.
Бывает и такое. Если это общие настройки шаред хостинга, то они просто игнорируют и говорят, у нас всё нормально, но на самом деле просто не собираются решать подобные "узкие вопросы", говорят - переходите на выделенный сервер, там для клиентов могут быть другие условия. Ну а если вы не клиент, то вообще присылают шаблонные ответы суть которых - становитесь клиентом, оплачивайте услуги и потом будем разговаривать про ваши хотелки.
Вопросы:
- сталкивались с подобным? Кто хостинг-провайдер?
Я в последние 2 года по клиентским анализам сталкиваюсь частенько. Крайний раз - буквально на прошлой неделе, CDN сервис блокировал, я написал клиенту с просьбой проверить, он передал мою просьбу админку и админ подтвердил, - ответил, ваш IP автоматически забанен - переносим его в список доверенных IP.
После этого действия Frog беспрепятственно всё спарсил.
- как быть в таком случае? (возможно сталкивались, искали уже решение?)
Увы, принять политику хостинга и попытаться подстроиться. Frog как ни крути создаёт множественные параллельные (если число потоков несколько) и последовательные запросы к серверу и сервис хостинга в зависимости от своей политики может их блокировать - это их право определять порядок доступа.
Причем, повторюсь, что я сканирую свой (или клиентский сайт), к которым у меня полный доступ.... Как быть?
По ситуации. Если вы арендуете выделенный хостинг и вам запрещают для работы подобный доступ к сайту - искать хостинг, где ваш IP внесут в список доверенных IP. Это, пожалуй, самый универсальный вариант.
Если всё равно банят (или договориться не удалось), а ситуации такие бывают, то я предпочитаю не работать с таким сайтом/клиентом. Я вообще последние несколько лет стараюсь не загонять себя в угол и не работать с проблемными клиентами, которые не хотят решать вопросы, не хотят вникать в процесс, не понимают, что современное продвижение - это путь технических и организационных преобразований, как сайта, так и бизнеса - словом, не работать с теми, кто не хочет, не может, не будет, не понимает - не созрел до того, чтобы решать текущие проблемы на качество ином уровне.
Однако, если расширять видение вопроса, то могут быть следующие варианты:
1) Как уже сказал выше попытаться изменить скорость запросов к серверу.
2) Вспомнить про то, что Frog даёт возможность изменить User-Agent и можно представиться, например, Гуглом,
в ряде случае это тоже помогает. Также там есть возможность кастомных настроек.
3) Если у хостинга есть ограничение на кол-во последовательных запросов, то можно рассмотреть варианты динамической смены IP в рабочем цикле парсинга.
- точно знаю, что есть сервисы, которые по времени, либо по команде обеспечивают смену IP на лету (такие предложения довольно частое явление у селлеров мобильных прокси);
- есть услуги VPN сервисов, которые делают это в вашем ручном управлении (условно говоря, вы устанавливаете клиент VPN на свой компьютер) и примерно на глаз через каждые 900 страниц ставите Frog на паузу и на горячую меняете переподключение к другому VPN серверу с другим IP - ожимаете паузу и продолжаете дальше собирать.
4) Добавлю еще возможности парсинга сторонними уже специализированными инструментами. Это уже конечно не про Frog вообще, но в ряде случае актуализирует некоторые важные задачи. Здесь я бы обратил внимание конечно на Зенку (Zennoposter), потому как по себя можно самостоятельно писать полноценные алгоритмы обработки данных. И A-Parser.
Для наглядности - в Зенке вы пишите шаблон или скрипт для парстинга рабочих данных, покупаете в районе 1000 рублей несколько сотен шарен IP-шников (которые вы будете использовать не только для этих целей) и формируете рабочий цикл, где автоматически меняете IP-шники.
Так, что коллега, пробуйте, но в принципе, когда что-то намеренно блокируется и не решается, то я уже морально не берусь за такие задачи. Хотя всегда существует спортивный интерес перебороть ситуацию, тут уж выбирайте, что вам ближе 😉
работайте через прокси, и проблема решится.
Вечер добрый, покуда вы как автор напомнили про SiteAnalyzer.
Cкажите пожалуйста, а в вашей программе планируется использование динамической смены прокси в одном рабочем цикле?
Regta, моё почтение, приятно когда на форум заглядывает кто-то из "старичков" 😎 🤝
Мега-респект за развернутый ответ. Буду изучать, спасибо!
Заглядываем постоянно, пишем не часто //
Вечер добрый, покуда вы как автор напомнили про SiteAnalyzer.
Cкажите пожалуйста, а в вашей программе планируется использование динамической смены прокси в одном рабочем цикле?
Может подробнее расписать, как это по вашему должно работать?
И лучше в соответствующей ветке...
Может подробнее расписать, как это по вашему должно работать?
Идея в принципе проста.
1) Добавляем список проксей.
2) Определяем лимит полученных URL-ов (поле, куда можно ввести численное значение, например, 500).
3) Определяем режим обхода при котором при достижении указанного лимита URL-ов, происходит пауза и дальше досбор данных происходим уже со следующего прокси.
Наглядно примерно так:
прокси1 -> URLs: 1-500
прокси2 -> URls: 501-1000
прокси3 -> URls: 1001-1500
и т.д.