- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Здравствуйте
Уже не на одном хостинге (виртуальном) наблюдаю. При попытке сканировать большие сайты (от 10 тысяч страниц и больше) - происходит следующее:
сканирование практически полностью останавливает (если и продолжается - то в час по чайной ложке и 50/50 с "No Response").
на сайт с браузера зайти уже не могу - пишет "Превышено время ожидания"
После остановки сканирования - примерно через 30-40 минут доступ к сайту через браузер восстанавливается.
Что это???
Звонил в ТП хостинга - отмазываются, мол не при делах. Трассировка вроде тоже не показала ничего особенного ("Превышен интервал ожидания для запроса." через раз...)
Понятно, что дело в хостинге скорее всего. Но как быть? Причем вопрос не в том, что я сканирую чужой сайт, я сканирую свой (к которому у меня полный доступ). И как решить проблему - не понятно пока...
Вопросы:
- сталкивались с подобным? Кто хостинг-провайдер?
- наоборот - все ок, летает, хоть полмиллиона страниц берет. Кто хостер?
- как быть в таком случае? (возможно сталкивались, искали уже решение?)
Причем, повторюсь, что я сканирую свой (или клиентский сайт), к которым у меня полный доступ.... Как быть?
Буду признателен за любые советы. Спасибо
Здравствуйте
Regta, моё почтение, приятно когда на форум заглядывает кто-то из "старичков" 😎 🤝
Уже не на одном хостинге (виртуальном) наблюдаю. При попытке сканировать большие сайты (от 10 тысяч страниц и больше) - происходит следующее:
сканирование практически полностью останавливает (если и продолжается - то в час по чайной ложке и 50/50 с "No Response").
на сайт с браузера зайти уже не могу - пишет "Превышено время ожидания"
После остановки сканирования - примерно через 30-40 минут доступ к сайту через браузер восстанавливается.
Что это???
Именно так это происходит во время временной, либо постоянной блокировки IP со стороны сервера (нередко со стороны CDN сервиса).
Либо полный блок и FROG в процессе просто замирает и с текущего IP невозможно зайти на сайт (проверку проще всего организовать через TOR), либо временный - при превышении числа обращений к сайту, временная блокировка, которая со временем автоматически снимается.
Какое самое очевидное решение - снизить лимит нагрузки при парсинге, возможно вам удастся "проскочить" систему блокировки, напоминаю это здесь
Звонил в ТП хостинга - отмазываются, мол не при делах.
Бывает и такое. Если это общие настройки шаред хостинга, то они просто игнорируют и говорят, у нас всё нормально, но на самом деле просто не собираются решать подобные "узкие вопросы", говорят - переходите на выделенный сервер, там для клиентов могут быть другие условия. Ну а если вы не клиент, то вообще присылают шаблонные ответы суть которых - становитесь клиентом, оплачивайте услуги и потом будем разговаривать про ваши хотелки.
Вопросы:
- сталкивались с подобным? Кто хостинг-провайдер?
Я в последние 2 года по клиентским анализам сталкиваюсь частенько. Крайний раз - буквально на прошлой неделе, CDN сервис блокировал, я написал клиенту с просьбой проверить, он передал мою просьбу админку и админ подтвердил, - ответил, ваш IP автоматически забанен - переносим его в список доверенных IP.
После этого действия Frog беспрепятственно всё спарсил.
- как быть в таком случае? (возможно сталкивались, искали уже решение?)
Увы, принять политику хостинга и попытаться подстроиться. Frog как ни крути создаёт множественные параллельные (если число потоков несколько) и последовательные запросы к серверу и сервис хостинга в зависимости от своей политики может их блокировать - это их право определять порядок доступа.
Причем, повторюсь, что я сканирую свой (или клиентский сайт), к которым у меня полный доступ.... Как быть?
По ситуации. Если вы арендуете выделенный хостинг и вам запрещают для работы подобный доступ к сайту - искать хостинг, где ваш IP внесут в список доверенных IP. Это, пожалуй, самый универсальный вариант.
Если всё равно банят (или договориться не удалось), а ситуации такие бывают, то я предпочитаю не работать с таким сайтом/клиентом. Я вообще последние несколько лет стараюсь не загонять себя в угол и не работать с проблемными клиентами, которые не хотят решать вопросы, не хотят вникать в процесс, не понимают, что современное продвижение - это путь технических и организационных преобразований, как сайта, так и бизнеса - словом, не работать с теми, кто не хочет, не может, не будет, не понимает - не созрел до того, чтобы решать текущие проблемы на качество ином уровне.
Однако, если расширять видение вопроса, то могут быть следующие варианты:
1) Как уже сказал выше попытаться изменить скорость запросов к серверу.
2) Вспомнить про то, что Frog даёт возможность изменить User-Agent и можно представиться, например, Гуглом,
в ряде случае это тоже помогает. Также там есть возможность кастомных настроек.
3) Если у хостинга есть ограничение на кол-во последовательных запросов, то можно рассмотреть варианты динамической смены IP в рабочем цикле парсинга.
- точно знаю, что есть сервисы, которые по времени, либо по команде обеспечивают смену IP на лету (такие предложения довольно частое явление у селлеров мобильных прокси);
- есть услуги VPN сервисов, которые делают это в вашем ручном управлении (условно говоря, вы устанавливаете клиент VPN на свой компьютер) и примерно на глаз через каждые 900 страниц ставите Frog на паузу и на горячую меняете переподключение к другому VPN серверу с другим IP - ожимаете паузу и продолжаете дальше собирать.
4) Добавлю еще возможности парсинга сторонними уже специализированными инструментами. Это уже конечно не про Frog вообще, но в ряде случае актуализирует некоторые важные задачи. Здесь я бы обратил внимание конечно на Зенку (Zennoposter), потому как по себя можно самостоятельно писать полноценные алгоритмы обработки данных. И A-Parser.
Для наглядности - в Зенке вы пишите шаблон или скрипт для парстинга рабочих данных, покупаете в районе 1000 рублей несколько сотен шарен IP-шников (которые вы будете использовать не только для этих целей) и формируете рабочий цикл, где автоматически меняете IP-шники.
Так, что коллега, пробуйте, но в принципе, когда что-то намеренно блокируется и не решается, то я уже морально не берусь за такие задачи. Хотя всегда существует спортивный интерес перебороть ситуацию, тут уж выбирайте, что вам ближе 😉
работайте через прокси, и проблема решится.
Вечер добрый, покуда вы как автор напомнили про SiteAnalyzer.
Cкажите пожалуйста, а в вашей программе планируется использование динамической смены прокси в одном рабочем цикле?
Regta, моё почтение, приятно когда на форум заглядывает кто-то из "старичков" 😎 🤝
Мега-респект за развернутый ответ. Буду изучать, спасибо!
Заглядываем постоянно, пишем не часто //
Вечер добрый, покуда вы как автор напомнили про SiteAnalyzer.
Cкажите пожалуйста, а в вашей программе планируется использование динамической смены прокси в одном рабочем цикле?
Может подробнее расписать, как это по вашему должно работать?
И лучше в соответствующей ветке...
Может подробнее расписать, как это по вашему должно работать?
Идея в принципе проста.
1) Добавляем список проксей.
2) Определяем лимит полученных URL-ов (поле, куда можно ввести численное значение, например, 500).
3) Определяем режим обхода при котором при достижении указанного лимита URL-ов, происходит пауза и дальше досбор данных происходим уже со следующего прокси.
Наглядно примерно так:
прокси1 -> URLs: 1-500
прокси2 -> URls: 501-1000
прокси3 -> URls: 1001-1500
и т.д.