- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Сделал скрипт, который получает количество результатов по ключевому слову (php+curl). Прикрутил список из 130 проксей. Задержка между запросами 4-8 сек, после каждого запроса меняется прокси и user-agent. Но это не помагает, после первого прохода всего списка проксей (т.е. 130 запросов), каждый прокси оказывается забаненым. Никак не могу понять, как гугл вычисляет парсер. Пробовал такие варианты:
Включил куки, по каждому ip выполнять 3 запроса, чистить куки
Парсил без прокси со своего локалхоста - около 100 запросов было нормально, потом гугл начал банить, причем, если зайти с браузера - предложит ввести капчу, вводишь - ищешь нормально (через браузер), при этом скрипт в этот же момент оказывается забаненым.
Посоветуйте, что еще можно предпринять?
Прокси-то где берёте, HTTP_FORWARDED_FOR в каком состоянии?
Я столкнулся с тем, что большинство паблик-прокси перманентно забанены.
А авторизованные куки не пробовали подсовывать?
Прикрутил список из 130 проксей
Публичных? Посмотрите хуизы, к примеру, хостинги определяются уже на этой стадии.
Помогает
1. Авторизация (куки).
2. Покупка пула прокси.
3. Использование апи сервиса платного распознавания капч.
О каком объеме парсинга идет речь?
Если вы паблик прокси набрали - это основная причина, они давно убиты в ПС. Удивительно, что вы хотя бы 1 проход с ними умудряетесь делать. Причем вы даже могли купить пул общих прокси, и они все равно будут убиты. Плавали-знаем. Выход - покупка чистого пула прокси, исключительно в собственное пользование. В районе 2$ сейчас цена на них за один IPv4.
Помогает
1. Авторизация (куки).
у меня резервный инет через провайдера, который выдает одну внешнюю айпишку большим группам людей.
даже авторизованному юзеру гугл подсовывает периодически капчи. чаще всего по вечерам.
немного не то, что для парсинга годится :)
Нашел грубую ошибку у себя в коде. Весь день потратил на поиски другой причины в другом месте😮
Я столкнулся с тем, что большинство паблик-прокси перманентно забанены.
Купил список прокси недорого. Вроде бы не паблик, хотя, как их отличить? У меня прокси с паролями временными.
Нет, куки были отключены. При ближайшей возможности попробую этот вариант.
Насколько я понял, не публичные. Зашел на хуиз сервис, просмотрел - на какой параметр обращать внимание?
1. Авторизация (куки).
2. Покупка пула прокси.
3. Использование апи сервиса платного распознавания капч.
О каком объеме парсинга идет речь?
Спасибо за советы! Объем парсинга (как я понял из прочтения похожих тем на форуме) - маленький - на данный момент нужно отпарсить 10 000 ключевых слов. Скорость - чем больше тем лучше, но на данный момент 7-12 поисков в минуту.
Нашел и устранил грубую ошибку у себя в коде. Пока что парсинг работает нормально 30 минут, потом завершается сам. Скорее всего где-то параметр нужно выставить. От user-agent пришлось отказаться, CURL с этим параметром не хочет работать - ошибки пишет.
Задержка в 5-8 секунд очень сказывается на скорости. Хотелось бы немного быстрее, т.е. меньше задержку, т.к. с такими темпами парсить будет больше суток. Какую минимально можно использовать?
на какой параметр обращать внимание?
Сайт организации, к примеру.
От user-agent пришлось отказаться, CURL с этим параметром не хочет работать - ошибки пишет.
Впервые слышу чтобы у курла были какие-то проблемы с юзер агентом. Кажется мне что дело не в нем...
Прокси все-таки нормальные, это у меня ошибка была.
А смена рандомно юзер-агента как-то влияет на антибан? И еще, если кто-то уже парсил выдачу Гугла, какие задержки лучше использовать, чтобы не попасть в бан?