- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Не так давно Яндекс начал выдавать каптчу сразу после нескольких запросов, здесь активно это обсуждалось. На данях я нашел решение этой проблемы. Я использую самописный парсер, который проверяет пару десятков сайтов по примерно 600 запросам. Что я делаю:
Все временные интервалы должны быть плавающими в определенном диапазоне. Вот какие диапазоны использую я, и получаю довольно хороший результат:
Наверняка эти данные можно уменьшить, поэкспериментировав. Вся суть не в больших паузах между запросами, а в том, что время паузы плавающее. До ввода программистом плавающих интервалов, даже при достаточно больших паузах паптча появлялась довольно быстро.
Почему не xml?
Я четно хотел быть «хорошим роботом», выделенные IP у меня есть, но, получив данные через xml на весь свой список и сравнив его с оригинальной выдачей, я был вынужден отказаться от xml, так как позиции там показывают что угодно, кроме оригинала, как я будут такие отчеты отправлять заказчикам?
Думаю, что SiteAuditor'у нужно тоже реализовать плавающий интервал, тогда их программой снова станет возможно пользоваться.
Будет интересно услышать ваши мнения и решения.
Использую подобную систему уже несколько лет.
Все равно, при больших нагрузках, нужно много IP-адресов.
Приходится парсить не только Яндекс и XML, но и qip.ru (раньше еще и mail.ru)...
Еще важные моменты: если ищем больше, чем на одну страницу в глубину, то делаем это с корректной передачей реферера, с того же ip и через небольшой промежуток времени (по сравнению с паузой между запросами). Кроме того, нужно хранить для каждой "сессии" куки и вообще максимально эмулировать работу браузера (юзер-агент, ip, кука и прочие параметры не должны меняться в пределах одной сессии).
Что-то вы не так делаете. Мы парсим с 6 IP порядка 5691 запрос (больше пока не требовалось). И проблем не возникает. При этом есть запас прочности.
Spectre правильно говорит, что нужно имитировать поведение пользователя.
Spectre а сколько запросов парсите вы, что у вас и XML и qip испольщзется?
Сколько запросов - не скажу. IP-адресов используются десятки. Это даст примерное понимания порядка. Точнее не знаю.
Имитация живого человека дает в результате невысокое качество использования IP. :(
Ибо если предположить среднюю частоту обращений раз в минуту и вычесть "апдейтное время", когда выдача может "скакать" (с полуночи до 7 утра), то получится всего 17*60 то есть 1020 запросов в сутки. То же что и XML.
Добавляем еще XML и qip.ru - получаем возможность парсить 3000 запросов с некоторыми оговорками...
ukv, Здорова Костян, приятно увидится)
Сколько запросов - не скажу. IP-адресов используются десятки. Это даст примерное понимания порядка. Точнее не знаю.
Имитация живого человека дает в результате невысокое качество использования IP. :(
Кстати, парсить выдачу по обычным запросам и делать пробивку по индексации - разные вещи.
Используем более 30 IP, в результате при пробивке по индексации получается при подключенных cookies получить без проблем около 3000 ответов, далее капча через раз, а то и подряд идет.
При отключенных cookies капча отдается гораздо быстрее (примерно после 5-6 запроса на каждый IP).
На самом деле все еще и от IP адреса зависит. Если в подсети ваших IP сидят реальные люди, то капча выдается гораздо реже.
Использую 1 IP, парсю в 5 потоков с задержкой 0 секунд, и все в шоколаде :) PosMan :)
Для начала приходится около 200 капч вбить, но после этого все норм хоть упроверяйся.
Использую 1 IP, парсю в 5 потоков с задержкой 0 секунд, и все в шоколаде :) PosMan :)
Для начала приходится около 200 капч вбить, но после этого все норм хоть упроверяйся.
И сколько получается сделать запросов за сутки по максимуму?
Два простых совета: 1) ip должны быть из разных подсетей, и 2) интервал между запросами с одного ip желательно оставлять в пределах 4 секунд и больше.
Если вы даёте большую нагрузку (5 и более запросов в секунду, круглосуточно и без пауз), то эти ограничения уже не помогают, у ПС подключаются антиддос-механизмы.
И сколько получается сделать запросов за сутки по максимуму?
Я не засекал максимум (у меня не много запросов, около 500 от силы), если брать другую их программу на проверку индексации ссылок, за сутки чикал и по 10000 ссылок без проблем.
Я не засекал максимум (у меня не много запросов, около 500 от силы), если брать другую их программу на проверку индексации ссылок, за сутки чикал и по 10000 ссылок без проблем.
А что за "другую их программу"? Можно подробнее :)