- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Не так давно Яндекс начал выдавать каптчу сразу после нескольких запросов, здесь активно это обсуждалось. На данях я нашел решение этой проблемы. Я использую самописный парсер, который проверяет пару десятков сайтов по примерно 600 запросам. Что я делаю:
Все временные интервалы должны быть плавающими в определенном диапазоне. Вот какие диапазоны использую я, и получаю довольно хороший результат:
Наверняка эти данные можно уменьшить, поэкспериментировав. Вся суть не в больших паузах между запросами, а в том, что время паузы плавающее. До ввода программистом плавающих интервалов, даже при достаточно больших паузах паптча появлялась довольно быстро.
Почему не xml?
Я четно хотел быть «хорошим роботом», выделенные IP у меня есть, но, получив данные через xml на весь свой список и сравнив его с оригинальной выдачей, я был вынужден отказаться от xml, так как позиции там показывают что угодно, кроме оригинала, как я будут такие отчеты отправлять заказчикам?
Думаю, что SiteAuditor'у нужно тоже реализовать плавающий интервал, тогда их программой снова станет возможно пользоваться.
Будет интересно услышать ваши мнения и решения.
Использую подобную систему уже несколько лет.
Все равно, при больших нагрузках, нужно много IP-адресов.
Приходится парсить не только Яндекс и XML, но и qip.ru (раньше еще и mail.ru)...
Еще важные моменты: если ищем больше, чем на одну страницу в глубину, то делаем это с корректной передачей реферера, с того же ip и через небольшой промежуток времени (по сравнению с паузой между запросами). Кроме того, нужно хранить для каждой "сессии" куки и вообще максимально эмулировать работу браузера (юзер-агент, ip, кука и прочие параметры не должны меняться в пределах одной сессии).
Что-то вы не так делаете. Мы парсим с 6 IP порядка 5691 запрос (больше пока не требовалось). И проблем не возникает. При этом есть запас прочности.
Spectre правильно говорит, что нужно имитировать поведение пользователя.
Spectre а сколько запросов парсите вы, что у вас и XML и qip испольщзется?
Сколько запросов - не скажу. IP-адресов используются десятки. Это даст примерное понимания порядка. Точнее не знаю.
Имитация живого человека дает в результате невысокое качество использования IP. :(
Ибо если предположить среднюю частоту обращений раз в минуту и вычесть "апдейтное время", когда выдача может "скакать" (с полуночи до 7 утра), то получится всего 17*60 то есть 1020 запросов в сутки. То же что и XML.
Добавляем еще XML и qip.ru - получаем возможность парсить 3000 запросов с некоторыми оговорками...
ukv, Здорова Костян, приятно увидится)
Сколько запросов - не скажу. IP-адресов используются десятки. Это даст примерное понимания порядка. Точнее не знаю.
Имитация живого человека дает в результате невысокое качество использования IP. :(
Кстати, парсить выдачу по обычным запросам и делать пробивку по индексации - разные вещи.
Используем более 30 IP, в результате при пробивке по индексации получается при подключенных cookies получить без проблем около 3000 ответов, далее капча через раз, а то и подряд идет.
При отключенных cookies капча отдается гораздо быстрее (примерно после 5-6 запроса на каждый IP).
На самом деле все еще и от IP адреса зависит. Если в подсети ваших IP сидят реальные люди, то капча выдается гораздо реже.
Использую 1 IP, парсю в 5 потоков с задержкой 0 секунд, и все в шоколаде :) PosMan :)
Для начала приходится около 200 капч вбить, но после этого все норм хоть упроверяйся.
Использую 1 IP, парсю в 5 потоков с задержкой 0 секунд, и все в шоколаде :) PosMan :)
Для начала приходится около 200 капч вбить, но после этого все норм хоть упроверяйся.
И сколько получается сделать запросов за сутки по максимуму?
Два простых совета: 1) ip должны быть из разных подсетей, и 2) интервал между запросами с одного ip желательно оставлять в пределах 4 секунд и больше.
Если вы даёте большую нагрузку (5 и более запросов в секунду, круглосуточно и без пауз), то эти ограничения уже не помогают, у ПС подключаются антиддос-механизмы.
И сколько получается сделать запросов за сутки по максимуму?
Я не засекал максимум (у меня не много запросов, около 500 от силы), если брать другую их программу на проверку индексации ссылок, за сутки чикал и по 10000 ссылок без проблем.
Я не засекал максимум (у меня не много запросов, около 500 от силы), если брать другую их программу на проверку индексации ссылок, за сутки чикал и по 10000 ссылок без проблем.
А что за "другую их программу"? Можно подробнее :)