Как быстро Google банит автоматические парсеры выдачи, я в шоке. Что делать?

12
greenwood
На сайте с 08.09.2003
Offline
519
#11
Yukko:
Получаем пользовательский ввод, перенаправляем на того, кто требует ввести букавки

чужими руками жар загребать :)

SF
На сайте с 11.10.2005
Offline
137
#12

Можно официально, запросы, через xml данные брать.

Для googla подробности здесь

http://www.google.com/apis/

для яндекса здесь

http://xml.yandex.ru/

Яндекс позволяет бесплатно делать до 200 XML-запросов в сутки (но не более 5000 запросов в месяц) для личного некоммерческого использования. Для задания большего количества запросов в сутки или коммерческого применения предусмотрено платное использование.

хотя понимаю что, официально решать эти вопросы "влом".

сам, я, тоже пока не созрел для этого.

Инструкция: Как Правильно Делать Сайты: Домен, Хостинг, Установка CMS (http://www.3sd.ru/kak-delat-site/index.php).
DO
На сайте с 01.09.2005
Offline
120
#13
SellingFeis:

Можно официально, запросы, через xml данные брать.

Для googla подробности здесь
http://www.google.com/apis/

для яндекса здесь
http://xml.yandex.ru/
Яндекс позволяет бесплатно делать до 200 XML-запросов в сутки (но не более 5000 запросов в месяц) для личного некоммерческого использования. Для задания большего количества запросов в сутки или коммерческого применения предусмотрено платное использование.

хотя понимаю что, официально решать эти вопросы "влом".
сам, я, тоже пока не созрел для этого.

Решение вполне разумное.

Google позволяет делать 1000 запросов в сутки, что для моих нужд должно быть вполне достаточно.

Яндекс в этом плане менее дружественный, но в принципе жить можно.

Я запомню этот вариант.

P.S.:

Новости с полей. 🚬

Google ловит на формате обращения к 1-й странице выдачи.

Что странно - он не ловит на другой вполне очевидной вещи - на реферере. Что, впрочем, легко и непринуждённо можно было бы обойти.

При достаточном случайном таймауте (больше 10 секунд) всё отдаётся нормально.

Только я ещё пока не работал с его параметром "filter", чтобы он более полные результаты показывал.

А Google API - не худший вариант. Возможно перейду на него.

Rambler при запросах к своей статистике (adstat.rambler.ru/wrds/) ловит то ли на частых запросах (одинаковый таймаут не обязателен), то ли на реферере, то ли на том и другом сразу. Я пока особо не разбирался, как с этим бороться, - не так важно.

Спасибо всем за советы.

Если кому интересно, напишу продолжение.

!kt0
На сайте с 28.06.2006
Offline
46
#14

D.O., с большим таймаутом ловит, но только через 1-3 часа, в зависимости от времени суток...

http://seorepa.com/ (http://seorepa.com/) - блог был там, пока не запилили mchost
B
На сайте с 24.09.2005
Offline
62
#15
!kt0:
D.O., с большим таймаутом ловит, но только через 1-3 часа, в зависимости от времени суток...

A что там круглосуточно парсить ?

Куда делось свободное место (http://se-chronicle.blogspot.com/) на жестком диске
DO
На сайте с 01.09.2005
Offline
120
#16

Я пока пришёл к такому режиму:

1-я десятка страниц вытягивается со случайным интервалом 2-8 секунд.

Далее пауза около 1 минуты (иначе бан).

Потом так же все последующие десятки страниц - 2-8 секунд между страницами и по 60-70 секунд между десятками.

Выдача по запросу обработана - 5 минут (+ несколько ослучайных секунд) пауза - следующий запрос.

Если забанили - ввести код с картинки. Сразу может не пустить к выдаче по аналогичному запросу, тогда подождать несколько часов или окончания суток, - точно не измерял.

A
На сайте с 12.05.2004
Offline
176
#17
D.O.:
Я пока пришёл к такому режиму:
1-я десятка страниц вытягивается со случайным интервалом 2-8 секунд.
Далее пауза около 1 минуты (иначе бан).

1-я десятка страниц – это уже вся выдача по запросу. 10x100=1000 – больше гугла не отдает ;)

DO
На сайте с 01.09.2005
Offline
120
#18
alexseo:
1-я десятка страниц – это уже вся выдача по запросу. 10x100=1000 – больше гугла не отдает ;)

1-я десятка страниц - это 10x10=100.

A
На сайте с 12.05.2004
Offline
176
#19
D.O.:
1-я десятка страниц - это 10x10=100.

Ну раз намек не понят, мучайтесь дальше :)

_ppr
На сайте с 28.06.2006
Offline
10
#20
SellingFeis:

для яндекса здесь
http://xml.yandex.ru/
Яндекс позволяет бесплатно делать до 200 XML-запросов в сутки (но не более 5000 запросов в месяц) для личного некоммерческого использования.

Яндекс уже давно тыщщу в день дает... но api такое муторное... шаг влево в право и уже нужно так изловчится 😡 , но с простым определением позиций проще..

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий