Автоматические запросы к Гуглу

12
izbushka
На сайте с 08.06.2007
Offline
110
4921

Учитывая, что автоматические запросы запрещены гуглом, как он отреагирует при не большом их кол-ве (до 50-100 в день (каждый день, регулярно), но за небольшой промежуток времени)? Цель собирать статистику положения сайта в серпе по определенным ключевикам.

Может у гугла есть что-то наподобие Яндекс.XML?

K
На сайте с 12.07.2006
Offline
295
Kpd
#1

izbushka, если никак не получается распределить запросы равномерно по часам, то что мешает использовать прокси?

izbushka
На сайте с 08.06.2007
Offline
110
#2

Да не в том вопрос, мне интересна реакция гугла. Что будет: забанят сайт на этом IP, запретят с этого ip ходить на гугл, или может что еще?

А если запросы делать, например links-ом, и делать паузу между запросами в 5 сек, может ли он вычислить что это автоматический запрос (например, по регулярности этих запросов - скажем все с 1:00 до 1:05 ночи) ?

На сколько сильно они следят за этим?

А яндекс и рамблер?

Спасибо

K
На сайте с 12.07.2006
Offline
295
Kpd
#3

izbushka, я проверяю PR и ТИЦ для списка сайтов без проксей, но проверка распределена по времени (раз в 5 минут), проблем нет (тьфу-тьфу-тьфу).

Где-то на форуме писали, что Гугль и Рамблер банят по IP, про Яндекс не знаю.

A
На сайте с 09.08.2004
Offline
82
#4

Раньше Гугля банил айпи на непродолжительное время, примерно сутки. Видимо у них скрипты работают по так называемой "модели усредненного посетителя", просматривающего столько-то результатов за определенный период и банят айпи при превышении этого количества.

Можно поискать какой-нибудь серьезный сайт, на котором есть полнотекстовый поиск от гугля по всему вебу и парсить его. Тогда по идее запросы в гугль будут идти с айпи этого сайта.

S
На сайте с 13.07.2007
Offline
56
#5
Kpd:
izbushka, я проверяю PR и ТИЦ для списка сайтов без проксей, но проверка распределена по времени (раз в 5 минут), проблем нет (тьфу-тьфу-тьфу).
Где-то на форуме писали, что Гугль и Рамблер банят по IP, про Яндекс не знаю.

Дык, рандомное время от 1 до 5 минут и кроном запускать.

OZE
На сайте с 21.05.2006
Offline
152
OZE
#6
Kpd:
Где-то на форуме писали, что Гугль и Рамблер банят по IP, про Яндекс не знаю.

яндекс тоже, пару IP я уже успел испортить :)

i++
На сайте с 09.01.2007
Offline
52
i++
#7

Пишут вот что: http://www.google.com/support/webmasters/bin/answer.py?answer=66357 Я так понимаю, на платной основе Google тоже не предоставляет поиск :( Никто не имеет опыта общения с Google по поводу получения разрешения на автоматические запросы (см. ссылку выше)?

Биржа статей Liex.ru (http://www.liex.ru/) — размещение рекламных статей с прямыми ссылками.
skady
На сайте с 28.02.2006
Offline
71
#8
izbushka:
Учитывая, что автоматические запросы запрещены гуглом, как он отреагирует при не большом их кол-ве (до 50-100 в день (каждый день, регулярно), но за небольшой промежуток времени)? Цель собирать статистику положения сайта в серпе по определенным ключевикам.

Раскидывайте запросы по времени и проблем никаких не будет.

Когда Google начинает подозревать что вы робот - он для начала дает вам капчу. В этот момент вы сами можете зайти на Google (через прокси на хостинге конечно) и ввести капчу для разблокирования.

Из опыта работы в Google Translate:

- при частых запросах (более 1000 с паузой 3-5 секунд) - дает капчу. После ввода капчи можно ещё несколько сотен ))

- при частых запросов с периодом - бана нет. Сделал около 30 000 запросов в течение месяца с паузой от 40 секунд и больше.

Обмен ссылками с сайтами развлекательной тематики (сайт ЯК, DMOZ) (http://dotapick.ru/catalog/add.html)
i++
На сайте с 09.01.2007
Offline
52
i++
#9
skady:
Когда Google начинает подозревать что вы робот - он для начала дает вам капчу. В этот момент вы сами можете зайти на Google (через прокси на хостинге конечно) и ввести капчу для разблокирования.

Он дает капчу только в том, случае если вам (запрашивающему клиенту) получилось установить куку. Если куку клиент не принимает, вам вместо капчи будет извинение и рекомендация провериться на вирусы. Если клиент куку принимает, то соответственно и вводить качу должен клиент с той же кукой и вариант просто зайти браузером через проксю на серваке как таковой не катит. Сначала в браузер нужно внедрить куки от гугла, что от вставил серверу.

skady
На сайте с 28.02.2006
Offline
71
#10

I++ - я не знаю в чем причина - но у меня так работало.

я пользовался библиотекой PHP для запроса по http/post с Google. В какой-то момент увидел что поток данных прекратился - поставил PHPoxy на сервер и зашел через него на google.com. Увидел капчу - ввёл её - и дальше снова ботом беспрепятственно использовал Google Translate.

Возможно в разных сервисах разные правила.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий