Парсер выдачи гугла

12
DO
На сайте с 28.05.2006
Offline
109
#11

Тут ещё другая проблема - раньше делая запрос что с &hl=en что с &hl=ru была одинаковая выдача - теперь же может случиться так что в одной сайт на 1ом месте, в другой - на 100ом !! Хотя меняется только язык интерфейса..

C
На сайте с 24.07.2005
Offline
34
#12

А еще выдача меняется в зависимости от IP с которого смотришь...

Кстати проблему я решил так - парсю гугл без использования проксей :) Правда пришлось использовать таймауты для того, чтобы у гугла не сработала защита от флуда.

П
На сайте с 19.04.2005
Offline
104
#13

Если вы уж решили такой сервис сделать для пользователей, то справедливо было бы выдавать данные в разрезе различных дата центров, либо позволять пользователю самому выбиратоь интересующий дата центр, тогда отпадут недоразумения по поводу различной выдачи.

Вечные ссылки в рассрочку, отобраны только качественные доноры Регистрация по приглашению -> http://gogettop.ru/?ref=18973 (http://gogettop.ru/?ref=18973)
M
На сайте с 21.11.2004
Offline
230
#14

Под МСН такой же скрипт отлично встаёт, и до 200 результатов за раз дёргает отлично без прокси.

Продвигаю домены руками (http://roke.ru)
C
На сайте с 24.07.2005
Offline
34
#15

Я думаю Гугл обращает особое внимание на ботов, лазающих по его выдаче (особенно через анонимные прокси) из-за скандалов со скликом объявлений Adwords.

DO
На сайте с 28.05.2006
Offline
109
#16

Ещё много интересного узнал про гугл в результате тестов.

Итак, раскрываю новые секреты.

Оказывается, hl= меняет не просто язык интерфейса выдачи. hl=ru (внимание!) автоматически включает галочку "искать только в русском интернете" ! То бишь автоматически включается lr=lang_ru даже если указано "lr=" (пустое). А сам сервер - google.com или google.ru роли не играет. ip адрес тоже роли не играет - он служит только для определения этого самого языка интерфейса если он явно не задан.

Я уже не знаю как это назвать, но это какое-то свинство со стороны гугля.. Зачем делать галочку "искать в русском" если она выходит всегда включена если включен русский интерфейс. Единственное, это поведение гугля действует само собою только на русские запросы.

Но и это ещё не всё ! Если выбрано "показывать 10 сайтов на странице" - то ссылка на каждый сайт является уникальной. Если выбрано к примеру "50 результатов" - то на некоторые сайты ведут две ссылки. При этом естественно если позиция была скажем восьмой, то она становится к примеру 14ой. Ещё одна дилемма - с одной стороны надо отслеживать реальную позицию, то есть выдавать "14", с другой стороны логика подсказывает что надо фильтровать дубликаты, превращаю позицию в нормальную "8ю"..

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий