Как парсить выдачу Яндекса?

K
На сайте с 09.04.2012
Offline
0
10511

Нужно - в автомате скопом получать страницы, которые выдаёт Яндекс по списку запросов, штук 200-300 примерно, например в Perl-скрипте (и потом их уже парсить).

Год назад работало, а сейчас срабатывает какая-то защита Яши - несколько страниц даёт забрать, но потом отваливается. Видимо капча или проверка на то, браузер это или скрипт...

Как с капчей работать и по какому признаку Яша блокирует скрипт?

Наверняка сто раз обсуждалось - где почитать? Может примеры скриптов есть?

6uoncuxo3
На сайте с 05.11.2008
Offline
202
#1
We all live in a sick world, where hatred is a weapon, and freedom - a dream. © На небе — Бог, на земле — Россия. © Сербская поговорка.
K
На сайте с 09.04.2012
Offline
0
#2

Спасибо, не то. Мне надо самому парсить, под свои нужды.

[Удален]
#3

на Perl не знаю, а на PHP usleep и прокси вам в помощь.

G.Suvorov
На сайте с 27.11.2007
Offline
50
#4

а объемы-то какие? сколько запросов в час/всего? сколько результатов с яндекса? может у вас запросы "не типичные".

нужны данные? стучись сюда: парсеры, грабберы, data-mining (http://basilisklab.com/iru.html). РосПравосудие (http://rospravosudie.com).
M
На сайте с 05.03.2011
Offline
46
#5

kuksha: в скрипте проверяйте в контенте полученной страницы наличие вёрстки капчи, и если найдёте, то скармливайте капчу в antigate.com (у них есть api для этого) - через примерно полминуты получите ответ с кодом капчи. ну а дальше сабмитите форму капчи яндесу и продолжаете дальше парсить.

anigate не бесплатен, но с маленькими объёмами капч будет стоить копейки.

если всё делать с одного ip, то полгода назад капча выскакивала где-то на каждые 80-200 запросов

впрочем, при маленьких объёмах можно обходиться лишь проксями, но с публичными будет слишком много проблем с яндексом, а не публичные, прокси с ботнетов, опять же только за деньги

K
На сайте с 09.04.2012
Offline
0
#6

Запросы самые обычные - 1-2 словные. Выдачи Топ 10 вполне хватит. Скорость не горит - могу порциями в течение 2-3 часов скармливать, а то и больше. Мне для себя, не для работы, поэтому если есть уже известные таймауты для использования одного IP - было бы здорово. Сколько в серии может быть запросов с 1 IP и с какими промежутками, чтобы не забанили?

Неделю назад банили буквально после 5-6 запросов подряд...

"в скрипте проверяйте в контенте полученной страницы наличие вёрстки капчи" - если бы я знал как это делать... и как её расшифровывать... не хочется пользоваться сторонними сервисами. Читал когда-то как это самому делать, но вот уже второй день не могу найти.

LR
На сайте с 03.07.2009
Offline
47
#7

http://xml.yandex.ru/ Почитайте инструкции, много возможностей и нет проблем с капчей. Зачем мучить поисковик если есть специализированное решение? Просто сформируйте правильные запросы и получите выдачу в считанные секунды.

Белый Ум
На сайте с 27.04.2009
Offline
240
#8

Не изобретайте велосипед. Воспользуйтесь сторонними сервисами.

Skype: shum_beliy

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий