- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Нужно - в автомате скопом получать страницы, которые выдаёт Яндекс по списку запросов, штук 200-300 примерно, например в Perl-скрипте (и потом их уже парсить).
Год назад работало, а сейчас срабатывает какая-то защита Яши - несколько страниц даёт забрать, но потом отваливается. Видимо капча или проверка на то, браузер это или скрипт...
Как с капчей работать и по какому признаку Яша блокирует скрипт?
Наверняка сто раз обсуждалось - где почитать? Может примеры скриптов есть?
http://topperharley.ru/2009/06/yandex-parser-parser-yandeksa-besplatno/
Спасибо, не то. Мне надо самому парсить, под свои нужды.
на Perl не знаю, а на PHP usleep и прокси вам в помощь.
а объемы-то какие? сколько запросов в час/всего? сколько результатов с яндекса? может у вас запросы "не типичные".
kuksha: в скрипте проверяйте в контенте полученной страницы наличие вёрстки капчи, и если найдёте, то скармливайте капчу в antigate.com (у них есть api для этого) - через примерно полминуты получите ответ с кодом капчи. ну а дальше сабмитите форму капчи яндесу и продолжаете дальше парсить.
anigate не бесплатен, но с маленькими объёмами капч будет стоить копейки.
если всё делать с одного ip, то полгода назад капча выскакивала где-то на каждые 80-200 запросов
впрочем, при маленьких объёмах можно обходиться лишь проксями, но с публичными будет слишком много проблем с яндексом, а не публичные, прокси с ботнетов, опять же только за деньги
Запросы самые обычные - 1-2 словные. Выдачи Топ 10 вполне хватит. Скорость не горит - могу порциями в течение 2-3 часов скармливать, а то и больше. Мне для себя, не для работы, поэтому если есть уже известные таймауты для использования одного IP - было бы здорово. Сколько в серии может быть запросов с 1 IP и с какими промежутками, чтобы не забанили?
Неделю назад банили буквально после 5-6 запросов подряд...
"в скрипте проверяйте в контенте полученной страницы наличие вёрстки капчи" - если бы я знал как это делать... и как её расшифровывать... не хочется пользоваться сторонними сервисами. Читал когда-то как это самому делать, но вот уже второй день не могу найти.
http://xml.yandex.ru/ Почитайте инструкции, много возможностей и нет проблем с капчей. Зачем мучить поисковик если есть специализированное решение? Просто сформируйте правильные запросы и получите выдачу в считанные секунды.
Не изобретайте велосипед. Воспользуйтесь сторонними сервисами.