- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Всем доброго времени суток!
Решил переделать свою старенькую серверную чекалку позиций и столкнулся вот с какой проблемой: Яша не выдаёт на одной странице более 50 результатов, в связи с чем приходится просматривать более 1 страницы при парсинге, и как следствие большое количество запросов, на что Яша радостно реагирует сообщением "А не робот ли Вы...". На данный момент используется 18 ip-адресов, которые меняются в случае если выводится капча, но этого не хватает.
Вопрос: как вы решили проблему парсинга Яши без установки таймаутов и смены ip? :smoke:
Яша радостно реагирует сообщением "А не робот ли Вы...". На данный момент используется 18 ip-адресов, которые меняются в случае если выводится капча, но этого не хватает.
не пробовали увеличить количество айпишников и последовательно задавать с них запросы, заменяя айпишники с капчей новыми
Собственно количество ip и будет увеличено в качестве решения, если другого не найдётся... Вот поэтому и создал темку, может кто чего умного подскажет :)
можно использовать yandex XML:
http://xml.yandex.ru/
до 1000 запросов с одного IP...
P.S. одна из прог, которая использует данную возможность >>
можно использовать yandex XML:
http://xml.yandex.ru/
до 1000 запросов с одного IP...
P.S. одна из прог, которая использует данную возможность >>
На данный момент у меня 36 ip адресов - соответственно я смогу сделать 36000 запросов. Но вот всё-равно смущает некий, хоть и "высокий" потолок. Плюс, раньше, не знаю как сейчас, часто выдача XML отличалась от общей выдачи. Как сэтим дела обстоят сейчас?
можно использовать yandex XML:
http://xml.yandex.ru/
до 1000 запросов с одного IP...
тут есть хитроть, например то что поиск идет до 500 места, если мне память не изменяет.
А это значит что на 1 запрос, тратиться 10 попыток его найти среди 500 мест. Итого вы можете с одного ИПа найти 100 слов в день, имея 100 Проксей это хорошо, а с 18ю это не так уж и много.
Плюс, раньше, не знаю как сейчас, часто выдача XML отличалась от общей выдачи. Как сэтим дела обстоят сейчас?
Как и раньше - отличается. Особенно первый день после АПа (+/-) аж до 5-и позиций.
P.S. В помощь таймауты + прокси. Других вариантов не вижу.
А если юзать http://go.mail.ru/search?q= ? Там выдача точно как у Яшки. Чуть регекспы изменить - и в путь. Не?
тут есть хитроть, например то что поиск идет до 500 места, если мне память не изменяет.
А это значит что на 1 запрос, тратиться 10 попыток его найти среди 500 мест. Итого вы можете с одного ИПа найти 100 слов в день, имея 100 Проксей это хорошо, а с 18ю это не так уж и много.
А Вы простите про какой метод сейчас говорите ? Perl или через строку GET ???
У меня вроде как и 800 позиций получал. Но через GET.
А если юзать http://go.mail.ru/search?q= ? Там выдача точно как у Яшки. Чуть регекспы изменить - и в путь. Не?
отличается на мейле выдача =( увы...
В десятке добавил 25.11.2008 в 10:40
xml тоже не подходит ввиду того, что выдача отличается, хоть и в день апа... всегда нужны точные данные.
В десятке добавил 25.11.2008 в 10:43
P.S. В помощь таймауты + прокси. Других вариантов не вижу.
На таймаутах далеко не уедешь... сейчас уже более 1000 запросов надо мониторить... и времени на это тьма уходит с таймаутами и то с ограничением не дальше 50 позиции - поэтому по одной странице в Я смотрю. Прокси - вообще крайне не надёжная штука. У меня свои ip. Но просто их количество ограниченно.
А Вы простите про какой метод сейчас говорите ? Perl или через строку GET ??? У меня вроде как и 800 позиций получал. Но через GET.
Курлами через GET
Там есть функция.
if($info['http_code']==200){} - успешное соединение
если статус равен 0 то IP не работает. Ипшники вводятся в массив, в итоге в скрипте они используются случайным образом. При успешном выполнении желательно использовать задержку sleep();