Программная проверка прокси

12
A
На сайте с 21.07.2010
Offline
10
1213

Добрый день. Нужна помощь. Задача следующая:

есть скрипт, который парсит серп Яши и вордстат. Кол-во запросов может быть достаточно большое, соотвественно нужна работа через прокси. Соотвественно, возникает пара вопросов:

1) Где взять достаточно большое кол-во проксей желательно более менее живых? Есть ли сервисы, где можно автоматом получать списки проксей?

2) Как программно проверять проксю на работоспособность непосредственно перед её использованием в скрипте

D
На сайте с 09.07.2009
Offline
79
#1
arbuzzz:
Где взять достаточно большое кол-во проксей желательно более менее живых? Есть ли сервисы, где можно автоматом получать списки проксей?

Купить. Много где есть. Посмотрите в гугле.

arbuzzz:
Как программно проверять проксю на работоспособность непосредственно перед её использованием в скрипте

Просто тестить их.

TB
На сайте с 06.08.2010
Offline
2
#2

попробуйте Xrumer.

Бесплатный поиск туров с указанием туроператора: Tour-Box.ru (http://agency.tour-box.ru/go/tour-box/). Вы также можете разместить форму поиска на своем сайте бесплатно (/ru/forum/533225).
A
На сайте с 21.07.2010
Offline
10
#3
digwnews:
Просто тестить их.

В этом и вопрос. Каким образом их протестить?

попробуйте Xrumer

Не подойдет. Нужно что бы работал собственный скрипт.

Subudayj
На сайте с 24.06.2008
Offline
67
#4

Для Perl подойдет что-нибудь подобное:

http://search.cpan.org/~zoffix/WWW-ProxyChecker-0.002/lib/WWW/ProxyChecker.pm

Quo vadis?
A
На сайте с 21.07.2010
Offline
10
#5
Subudayj:
Для Perl подойдет что-нибудь подобное:
http://search.cpan.org/~zoffix/WWW-ProxyChecker-0.002/lib/WWW/ProxyChecker.pm

С перлом, к сожалению, не знаком. Есть ли решение для php? Я его и сам готов написать, если пойму, как именно и что надо проверять.

юни
На сайте с 01.11.2005
Offline
933
#6
arbuzzz:
Где взять достаточно большое кол-во проксей желательно более менее живых?

От 50 wmz в месяц. Если интересно, стучите в личку с указанием количества запросов в сутки.

https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
Subudayj
На сайте с 24.06.2008
Offline
67
#7
arbuzzz:
С перлом, к сожалению, не знаком. Есть ли решение для php? Я его и сам готов написать, если пойму, как именно и что надо проверять.

Посмотрите код решения для Perl - если PHP знаете, то смысл происходящего станет ясен.

[Удален]
#8
arbuzzz:
1) Где взять достаточно большое кол-во проксей желательно более менее живых? Есть ли сервисы, где можно автоматом получать списки проксей?
2) Как программно проверять проксю на работоспособность непосредственно перед её использованием в скрипте

1. Купить, как тут уже и сказали

2. Список проксей ставите на крон, получаете страничку через прокси и смотрите время отклика (тут можно просто получать странички с сервреров гугла - US, RU, CN и т.д., чтобы определить отклик от серверов в разных странах), меняете UPTIME. Так у вас будет список проксей, их аптайм и время отклика, а там уже сами решаете насколько они "живые".

Еще не плохо бы анализировать заголовки, отдаваемые прокси.

A
На сайте с 21.07.2010
Offline
10
#9
So1:
1. Купить, как тут уже и сказали
2. Список проксей ставите на крон, получаете страничку через прокси и смотрите время отклика (тут можно просто получать странички с сервреров гугла - US, RU, CN и т.д., чтобы определить отклик от серверов в разных странах), меняете UPTIME. Так у вас будет список проксей, их аптайм и время отклика, а там уже сами решаете насколько они "живые".

Еще не плохо бы анализировать заголовки, отдаваемые прокси.

Спасибо большое за алгоритм :)

[Удален]
#10

arbuzzz, а в чем проблема запихнуть в файл вселенскую кучу бесплатных прокси, через курл грузить нужную страничку каждый раз используя новый прокси из списка. Те что отдали заголовок отличный от 200 или не тот контент или медленно - удалять из массива.

А саму выборку поставить на цикл до последнего живого прокси.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий