Получить PR для очень большого списка URL-ов

Mad Cat
На сайте с 29.01.2006
Offline
89
550

Задача: в разумные сроки (меньше суток) из однострочного txt-файла с корректно отформатированными URL-ами получить двухколоночный csv-файл со значением PR напротив каждого URL.

Самое сложное - это размер входящего файла: от 100k до 500k записей.

Насколько я понимаю то нужно поднимать скрипт проверяющий PR через кучу проксей так как если лупить кучу запросов (да еще и в несколько потоков) - Google просто забанит IP-адрес сервера.

Буду благодарен любым рекомендациям по решению данной задачи.

Профессиональное тестирование ПО и web-сервисов (http://www.testlab2.com)
nickspring
На сайте с 29.03.2006
Offline
228
#1

Mad Cat, с одного IP:

1. Разумные рандомные паузы.

2. Разный User-Agent.

3. Не принимать cookie.

Mad Cat:
Самое сложное - это размер входящего файла: от 100k до 500k записей.

Самое простое как раз :).

Mad Cat
На сайте с 29.01.2006
Offline
89
#2
nickspring:
Mad Cat, с одного IP:

1. Разумные рандомные паузы.
2. Разный User-Agent.
3. Не принимать cookie.

А сколько потоков с одного IP можно заряжать?

Если делать секундную паузу между запросами - получится 86400 запросов в сутки. Если создать соотв. 6 потоков - достигается требуемая производительность в 500k/сутки.

nickspring
На сайте с 29.03.2006
Offline
228
#3

Mad Cat, не знаю сколько потоков, не экспериментировал. Лучше тогда 6 ip.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий