Как организовать массовую регулярную проверку сайтов?

[Удален]
305

Добрый день!

Есть около 3000 сайтов, в дальнейшем их число постепенно увеличится до 5к, возможно и более.

Для каждого сайта хранится информация о тиц, pr, нахождение в як/dmoz, число проиндексированных страниц в яндексе/гугле и т.п. Требуется как-то поддерживать актуальность этой информации.

Сайты хранятся в базе на сервере, к ней будут подключаться скрипты, перепроверяющие все значения (тиц и прочее). Но из-за большого числа сайтов возможна серьезная нагрузка на сервер, а также бан по ip со стороны поисковиков во время сбора информации.

Поэтому у меня следующие вопросы:

  • Как часто нужно обновлять информацию, чтобы она была актуальной? Полагаю, что чаще чем раз в 2 недели показатели серьезно не меняются? К примеру, на тех же биржах статей частенько встречаю не действительные значения тиц и пр., иногда создается впечатление, что они вообще обновляют раз в месяц.
  • Сколько потребуется прокси и как грамотно организовать процесс проверки? Может растянуть на каждый день понемногу? Вопрос также актуален в плане снижения нагрузки на сервер.
  • Где приобрести прокси для моих нужд?
  • Возможно есть какие-то сервисы, к которым можно было бы подключить мою базу сайтов и получать всю необходимую мне инфу? Скажем, берущие по 1 wmz за проверку 1000 сайтов? :)

Спасибо заранее!

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий