В общем, у ТСа есть нормальная работа, но нравится онлайн.
Работа кормит, а с онлайна только на пиво хватает.
Видимо, теперь дилемма, бросить нахрен, только что именно…
У многих CMS прописывается хост в конфиге.
Лучше не надо бесконечный, возможны бесконтрольные состояния.
Я такие вещи по крону запускаю.
Чтобы не было параллельных процессов, можно создавать PID файл.
Лучше на Пайтоне, но я бы на PHP сделал. По опыту написания парсеров, современная машинка напрягаться не должна на таком количестве.
Значит, нужно использовать базу. Проходить по всем имеющимся URL, дёргать страницы и то, что совпало с паттерном, заносить в соответствующее поле. Дальше, создаём поле вроде last_checked, куда заносим дату последней проверки, в unixtimestamp.
Перед очередным парсингом делаем выборку, дёргаем самую старую страницу. Если есть ненапарсенное, его выбираем приоритетно.
Можно пойти дальше и наделить систему интеллектом, чтобы разгрузить ресурсы. Ввести поле last_changed, куда заносить дату последнего изменения. Т.е. дёрнули из базы, сравнили с тем, что выплюнул парсер. Есть разница — апдейтим, нет разницы, апдейтим только last_checked.
Далее, выбирать те URL, разница между проверкой и последним изменением которых больше, чем разница между проверкой и текущим временем.
Этим добиваемся того, что чаще обновляемые страницы прсятся чаще, чем покрытые мхом. Само собой, Коэффициенты ввести, чтобы гибко настраивалось. Кроме этого, нужно ввести параметр $maxTimeNotCheck, чтобы не оказалось, что следующий парсинг будет через пол года.
И лучше запускать в cli, тогда нагрузка будет совсем небольшая.
Редиректил порядка 500 URL, посещаемость 700 в сутки. Нагрузку не заметил. Т.е. не то, чтобы в пределах погрешности, а совсем не заметил ничего. Слону дробина.
Там всё в оперативе можно держать…
А какая разница, для чего создан комбайн, если мне нужно взбить сливки, а он это умеет?
Например, я пользуюсь AllSubmitter. Знаете, для чего? Для почтовой рассылки.
У программы, кстати, есть приятный бонус — хороший фильтр контента. Помнится, резал всё, что мне не нравилось, даже счётчики LI, GA, RambletTop.
Прямо детектив.
Во! Геморно после каждого разрыва десять сессий Putty переоткрывать, да перенастраивать, учитывая, что у меня доступ к тазику через роутер, с которым и надо сначала связаться.
Drupal позволяет задавать любые URL.