DenisVS

Рейтинг
644
Регистрация
01.05.2010

В общем, у ТСа есть нормальная работа, но нравится онлайн.

Работа кормит, а с онлайна только на пиво хватает.

Видимо, теперь дилемма, бросить нахрен, только что именно…

У многих CMS прописывается хост в конфиге.

Лучше не надо бесконечный, возможны бесконтрольные состояния.

Я такие вещи по крону запускаю.

Чтобы не было параллельных процессов, можно создавать PID файл.

Лучше на Пайтоне, но я бы на PHP сделал. По опыту написания парсеров, современная машинка напрягаться не должна на таком количестве.

Значит, нужно использовать базу. Проходить по всем имеющимся URL, дёргать страницы и то, что совпало с паттерном, заносить в соответствующее поле. Дальше, создаём поле вроде last_checked, куда заносим дату последней проверки, в unixtimestamp.

Перед очередным парсингом делаем выборку, дёргаем самую старую страницу. Если есть ненапарсенное, его выбираем приоритетно.

Можно пойти дальше и наделить систему интеллектом, чтобы разгрузить ресурсы. Ввести поле last_changed, куда заносить дату последнего изменения. Т.е. дёрнули из базы, сравнили с тем, что выплюнул парсер. Есть разница — апдейтим, нет разницы, апдейтим только last_checked.

Далее, выбирать те URL, разница между проверкой и последним изменением которых больше, чем разница между проверкой и текущим временем.

Этим добиваемся того, что чаще обновляемые страницы прсятся чаще, чем покрытые мхом. Само собой, Коэффициенты ввести, чтобы гибко настраивалось. Кроме этого, нужно ввести параметр $maxTimeNotCheck, чтобы не оказалось, что следующий парсинг будет через пол года.

И лучше запускать в cli, тогда нагрузка будет совсем небольшая.

Редиректил порядка 500 URL, посещаемость 700 в сутки. Нагрузку не заметил. Т.е. не то, чтобы в пределах погрешности, а совсем не заметил ничего. Слону дробина.

Там всё в оперативе можно держать…

Potapych:
но она создана для экономии трафика

А какая разница, для чего создан комбайн, если мне нужно взбить сливки, а он это умеет?

Например, я пользуюсь AllSubmitter. Знаете, для чего? Для почтовой рассылки.

HC может работать через внешние прокси-серверы, причем для разных условий - через разные.

У программы, кстати, есть приятный бонус — хороший фильтр контента. Помнится, резал всё, что мне не нравилось, даже счётчики LI, GA, RambletTop.

Прямо детектив.

Joker-jar:
Ну и, конечно, мультиоконность в SSH =^.^=

Во! Геморно после каждого разрыва десять сессий Putty переоткрывать, да перенастраивать, учитывая, что у меня доступ к тазику через роутер, с которым и надо сначала связаться.

Drupal позволяет задавать любые URL.

Всего: 14528