Я считаю, что на подобных коммерческих форумах модераторы только вредят репутации ресурса. Яркий пример этому - Калик Шниперсон на ua-teens. Модераторов нужно жестко контроллировать, даже сильнее, чем обычных пользователей. Именно модераторы делают погоду на ресурсе, в случае их заговора и слаженной работы только себе во благо, форум может быстро лишиться постоянной целевой аудитории.
По этой причине я не провожу больше набор модераторов. У меня их осталось всего двое, самых толковых. От остальных неадекватов, которые с самого начала планировали "грести только под себя", я благополучно избавилась.
Скрипт обслуживает как свои сайты, так чужие. Было решено его работу организовать на отдельном оборудовании, чтобы он не перегружал ни один из собственных сайтов. То есть, скрипт получился практически универсальный: он может круглосуточно работать на отдельном сервере где-нибудь в другой стране, в специальном облачном сервисе от iMacros или на домашнем компьютере.
Если честно, то я и сама не знаю, много это или мало. Но если ориентироваться по конкурентам, то 10-20 тыс. обработанных сообщений в сутки вполне средняя цифра. Выходит 100 тысяч - это предел совершенства.
Устала в Интернете отвечать на первый вопрос, я его пропущу, не обижайтесь, пожалуйста.
По поводу "хозяина лавочки", так он криминалом занимался, а именно производил атаки на сайты коммерческих структур. Абсолютно не вижу связи со "взрослой тематикой", в которой, если соблюдать закон DMCA, проблем обычно никаких не возникает.
Верно, там особо сложного ничего нет, код длиной всего на 1000 строк (Javascript) и десять файлов iMacros. Главное, чтобы он работал максимально быстро и долго без каких-либо сбоев (чтобы его можно было не выключать несколько месяцев). Поэтому оптимизация проводится над каждым блоком.
Я все программы так пишу :)
Получается долго, но качественно. Изобретением велосипеда занимаюсь крайне редко.
meverikxp, это похоже на то, если бы Вы приехали в супермаркет за суповым набором на экскаваторе и давай ездить по рядам :)
Для каждого типа сайтов нужно разрабатывать свои модули для парсера. Если брать, к примеру, форумы, то должен быть отдельный модуль для vBulletin, phpBB, SMF и т.д. Это, если нужен "аккуратный" парсер.
В противном случае, Вам нужно искать на сайте(ах) блоки (например <div></div>), в которых число "Plaintext разделить на HTML-код" будет наибольшим. Там и будет больше всего контента.
SeVlad, ну что ж... Наличие многопоточности в ZennoPoster и Ваши лестные отзывы о нем меня наталкивают на мысль, что действительно стоит расширить свой кругозор в программном обеспечении. Я подозревала, что он сумеет выполнить мои задачи быстрее и удобнее, чем iMacros. Но человеческая лень в познании нового - это всеобщий тормоз прогресса.
Задача, в принципе, решена еще полтора года назад. Сейчас просто выполняются небольшая оптимизация кода. Вся работа данного проекта и нескольких десятков других (взаимосвязанных) основана на паре iMacros + Javascript, поэтому уйти с этой среды разработки нет никакой возможности.
Также благодаря разделению кэша на несколько файлов, уменьшение размера MD5-хэшей не понадобилось (хотя было очень интересно узнать, как это правильно можно сделать). Скрипт работает просто прекрасно на грани своих возможностей.
Не спорю, ZennoPoster и HumanEmulator достаточно профессиональные программные продукты. Но согласитесь, наибольшая гибкость в работе достигается только в случае, когда у вас есть полный контроль над исполняемым кодом. Такой гибкости я смогла добиться только в iMacros. Он за меня делает абсолютно всё (24 часа в сутки 7 дней в неделю). Подключение локальной базы данных для меня - это второстепенный вопрос (задач сейчас просто нет для ее полноценного использования).
А преобразование символов можно подсмотреть здесь: http://pastebin.com/peukPGDc
Это часть кода из модуля PrettyURLs для платформы SMF.
Эсминец,
«Бритва О́ккама» (иногда «лезвие Оккама») — методологический принцип, получивший название от имени английского философа-номиналиста Уильяма Оккама. В кратком виде он гласит: «Не следует множить сущее без необходимости» (либо «Не следует привлекать новые сущности без крайней на то необходимости»). Этот принцип формирует базис методологического редукционизма, также называемый принципом бережливости, или законом экономии.
Порой принцип выражается в словах «То, что можно объяснить посредством меньшего, не следует выражать посредством большего».
Зачем код из 1-2 строчек раздувать до использования планировщика заданий?
Никаких утечек памяти в iMacros на данный момент не было замечено, он может работать неделями / месяцами / пока свет не выключат.
Например, так:
<?php$Now = getdate();if ($Now['minutes'] < 30) echo 'Text';?>
В PHP изначально это можно сделать, без планировщика заданий типа cron.
Еще можно с помощью Javascript анализировать локальное время и отображать/скрывать нужный участок текста (если текст не секретный, конечно, и его можно передать на клиентскую сторону). На одном из своих сайтов я так аудио-плеером управляю: если у пользователя день - в плейлисте танцевальная музыка, если ночь - чилаут.