Ага, и еще скидки клиентов процентов по 20-45 :)
Однозначно CheckParams, можно практически какие угодно плагины дописать.
Всем привет.
Для CheckParams доступен модуль скачивания сайта(ов) из веб-архива (web.archive.org). Данные скачиваются из новой версии веб-архива, поддерживается одновременное скачивание нескольких сайтов, результаты сохраняются на диск (картинки, стили и т.д.) и в базу данных MySQL (сам контент).
Сайты скачиваются полностью (т.е. весь имеющийся период), все страницы "очищаются" от меток веб-архива, ссылочная целостность сохраняется. Возможна дополнительная "очистка" полученных страниц сайта - например, удаление дубликатов страниц, то есть в базе данных останутся только уникальные страницы сайта.
Скачивание является многопоточным, вот пример статистики запросов для одного сайта (время работы ~1.5 часа):
WA grabber: Checks: 399151, successful: 357940, failed: 31805, bans: 0, free proxies: 246, blocked proxies: 1547, using now: 0
Контактная информация - http://checkparams.com/scripting
Вот такая вещь еще встречалась:
http://dwatcher.ru/
Есть еще вариант воспользоваться какой-нибудь панелью контролями за доменами вроде этой:
http://site-control.ru/module/control_free/
Можете попробовать мониторинг доменов от domaintools (работает для gtld):
http://www.domaintools.com/monitor/domain-monitor/
Мониторинг до 100 доменов будет бесплатным.
Коллеги, для CheckParams доступен модуль массовой проверки Whois, который позволяет "вытаскивать" данные по владельцу домена для ряда популярных зон.
Информацию о других доступным модулях смотрите на http://checkparams.com/scripting
На все вопросы по модулям могу ответить по icq (номер указан на странице).
На дропах восстановился пр, у пары доменов +- 1.
И зачем этот спам?
Обновленная версия модуля по проверке наличия сайта в веб-архиве:
<wa module_name="WA-new" enabled="1" check_interval="0" retries="100" use_proxies="0" results_mode="2" download_size="999999"> <request _onBeforeRequest="HTTP_OnBeforeRequest" _onAfterRequest="HTTP_OnAfterRequest"> <server address="web.archive.org" port="80"/> <headers><![CDATA[GET /*/http://%URL% HTTP/1.1 Host: web.archive.org User-Agent: #$m$UA$m$# Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Connection: close ]]></headers> <checks> <check result="parse" present="0" icase="1" type="regexp"><![CDATA[\n\r?^HTTP/1|4.\d\s+2\d\d]]></check> <check result="good" present="1" icase="1" type="regexp"><![CDATA[The Wayback Machine is an initiative]]></check> <check result="parse" type="*"/> </checks> </request> <results> <regexps> <regexp name="%is_found%" icase="1" format="yes" default="no"><![CDATA[This calendar view maps the number of times]]></regexp> </regexps> <fields delimiter_replace="\;"> <field title="WA present" format="plain">%is_found%</field> </fields> </results> </wa>