Напишите Броку Бозеру, он оперативно обычно решает такие проблемы.
У меня аналогичная ситуация, и правда странно. Может деньги кончились у рекламодателей?
Ну парсер форума заменил символы [ и ] в приведенном коде на ***91; и ***93;
Когда будете копировать в конфиг, обратите на это внимание просто.
Я хоть и не mlu, но попробую ответить:)
Данную вещь можно реализовать с помощью "кастомного" http-модуля, код которого нужно поместить в конфигурационный файл программы (checkparams.xml). В модуле указана JS-функция HTTP_OnAfterRequest, которая будет вызываться каждый раз после успешного скачивания страницы. В тексте функции идет поиск ссылок (приведен самый простой вариант поиска ссылок), и добавление каждой новой ссылки в очередь заданий с помощью встроенной в CheckParams функции AddUrl.
P.S. Это лишь самая простая вещь, которую можно сделать с помощью скриптов:)
<test module_name="custom_crawler" enabled="1" check_interval="0" retries="10" use_proxies="0" results_mode="2" download_size="999999" parse_url="1"><script_engine enabled="1" name="custom" language="JScript"><![CDATA[ function HTTP_OnAfterRequest(request){ var pageHeader = request.AnswerHeaders; var pageContent = request.AnswerData; var reFindPages = /<a href="(.+?)">.+?<\/a>/igm; var myArray; while ((myArray = reFindPages.exec(pageContent)) != null) { AddToLog('Found new link ' + myArray[1]); AddUrl(myArray[1]); }}]]></script_engine> <request onAfterRequest="custom:HTTP_OnAfterRequest"> <server address="%HOST%" port="%PORT%"/> <headers><![CDATA[GET %OBJECT% HTTP/1.1Host: %HOST%User-Agent: #$m$UA$m$#Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8Accept-Encoding: gzip, deflateConnection: close]]></headers></request></test>
***91; нужно заменить на [, ***93; на ], парсер их "съел" :)
'-' означает PR N/A. Достаточно большое количество софта заменяет N/A на 0, CheckParams так не делает :)
Всем привет, смотрю прям нешуточная дискуссия разгорелась, обстоятельно смогу пообщаться ближе к понедельнику. Для php-скрипта попробую найти более универсальный способ отображения сохраненного контента (сейчас mime_content_type используется исключительно для определения типа открываемого файла).
Kost Troll, по поводу структуры - я поэтому и советую записывать наиболее приглянувшийся период в последнюю очередь, чтобы он заменил собой все имеющиеся "общие" файлы. Этим можно добиться целостной картины сайта, и не потерять какие-то графические файлы, которые хранятся в других периодах.
- Чтобы можно было автоматически генерировать запросы вида: "site:.com" + куча ключевых слов.
- Пока парсит до 1000 результатов по одному запросу, если кто-нибудь расскажет как парсить более правильно, то можно реализовать.
Часов через 10-12 будет :)
А кто вам мешает зарегистрировать второй аккаунт, и через него смотреть? :)))
Друзья, в связи с "ремонтом" веб-архива (ссылка), релиз переносится на день-два, пока веб-архив не заработает в полноценном режиме (пока еще некоторые периоды отдаются с ошибкой).
Андрей, спасибо за предложения, попробую учесть. Релиз новой версии откладывается до выходных - появилось еще несколько идей, которые хотелось бы реализовать.