Бесплатный многопоточный парсер WebArchive в виде плагина для CheckParams

Лимончик
На сайте с 09.07.2008
Offline
194
#41

Kost Troll, у вас хостинг отдает неверный Content-Type. Надо text/html; а у вас text/plain;

S
На сайте с 13.12.2009
Offline
81
#42
Лимончик:
Kost Troll, у вас хостинг отдает неверный Content-Type. Надо text/html; а у вас text/plain;

Это не совсем хостинг а модуль php_fileinfo.dll.

Kost Troll ну тут отсутствует easy way, уже надо разбираться Subudayj.

Как вариант закоментировать 11 строчку в index.php.

Я смотрю и ссылки на сайт оригинал остались - http://grabber.bget.ru/Moscow/Parts/Niva/1/

Batch Domain Tools (https://github.com/w3bstate/batch-domain-tools/releases) - пакетная работа с доменами и субдоменами.
Kost Troll
На сайте с 20.12.2005
Offline
184
#43

В общем все заработало - поменял в index.php вот такую строку :

header('Content-type: ' . mime_content_type($requestUriMD5));

на вот такую :

header('Content-type: ' . 'text/html');

И все сразу заработало, все косяки сверху пропали.

Kost Troll добавил 19.10.2011 в 21:59

Да еще не совсем понятен вот этот кусок из редми к скрипту :

11. Для каждого года, в котором имеется копия сайта, создается своя подпапка. Для получения наиболее полной копии необходимо скопировать результаты из разных папок в одну, при этом копировать папку с самым подходящим периодом следует в последнюю очередь, заменяя существующие файлы

А если год от года менялась структура сайта ???

Продажа компьютеров Спб (Купчино) (http://computer812.ru)
Subudayj
На сайте с 24.06.2008
Offline
67
#44

Всем привет, смотрю прям нешуточная дискуссия разгорелась, обстоятельно смогу пообщаться ближе к понедельнику. Для php-скрипта попробую найти более универсальный способ отображения сохраненного контента (сейчас mime_content_type используется исключительно для определения типа открываемого файла).

Kost Troll, по поводу структуры - я поэтому и советую записывать наиболее приглянувшийся период в последнюю очередь, чтобы он заменил собой все имеющиеся "общие" файлы. Этим можно добиться целостной картины сайта, и не потерять какие-то графические файлы, которые хранятся в других периодах.

Quo vadis?
M
На сайте с 09.02.2008
Offline
68
mlu
#45

Друзья, вышло очередное обновление граббера веб-архива. В новой версии сохраненные сайты должны корректно отображаться на практически любых хостингах с поддержкой Apache+ModRewrite+PHP. Функция mime_content_type более не используется.

Обновление имеет версию 1.04, скачать можно тут: http://checkparams.com/ru/download

МИ
На сайте с 27.10.2011
Offline
37
#46

Скажите, пожалуйста, после парсинга результат сохраняется в виде папок и трех файлов: log, index, .htaccess. А как дальше с ними работать?

Михаил Иванов добавил 27.10.2011 в 13:11

Subudayj, можно вопрос по icq?

S8
На сайте с 29.07.2011
Offline
84
#47

Здравствуйте, нужно выкачать сайт из вебархива, а то с этой программой как то не складывается у меня. Кто сможет выкачать стукните в ICQ, конечно же за вознограждение )

Subudayj
На сайте с 24.06.2008
Offline
67
#48
Михаил Иванов:
Скажите, пожалуйста, после парсинга результат сохраняется в виде папок и трех файлов: log, index, .htaccess. А как дальше с ними работать?

Михаил Иванов добавил 27.10.2011 в 13:11
Subudayj, можно вопрос по icq?

В файле logs содержится лог работы парсера, содержимое каждой папки с годом (2001, 2002, etc) нужно перенести на хостинг, при этом последней записывая папку с наиболее интересным для вас годом сохранения сайта из веб-архива.

Мои контакты есть в readme, пишите.

Kost Troll
На сайте с 20.12.2005
Offline
184
#49

Subudayj, Вы что не понимаете, что данная темка привлекла внимание скажем так - нубов.

Нуб ведь не виноват, что он нуб, просто хочешь перестать быть нубом - вкуривай яндекс, гугль.

Хочешь оставаться нубом - плати деньги :)

Продайте им лицензию Checkparams - пущай покупают, и ответы на вопросы получают !

H3
На сайте с 04.07.2008
Offline
129
#50

Перестало скачивать файлы, вот лог

Log:

2011-10-28 15:35:24.515;RTP Stop status: -1

2011-10-28 15:35:24.515;OnRTPStop event

2011-10-28 15:35:24.515;ScriptEngine (main): error 0x80020101 while calling function 'OnReqAfterWaDirectHeadersReceived'

2011-10-28 15:35:24.515;ScriptEngine: script error: 'Файл не найден', source: 'Ошибка выполнения Microsoft JScript', line: 752, char: 0, error: 0x00000002, code: 0x800a0035

2011-10-28 15:35:24.078;ScriptEngine (main): error 0x80020101 while calling function 'OnReqAfterWaDirectHeadersReceived'

2011-10-28 15:35:24.078;ScriptEngine: script error: 'Файл не найден', source: 'Ошибка выполнения Microsoft JScript', line: 752, char: 0, error: 0x00000002, code: 0x800a0035

2011-10-28 15:35:23.953;ScriptEngine (main): error 0x80020101 while calling function 'OnReqAfterWaDirectHeadersReceived'

2011-10-28 15:35:23.953;ScriptEngine: script error: 'Файл не найден', source: 'Ошибка выполнения Microsoft JScript', line: 752, char: 0, error: 0x00000002, code: 0x800a0035

2011-10-28 15:35:23.906;ScriptEngine (main): error 0x80020101 while calling function 'OnReqAfterWaDirectHeadersReceived'

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий