да тут вопрос встает только в написании грабера самому, как я и сделал (программа не продается и не раздается)
Вот Вам небольшое руководство по написанию:)
принцип работы таков:
ну вот впринципе и весь принцип работы, простым граберам такой алгоритм наврятле можно задать
насчет ограничения, запускал по 3 проекта на закачку сразу, нечего не заметил, т.к. у меня связь не ахти :) но блокировки точно не было
благодарю за отзывы
пару слов из вышеприведенных отзывов:
было пару сайтов которые давно лежат в вебархиве и некоторые копии архива - это страницы парковки, был выбран интервал в котором функционировал именно сайт, соответвенно страницы были восстановлены только из выбранного периода (было восстановленно 207 страниц одного из сайтов)
привожу список частых вопросов о том как будет функционировать сайт
-> в каком виде будет восстановленный сайт html или на какой цмс?
цмс как токовой нет, есть только страницы для каждой ссылки своя копия html страницы
-> ссылки которые присутствовали, но страниц нет в вебархиве куда будут вести? (если восстановление с вебархива)
будут вести на страницу с информацией о том что страница не найдена, при этом в header 404 код отсылаться не будет, и будет предоставлен список страниц которые еще можно посмотреть (названия страниц исходя из титлов)
->тоже рисунки (если восстановление с вебархива)
несуществующие рисунки заменяются на null.png, т.е. прозрачную картинку
->как туда встроить сапу ?
просто мне говорите в какие места вставить я просто определю места вставки кода на какой нибудь тег например <!-- sape1 --> (или <!-- sape2 -->, <!-- sape3 --> если хотите размещать в нескольких местах), а дальше в коде php будет определяться, если есть ссылки то меняем например <!-- sape1 --> на ваши ссылки текущей страницы, если нет то просто убираем тег <!-- sape1 -->
-> что будет при пост запросах
если происходити пост (POST) запрос, например если у сайта есть форма обратная связь и пользователь нажимает отправить, выводиться страницы с общим дизайном, что данная функция не поддерживается и администрация приносит извинения, и также список ссылок что может посмотреть еще пользователь
цена пока прежняя от 10$ в зависимости от количества восстановленных страниц
к каждому восстановлению индивидуальный подход
пока за 10$
хе... хоть и не в теме... а что за границей нет интернета... вот она русь матушка... только у нас инет есть😆
Привожу статистику реинкарнации одного из последних доменов из вебархива, для тех кто в теме:
Полная реинкарнация сайта с вебархива, выкачиваются все страницы, при этом если одинаковых страниц несколько берется самая последняя по дате.
Можно выбирать диапазон дат для востановления, например если последнее сохранение была страница парковки, а предыдущие с действующего сайта, то можно установить максимальную дату востановления, чтобы страниц с парковки небыло.
Также при сборе страниц учитывается их разное написание, и берется самое последнее, например:
http://web.archive.org/.../http://site.ru/page.html
http://web.archive.org/.../site.ru/page.html
http://web.archive.org/.../www.site.ru/page.html
http://web.archive.org/.../http://www.site.ru/page.html
Цена вопроса от 10$ в зависимости от количества страниц.
ICQ 4ноль88два34три5
Для всеобщего примера сайта сделаю один прогон бесплатно (т.е. линк примера будет вывешен в этой ветке). Уже есть парочку реинкарнированных но светить не буду.
без проблем можно контент повесить под Ваш дизайн, оставив при этом те же ссылки страниц, что использовались ранее...
правовые вопросы решайте сами, если есть сомнения то не восстанавливайте...
насчет доказательства вебархива борода... уже обсуждалось...
с рабочих грабингом не занимаюсь... только реинкорнация дропнутых
историю можно посмотреть на 1stat.ru
есть ли возможность или нет можно посмотреть на dnhunter.ru (смотрите поле контент), либо пишите в ICQ
есть возможность востановления в вебархива, на выходе получется тоже что и описано в первом посте
+ ко всему, создание sitemap.xml
ICQ 4ноль88два3435