ITigor

Рейтинг
26
Регистрация
17.03.2008
Rishpik:
понятно.

тогда главный вопрос:

как откачать список файлов? страничек

да тут вопрос встает только в написании грабера самому, как я и сделал (программа не продается и не раздается)

Вот Вам небольшое руководство по написанию:)

принцип работы таков:

  • первоночально выдергиваются все версии (за всю историю http://web.archive.org/web/*/сайт) главных страниц с титлами (по титлам можно определить, когда там была парковка когда реальный сайт) -
  • выбирается период для грабинга исходя из титлов
  • получаем список всех страниц в архиве (http://web.archive.org/web/*sr_1nr_8000/http://сайт/*) входящих в заданный период. Если страниц несколько получаем список всех копий каждой страницы и также выбираем исходя из заданного периода, получая последнюю по дате обновления, проверяем её, если возвращает 503 ошибку (не всегда то что есть в списке есть в архиве), то берем с датой ниже
  • проверяем все ссылки на дупликаты т.е. страница может хранится как web.ar..../http://site.ru, web.ar..../www.site.ru, web.ar..../site.ru, web.ar..../http://www.site.ru, по сути это все одно и то же, из дупликатов берем самую последнюю копию
  • все список доступных ссылок и других объектов (стили, скрипты, флеши) получен
  • начинаем обход страниц начиная с главной и далее по уровню вложенности
  • первоночально сохраняются только линки страниц, при этом режеться всякая лабуда вебархива, заменяются все пути (скрипты, ссылки, фреймы, картинки, беграунды в теге background, стили, флеши, беграунды в стилях самой страницы и css файлах, картинки в скриптах) на относительные (или абсолютные точно не помню как называюся:)) исходя из текущего уровня сайта (например src='/image/dot.gif')
  • сохраняются все объекты перечисленные в страницах, при этом сохраняются по такомуже пути как были на сайтах
  • заменяются ненужные элименты страницы или меняются счетчики
  • ну вот все закачено, теперь все это вешаем на php движок и все работает как раньше
  • при этом если ссылка есть, а в вебархиве ее небыло, выдается страница с общим дизайном о том что страница не найдена и списком что еще можно посмотреть, тоже самое при POST запросах

ну вот впринципе и весь принцип работы, простым граберам такой алгоритм наврятле можно задать

насчет ограничения, запускал по 3 проекта на закачку сразу, нечего не заметил, т.к. у меня связь не ахти :) но блокировки точно не было

благодарю за отзывы

пару слов из вышеприведенных отзывов:

было пару сайтов которые давно лежат в вебархиве и некоторые копии архива - это страницы парковки, был выбран интервал в котором функционировал именно сайт, соответвенно страницы были восстановлены только из выбранного периода (было восстановленно 207 страниц одного из сайтов)

привожу список частых вопросов о том как будет функционировать сайт

-> в каком виде будет восстановленный сайт html или на какой цмс?

цмс как токовой нет, есть только страницы для каждой ссылки своя копия html страницы

-> ссылки которые присутствовали, но страниц нет в вебархиве куда будут вести? (если восстановление с вебархива)

будут вести на страницу с информацией о том что страница не найдена, при этом в header 404 код отсылаться не будет, и будет предоставлен список страниц которые еще можно посмотреть (названия страниц исходя из титлов)

->тоже рисунки (если восстановление с вебархива)

несуществующие рисунки заменяются на null.png, т.е. прозрачную картинку

->как туда встроить сапу ?

просто мне говорите в какие места вставить я просто определю места вставки кода на какой нибудь тег например <!-- sape1 --> (или <!-- sape2 -->, <!-- sape3 --> если хотите размещать в нескольких местах), а дальше в коде php будет определяться, если есть ссылки то меняем например <!-- sape1 --> на ваши ссылки текущей страницы, если нет то просто убираем тег <!-- sape1 -->

-> что будет при пост запросах

если происходити пост (POST) запрос, например если у сайта есть форма обратная связь и пользователь нажимает отправить, выводиться страницы с общим дизайном, что данная функция не поддерживается и администрация приносит извинения, и также список ссылок что может посмотреть еще пользователь

цена пока прежняя от 10$ в зависимости от количества восстановленных страниц

к каждому восстановлению индивидуальный подход

dkmeron:
и почем такое обошлось?

пока за 10$

50.BY:
ребят в интернете не был 3 года. был за границей.

хе... хоть и не в теме... а что за границей нет интернета... вот она русь матушка... только у нас инет есть😆

Привожу статистику реинкарнации одного из последних доменов из вебархива, для тех кто в теме:

Всего загружено файлов - 1398
Из них:
  • страниц: 962
  • графических файлов: 430
  • флеш: 1
  • css: 2
  • doc: 1
  • pdf: 1
  • zip: 1

замена на прозрачные картинки - 28 (их нет в архиве)

Полная реинкарнация сайта с вебархива, выкачиваются все страницы, при этом если одинаковых страниц несколько берется самая последняя по дате.

Можно выбирать диапазон дат для востановления, например если последнее сохранение была страница парковки, а предыдущие с действующего сайта, то можно установить максимальную дату востановления, чтобы страниц с парковки небыло.

Также при сборе страниц учитывается их разное написание, и берется самое последнее, например:

http://web.archive.org/.../http://site.ru/page.html

http://web.archive.org/.../site.ru/page.html

http://web.archive.org/.../www.site.ru/page.html

http://web.archive.org/.../http://www.site.ru/page.html

Цена вопроса от 10$ в зависимости от количества страниц.

ICQ 4ноль88два34три5

Для всеобщего примера сайта сделаю один прогон бесплатно (т.е. линк примера будет вывешен в этой ветке). Уже есть парочку реинкарнированных но светить не буду.

MyOST:
З.Ы. вообще, полностью восстанавливать сайт из вебархива я бы не советовал, Вы можете нарваться на некоторые неприятности, связанные с использованием дизайна и т.п. за который Вы не платили. А вот контент + изменение его - это можно

без проблем можно контент повесить под Ваш дизайн, оставив при этом те же ссылки страниц, что использовались ранее...

pegs:
Воровство контента, 100% нарушение авторских прав, тем более если один-в-один. Последствия могут быть разные, зависит от бывшего владельца домена/контента. Главное, что доказательной строной воровства будет всё тот же вебархив :)

правовые вопросы решайте сами, если есть сомнения то не восстанавливайте...

насчет доказательства вебархива борода... уже обсуждалось...

с работающего восстановите

с рабочих грабингом не занимаюсь... только реинкорнация дропнутых

а где можно посмотреть whois данные до перехвата?

историю можно посмотреть на 1stat.ru

Есть ли возможность восстановить сайт откуда-нибудь, если его нет в веб.архиве? Но сайт был в сети.

есть ли возможность или нет можно посмотреть на dnhunter.ru (смотрите поле контент), либо пишите в ICQ

есть возможность востановления в вебархива, на выходе получется тоже что и описано в первом посте

+ ко всему, создание sitemap.xml

ICQ 4ноль88два3435

Всего: 48