Ограничения на скачку у вэб архива

1 234
R
На сайте с 23.11.2007
Offline
218
#31
moldu:
Вгет не пробовал, но наверное и он подойдет, просто браузером удобнее. Обычно пользуюсь Offline Explorer, в нем можно все прекрасно настроить: глубину скачивания, форматы скачиваемых файлов, количество потоков, ограничения на размер, скачивание из определенной папки/сервера/урла и многое другое.

знаю прогу.... но зачем глубина..... если у нас список урлов?

а вебархив показывает последний список? точнее последнее сохранение сайта.

а это прога сама не дергает архив?

СДЛ: Строительный журнал | 100 страниц | уникальный дизайн (/ru/forum/577692)
moldu
На сайте с 27.04.2006
Offline
432
#32
Rishpik:
знаю прогу.... но зачем глубина..... если у нас список урлов?

Просто удобно, ведь она не только скачки из веб архива.

Rishpik:
а вебархив показывает последний список? точнее последнее сохранение сайта.

Веб архив показывает все файлы сайта за все года присутствия сайта в веб архиве.

Rishpik:
а это прога сама не дергает архив?

Она дергает только то, что зададите ей дернуть, т.е. просто скачивает файлы, а над скаченным еще нужно поработать.

Глаза боятся, а руки-крюки.
R
На сайте с 23.11.2007
Offline
218
#33
moldu:

Она дергает только то, что зададите ей дернуть, т.е. просто скачивает файлы, а над скаченным еще нужно поработать.

то есть? указываю урл и глубину и все дела? правда там есть помоему с кодировкой одна проблемка... но не критично.... или ещё что-то есть? меня помню банил вэбархив за превыщение трафика.... правда я в 10 потоков качал в архива..... если в один думаю такой траблы не будет

Rishpik добавил 09.03.2009 в 18:40

Веб архив показывает все файлы сайта за все года присутствия сайта в веб архиве.

я вот про эту команду http://web.archive.org/web/*/site.com/*

более хз как урлы вытнуть на странички

moldu
На сайте с 27.04.2006
Offline
432
#34
Rishpik:
я вот про эту команду http://web.archive.org/web/*/site.com/*

И я про нее, там под каждой ссылкой может быть несколько версий файла от разных дат.

R
На сайте с 23.11.2007
Offline
218
#35
moldu:
И я про нее, там под каждой ссылкой может быть несколько версий файла от разных дат.

понятно.

тогда главный вопрос:

как откачать список файлов? страничек

moldu
На сайте с 27.04.2006
Offline
432
#36
Rishpik:
как откачать список файлов? страничек

копи-паст из кода

I
На сайте с 17.03.2008
Offline
26
#37
Rishpik:
понятно.

тогда главный вопрос:

как откачать список файлов? страничек

да тут вопрос встает только в написании грабера самому, как я и сделал (программа не продается и не раздается)

Вот Вам небольшое руководство по написанию:)

принцип работы таков:

  • первоночально выдергиваются все версии (за всю историю http://web.archive.org/web/*/сайт) главных страниц с титлами (по титлам можно определить, когда там была парковка когда реальный сайт) -
  • выбирается период для грабинга исходя из титлов
  • получаем список всех страниц в архиве (http://web.archive.org/web/*sr_1nr_8000/http://сайт/*) входящих в заданный период. Если страниц несколько получаем список всех копий каждой страницы и также выбираем исходя из заданного периода, получая последнюю по дате обновления, проверяем её, если возвращает 503 ошибку (не всегда то что есть в списке есть в архиве), то берем с датой ниже
  • проверяем все ссылки на дупликаты т.е. страница может хранится как web.ar..../http://site.ru, web.ar..../www.site.ru, web.ar..../site.ru, web.ar..../http://www.site.ru, по сути это все одно и то же, из дупликатов берем самую последнюю копию
  • все список доступных ссылок и других объектов (стили, скрипты, флеши) получен
  • начинаем обход страниц начиная с главной и далее по уровню вложенности
  • первоночально сохраняются только линки страниц, при этом режеться всякая лабуда вебархива, заменяются все пути (скрипты, ссылки, фреймы, картинки, беграунды в теге background, стили, флеши, беграунды в стилях самой страницы и css файлах, картинки в скриптах) на относительные (или абсолютные точно не помню как называюся:)) исходя из текущего уровня сайта (например src='/image/dot.gif')
  • сохраняются все объекты перечисленные в страницах, при этом сохраняются по такомуже пути как были на сайтах
  • заменяются ненужные элименты страницы или меняются счетчики
  • ну вот все закачено, теперь все это вешаем на php движок и все работает как раньше
  • при этом если ссылка есть, а в вебархиве ее небыло, выдается страница с общим дизайном о том что страница не найдена и списком что еще можно посмотреть, тоже самое при POST запросах

ну вот впринципе и весь принцип работы, простым граберам такой алгоритм наврятле можно задать

насчет ограничения, запускал по 3 проекта на закачку сразу, нечего не заметил, т.к. у меня связь не ахти :) но блокировки точно не было

1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий