Ограничения на скачку у вэб архива

218

Rishpik

9 марта 2009, 15:09

#31

moldu:
Вгет не пробовал, но наверное и он подойдет, просто браузером удобнее. Обычно пользуюсь Offline Explorer, в нем можно все прекрасно настроить: глубину скачивания, форматы скачиваемых файлов, количество потоков, ограничения на размер, скачивание из определенной папки/сервера/урла и многое другое.

знаю прогу.... но зачем глубина..... если у нас список урлов?

а вебархив показывает последний список? точнее последнее сохранение сайта.

а это прога сама не дергает архив?

СДЛ: Строительный журнал | 100 страниц | уникальный дизайн (/ru/forum/577692)

432

moldu

9 марта 2009, 15:31

#32

Rishpik:
знаю прогу.... но зачем глубина..... если у нас список урлов?

Просто удобно, ведь она не только скачки из веб архива.

Rishpik:
а вебархив показывает последний список? точнее последнее сохранение сайта.

Веб архив показывает все файлы сайта за все года присутствия сайта в веб архиве.

Rishpik:
а это прога сама не дергает архив?

Она дергает только то, что зададите ей дернуть, т.е. просто скачивает файлы, а над скаченным еще нужно поработать.

Глаза боятся, а руки-крюки.

R

218

Rishpik

9 марта 2009, 15:38

#33

moldu:

Она дергает только то, что зададите ей дернуть, т.е. просто скачивает файлы, а над скаченным еще нужно поработать.

то есть? указываю урл и глубину и все дела? правда там есть помоему с кодировкой одна проблемка... но не критично.... или ещё что-то есть? меня помню банил вэбархив за превыщение трафика.... правда я в 10 потоков качал в архива..... если в один думаю такой траблы не будет

Rishpik добавил 09.03.2009 в 18:40

Веб архив показывает все файлы сайта за все года присутствия сайта в веб архиве.

я вот про эту команду http://web.archive.org/web/*/site.com/*

более хз как урлы вытнуть на странички

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

432

moldu

9 марта 2009, 16:00

#34

Rishpik:
я вот про эту команду http://web.archive.org/web/*/site.com/*

И я про нее, там под каждой ссылкой может быть несколько версий файла от разных дат.

R

218

Rishpik

9 марта 2009, 16:46

#35

moldu:
И я про нее, там под каждой ссылкой может быть несколько версий файла от разных дат.

понятно.

тогда главный вопрос:

как откачать список файлов? страничек

432

moldu

9 марта 2009, 17:15

#36

Rishpik:
как откачать список файлов? страничек

копи-паст из кода

I

26

ITigor

11 марта 2009, 13:45

#37

Rishpik:
понятно.

тогда главный вопрос:

как откачать список файлов? страничек

да тут вопрос встает только в написании грабера самому, как я и сделал (программа не продается и не раздается)

Вот Вам небольшое руководство по написанию:)

принцип работы таков:

первоночально выдергиваются все версии (за всю историю http://web.archive.org/web/*/сайт) главных страниц с титлами (по титлам можно определить, когда там была парковка когда реальный сайт) -
выбирается период для грабинга исходя из титлов
получаем список всех страниц в архиве (http://web.archive.org/web/*sr_1nr_8000/http://сайт/*) входящих в заданный период. Если страниц несколько получаем список всех копий каждой страницы и также выбираем исходя из заданного периода, получая последнюю по дате обновления, проверяем её, если возвращает 503 ошибку (не всегда то что есть в списке есть в архиве), то берем с датой ниже
проверяем все ссылки на дупликаты т.е. страница может хранится как web.ar..../http://site.ru, web.ar..../www.site.ru, web.ar..../site.ru, web.ar..../http://www.site.ru, по сути это все одно и то же, из дупликатов берем самую последнюю копию
все список доступных ссылок и других объектов (стили, скрипты, флеши) получен
начинаем обход страниц начиная с главной и далее по уровню вложенности
первоночально сохраняются только линки страниц, при этом режеться всякая лабуда вебархива, заменяются все пути (скрипты, ссылки, фреймы, картинки, беграунды в теге background, стили, флеши, беграунды в стилях самой страницы и css файлах, картинки в скриптах) на относительные (или абсолютные точно не помню как называюся:)) исходя из текущего уровня сайта (например src='/image/dot.gif')
сохраняются все объекты перечисленные в страницах, при этом сохраняются по такомуже пути как были на сайтах
заменяются ненужные элименты страницы или меняются счетчики
ну вот все закачено, теперь все это вешаем на php движок и все работает как раньше
при этом если ссылка есть, а в вебархиве ее небыло, выдается страница с общим дизайном о том что страница не найдена и списком что еще можно посмотреть, тоже самое при POST запросах

ну вот впринципе и весь принцип работы, простым граберам такой алгоритм наврятле можно задать

насчет ограничения, запускал по 3 проекта на закачку сразу, нечего не заметил, т.к. у меня связь не ахти :) но блокировки точно не было

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Переиграть и победить: как анализировать конкурентов для продвижения сайта

VK приобрела 70% в структуре компании-разработчика red_mad_robot