Сжатие размера скачанного сайта

12
A
На сайте с 21.04.2009
Offline
59
884

У меня есть сайты, скачанные на винт для анализа ссылок, текстов и т.п. Допустим один из сайтов занимает 10 гб. Возник вопрос, как сжать сайт для хранения на диске (выливать копию сайта в инет мне не понадобится). Мои мысли: 1. Отказываться сохранять страницы, которые более ** кб.; 2. Переводить html в текстовой формат, оставляя только теги логического выделения (в, стронг, i); 3. Выводить ссылки в отдельную таблицу (в текстовом файле ссылки не сохраняются); 4. Убирать повторяющеесе меню, на сайтах.

Вопрос, может стоит что то добавить в данные правила?

S
На сайте с 29.01.2006
Offline
404
#1

Что ж это за сайт такой 10 гб.

A
На сайте с 21.04.2009
Offline
59
#2
Что ж это за сайт такой 10 гб.

это один из крайних вариантов. разумеется - основная масса сайтов намного меньше по размеру. Никаких причин приводить урлы не вижу :)

зы

тонок намекну - активно юзают документы пдф, док, фронт пейдж хреновое хтмл. вернее говоря. вот сайт и здоровенький...

S
На сайте с 29.01.2006
Offline
404
#3
активно юзают документы пдф, док

Я так и подумал. Может, именно это и надо повыкидывать? Я думаю, один отброшенный файл pdf размером в несколько мегабайт толку принесёт больше, чем борьба с тэгами.

Мне кажется, для качественного анализа исследуемые страницы должны сохраниться в реальном виде. Потому что если тупо повыкидывать то, что кажется неважным, можно в итоге получить неверные результаты.

A
На сайте с 21.04.2009
Offline
59
#4

есть эксперемент, для гугла ссылочное с пдф работает...

думаю что для яши - это просто вопрос времени :(

зы

пока я пдф выкидываю...

aklimovv
На сайте с 18.01.2008
Offline
224
#5

Картинки, всякий видео-контент, может есть какие-то архивные файлы. Они часто много места занимают.

S
На сайте с 29.01.2006
Offline
404
#6

azsx, вопрос - есть ли ссылки в этих конкретных PDF-ах.

Jaf4
На сайте с 03.08.2009
Offline
804
#7

грохнуть все файлы, кроме самих страниц. В документах буду дыры, но ссылки останутся для анализа.

New! NVMe VPS от SmartApe.ru (https://goo.gl/eoYYkS)
ДН
На сайте с 17.05.2010
Offline
13
#8

Если у вас винда включите сжатие каталога сайта, немного поможет.

моими устами говорит истина
Brand from Amber
На сайте с 18.08.2007
Offline
293
#9
azsx:
У меня есть сайты, скачанные на винт для анализа ссылок
azsx:
Переводить html в текстовой формат, оставляя только теги логического выделения

Не находите, что одно другому противоречит? Как вы будете анализировать ссылки если удалите все теги кроме тегов оформления? Да и зачем для анализа ссылок скачивать весь сайт - достаточно построить ссылочную карту сайта (подобный функционал есть даже в Семониторе). Сдаётся мне, что-то Вы лукавите.

Лучший способ понять что-то самому - объяснить это другому.
copyman1989
На сайте с 19.03.2009
Offline
110
#10

Картинки удалите.

Сайты любой сложности на drupal 7 (/ru/forum/997786) ||| займы онлайн на карту (https://lipzaim.ru/bystrye-zaymy-na-kartu) ||| Займы на карту сбербанка (https://lipzaim.ru/zaym-na-kartu-sberbanka)
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий