1TB данных - что делать с контентом?

12
M
На сайте с 10.02.2009
Offline
24
599

Всех приветствую!

Появился такой вопрос.

Около года назад писал программу для закачки сайтов (разбирался с базами данных - какая как работает, какие нагрузки выдерживает, сколько данных можно хранить и т.п. на больших объемах данных). В общем выводы были сделаны и программа написана.

Дома на небольшом сервачке оставил ее работать.

Так вот сейчас накачало 1ТВ страниц самых разных сайтов зоны .ru - да и еще это все зажато zip-ом - место на винте закончилось.

Удалять как-то жалко. Качать дальше - места нет.

Собственно вопрос - Что можно сделать с этими данными?

Может кто-то может найти пользу в них?

Если в чистом виде они никому не нужны - то может какая-то статистика, анализ и т.п. будут полезными?

С уважением,

Дмитрий.

eis
На сайте с 18.10.2008
Offline
473
eis
#1

Mual, удалить

- Здесь я покупаю вечные ссылки на свои сайты! (https://backlinkator.com) - сотни ссылок за копейки
The WishMaster
На сайте с 29.09.2005
Offline
2543
#2

Так что за данные? В каком виде, формате?

Пешу текста дешыго! Тематики - туризм, СЕО, творчество, кулинария, шизотерика :)
M
На сайте с 10.02.2009
Offline
24
#3
The WishMaster:
Так что за данные? В каком виде, формате?

На винте для каждого домена - скачанного сайта, создан файл "контейнер"- архив - внутри которого лежат сжатые HTML страницы (без картинок) скачанные с этого домена. Страницы качались все которые были доступны по внутренним ссылкам сайта. Скачано почти 60 тысяч сайтов.

The WishMaster
На сайте с 29.09.2005
Offline
2543
#4

Нарушение авторских прав, однако.

eis
На сайте с 18.10.2008
Offline
473
eis
#5

Mual, можете, так, ради интереса, провести исследование "средний размер занимаемый сайтом на сервере" ☝

M
На сайте с 10.02.2009
Offline
24
#6

:) ну я пока эти данные и не продаю, они просто скачаны - и в общем-то доступны для скачивания. Никаких прав не нарушается. Честно говоря еще не видел сайты - страницы с которых было бы запрещено скачивать, сохранять и передавать третьим лицам.

Хорошо. Можно посмотреть на это под другим углом - будет ли полезен анализ этих данных? Скажем статистика слов (слово-оборотов), количество страниц, частота встречающихся ссылок и и т.д. и т.п.

Как советует eis - удалить это совсем просто - лучше наверное просто отформатировать винт - быстрее :). Но я пишу программы и сервисы для работы с большими объемами данных и интереснее с ними что-то сделать чем удалить.

А если это кому-то еще и пригодится, то будет просто здорово. Поэтому и спрашиваю на сайте - где много SEO спецов. И как мне кажется Вам такие данные или анализ может быть полезен.

The WishMaster
На сайте с 29.09.2005
Offline
2543
#7
Mual:
Честно говоря еще не видел сайты - страницы с которых было бы запрещено скачивать, сохранять и передавать третьим лицам.

Ну просто детская наивность... :D

M
На сайте с 09.02.2008
Offline
68
mlu
#8

Давайте мне, пригодится :)

M
На сайте с 10.02.2009
Offline
24
#9
eis:
Mual, можете, так, ради интереса, провести исследование "средний размер занимаемый сайтом на сервере" ☝

О спасибо за идею! Можно будет прикинуть сколько места используют хостинговые компании для хранения данных.

Первое что я сделал для себя - собрал статистику - насколько часто встречаются "маты" в инете :). И как много слов люди пишут с ошибками. В общем-то очень даже интересные цифры получаются.

---------- Добавлено 05.05.2012 в 00:49 ----------

The WishMaster:
Ну просто детская наивность... :D

Неужели все так серьезно? Поясните подробнее?

Тот же Яндекс и Гугл качают и складируют у себя всё и вся. И что?

---------- Добавлено 05.05.2012 в 00:52 ----------

mlu:
Давайте мне, пригодится :)

Нет проблем. Забирайте. Если через инет то понадобится около месяца чтобы все это качнуть.

У меня исходящий 10мегабит + я фильмы иногда смотрю + по работе инет используется. За месяц думаю закачаете - но с одним условием - поделитесь - для чего они могут пригодится :)

M
На сайте с 09.02.2008
Offline
68
mlu
#10

База может быть полезна хотя бы для частичного анализа бэклинков. Еще можно выдёргивать дополнительно информацию по адсенсу, аналитике, партнёркам и другим вещам, по которым можно идентифицировать владельцев сайтов. 60 тысяч сайтов - маловато, но всё равно.

Есть ли в базе HTTP-заголовки от скачиваемых сайтов?

У меня подобные базы (только для индексных страниц, но зато с очень большого количества доменов) используются в сервисе из подписи.

UPD: если, вдруг, кто-то кроме меня будет качать - сделайте лучше торрент, так быстрее раздадите терабайт.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий