- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Всех приветствую!
Появился такой вопрос.
Около года назад писал программу для закачки сайтов (разбирался с базами данных - какая как работает, какие нагрузки выдерживает, сколько данных можно хранить и т.п. на больших объемах данных). В общем выводы были сделаны и программа написана.
Дома на небольшом сервачке оставил ее работать.
Так вот сейчас накачало 1ТВ страниц самых разных сайтов зоны .ru - да и еще это все зажато zip-ом - место на винте закончилось.
Удалять как-то жалко. Качать дальше - места нет.
Собственно вопрос - Что можно сделать с этими данными?
Может кто-то может найти пользу в них?
Если в чистом виде они никому не нужны - то может какая-то статистика, анализ и т.п. будут полезными?
С уважением,
Дмитрий.
Mual, удалить
Так что за данные? В каком виде, формате?
Так что за данные? В каком виде, формате?
На винте для каждого домена - скачанного сайта, создан файл "контейнер"- архив - внутри которого лежат сжатые HTML страницы (без картинок) скачанные с этого домена. Страницы качались все которые были доступны по внутренним ссылкам сайта. Скачано почти 60 тысяч сайтов.
Нарушение авторских прав, однако.
Mual, можете, так, ради интереса, провести исследование "средний размер занимаемый сайтом на сервере" ☝
:) ну я пока эти данные и не продаю, они просто скачаны - и в общем-то доступны для скачивания. Никаких прав не нарушается. Честно говоря еще не видел сайты - страницы с которых было бы запрещено скачивать, сохранять и передавать третьим лицам.
Хорошо. Можно посмотреть на это под другим углом - будет ли полезен анализ этих данных? Скажем статистика слов (слово-оборотов), количество страниц, частота встречающихся ссылок и и т.д. и т.п.
Как советует eis - удалить это совсем просто - лучше наверное просто отформатировать винт - быстрее :). Но я пишу программы и сервисы для работы с большими объемами данных и интереснее с ними что-то сделать чем удалить.
А если это кому-то еще и пригодится, то будет просто здорово. Поэтому и спрашиваю на сайте - где много SEO спецов. И как мне кажется Вам такие данные или анализ может быть полезен.
Честно говоря еще не видел сайты - страницы с которых было бы запрещено скачивать, сохранять и передавать третьим лицам.
Ну просто детская наивность... :D
Давайте мне, пригодится :)
Mual, можете, так, ради интереса, провести исследование "средний размер занимаемый сайтом на сервере" ☝
О спасибо за идею! Можно будет прикинуть сколько места используют хостинговые компании для хранения данных.
Первое что я сделал для себя - собрал статистику - насколько часто встречаются "маты" в инете :). И как много слов люди пишут с ошибками. В общем-то очень даже интересные цифры получаются.
---------- Добавлено 05.05.2012 в 00:49 ----------
Ну просто детская наивность... :D
Неужели все так серьезно? Поясните подробнее?
Тот же Яндекс и Гугл качают и складируют у себя всё и вся. И что?
---------- Добавлено 05.05.2012 в 00:52 ----------
Давайте мне, пригодится :)
Нет проблем. Забирайте. Если через инет то понадобится около месяца чтобы все это качнуть.
У меня исходящий 10мегабит + я фильмы иногда смотрю + по работе инет используется. За месяц думаю закачаете - но с одним условием - поделитесь - для чего они могут пригодится :)
База может быть полезна хотя бы для частичного анализа бэклинков. Еще можно выдёргивать дополнительно информацию по адсенсу, аналитике, партнёркам и другим вещам, по которым можно идентифицировать владельцев сайтов. 60 тысяч сайтов - маловато, но всё равно.
Есть ли в базе HTTP-заголовки от скачиваемых сайтов?
У меня подобные базы (только для индексных страниц, но зато с очень большого количества доменов) используются в сервисе из подписи.
UPD: если, вдруг, кто-то кроме меня будет качать - сделайте лучше торрент, так быстрее раздадите терабайт.