Да увидел сервис из подписи - Отличная работа!
Спасибо за инфу про бэклинки и адсенс. Теперь есть пища для размышлений. Попробую построить сеть связей сайтов по ссылкам и подумаю про адсенс - попытаться извлечь ссылки которые предоставляет этот сервис - как часто встречаются ссылки - какие тексты, где и как они размещены. В общем я получил то - что хотел. Будет теперь применение этим данным - погоняю их...
60тыс. - понимаю что не очень много по количеству сайтов (много разных форумов попадается, а там по 3-5 миллионов страниц - соответственно большой объем контента и повторяющегося html кода) - просто суть работы и теста программы была немного в другом.
В базе сохраняется вся информация по http запросам - всё что было отправлено и получено, все редиректы, ошибки и даже куки.
Да, согласен, торрентом будет лучше всего. Создам....
О спасибо за идею! Можно будет прикинуть сколько места используют хостинговые компании для хранения данных.
Первое что я сделал для себя - собрал статистику - насколько часто встречаются "маты" в инете :). И как много слов люди пишут с ошибками. В общем-то очень даже интересные цифры получаются.---------- Добавлено 05.05.2012 в 00:49 ----------
Неужели все так серьезно? Поясните подробнее?
Тот же Яндекс и Гугл качают и складируют у себя всё и вся. И что?---------- Добавлено 05.05.2012 в 00:52 ----------
Нет проблем. Забирайте. Если через инет то понадобится около месяца чтобы все это качнуть.
У меня исходящий 10мегабит + я фильмы иногда смотрю + по работе инет используется. За месяц думаю закачаете - но с одним условием - поделитесь - для чего они могут пригодится :)
:) ну я пока эти данные и не продаю, они просто скачаны - и в общем-то доступны для скачивания. Никаких прав не нарушается. Честно говоря еще не видел сайты - страницы с которых было бы запрещено скачивать, сохранять и передавать третьим лицам.
Хорошо. Можно посмотреть на это под другим углом - будет ли полезен анализ этих данных? Скажем статистика слов (слово-оборотов), количество страниц, частота встречающихся ссылок и и т.д. и т.п.
Как советует eis - удалить это совсем просто - лучше наверное просто отформатировать винт - быстрее :). Но я пишу программы и сервисы для работы с большими объемами данных и интереснее с ними что-то сделать чем удалить.
А если это кому-то еще и пригодится, то будет просто здорово. Поэтому и спрашиваю на сайте - где много SEO спецов. И как мне кажется Вам такие данные или анализ может быть полезен.
На винте для каждого домена - скачанного сайта, создан файл "контейнер"- архив - внутри которого лежат сжатые HTML страницы (без картинок) скачанные с этого домена. Страницы качались все которые были доступны по внутренним ссылкам сайта. Скачано почти 60 тысяч сайтов.