Mual

Рейтинг
24
Регистрация
10.02.2009

Да увидел сервис из подписи - Отличная работа!

Спасибо за инфу про бэклинки и адсенс. Теперь есть пища для размышлений. Попробую построить сеть связей сайтов по ссылкам и подумаю про адсенс - попытаться извлечь ссылки которые предоставляет этот сервис - как часто встречаются ссылки - какие тексты, где и как они размещены. В общем я получил то - что хотел. Будет теперь применение этим данным - погоняю их...

60тыс. - понимаю что не очень много по количеству сайтов (много разных форумов попадается, а там по 3-5 миллионов страниц - соответственно большой объем контента и повторяющегося html кода) - просто суть работы и теста программы была немного в другом.

В базе сохраняется вся информация по http запросам - всё что было отправлено и получено, все редиректы, ошибки и даже куки.

Да, согласен, торрентом будет лучше всего. Создам....

eis:
Mual, можете, так, ради интереса, провести исследование "средний размер занимаемый сайтом на сервере" ☝

О спасибо за идею! Можно будет прикинуть сколько места используют хостинговые компании для хранения данных.

Первое что я сделал для себя - собрал статистику - насколько часто встречаются "маты" в инете :). И как много слов люди пишут с ошибками. В общем-то очень даже интересные цифры получаются.

---------- Добавлено 05.05.2012 в 00:49 ----------

The WishMaster:
Ну просто детская наивность... :D

Неужели все так серьезно? Поясните подробнее?

Тот же Яндекс и Гугл качают и складируют у себя всё и вся. И что?

---------- Добавлено 05.05.2012 в 00:52 ----------

mlu:
Давайте мне, пригодится :)

Нет проблем. Забирайте. Если через инет то понадобится около месяца чтобы все это качнуть.

У меня исходящий 10мегабит + я фильмы иногда смотрю + по работе инет используется. За месяц думаю закачаете - но с одним условием - поделитесь - для чего они могут пригодится :)

:) ну я пока эти данные и не продаю, они просто скачаны - и в общем-то доступны для скачивания. Никаких прав не нарушается. Честно говоря еще не видел сайты - страницы с которых было бы запрещено скачивать, сохранять и передавать третьим лицам.

Хорошо. Можно посмотреть на это под другим углом - будет ли полезен анализ этих данных? Скажем статистика слов (слово-оборотов), количество страниц, частота встречающихся ссылок и и т.д. и т.п.

Как советует eis - удалить это совсем просто - лучше наверное просто отформатировать винт - быстрее :). Но я пишу программы и сервисы для работы с большими объемами данных и интереснее с ними что-то сделать чем удалить.

А если это кому-то еще и пригодится, то будет просто здорово. Поэтому и спрашиваю на сайте - где много SEO спецов. И как мне кажется Вам такие данные или анализ может быть полезен.

The WishMaster:
Так что за данные? В каком виде, формате?

На винте для каждого домена - скачанного сайта, создан файл "контейнер"- архив - внутри которого лежат сжатые HTML страницы (без картинок) скачанные с этого домена. Страницы качались все которые были доступны по внутренним ссылкам сайта. Скачано почти 60 тысяч сайтов.