Как узнать размер (в байтах) проиндексированного сайта?

AK
На сайте с 20.11.2003
Offline
0
1916

В общем, задача такая.

Мы планируем создание региональной поисковой системы и имеем на руках начальный список сайтов, которые надо проиндексировать. Всего порядка 400.

Хотелось бы узнать объем трафика, который надо будет перекачать для создания первичного индекса. Единственный, на мой взгляд способ оценки -- использовать уже существующие российские поисковики.

Яндекс выдает только количество известных ему документов. Умножать на 'среднестатистический' размер документа не хочется.

Кто-нибудь может посоветовать что-то дельное?

Спасибо.

LM
На сайте с 30.11.2001
Offline
71
LiM
#1

Без "среднестатистических" значений не обойтись...

Для каждой найденной страницы в результатах поиска указывается ее размер в килобайтах. Вы можете с отобранных Вами сайтов скачать первые страницы (это даст уже какое-то число байт) и собрать адреса ссылок с этих страниц. Потом из полученного списка адресов случайным образом отбирается какое-либо подмножество и также скачивается, что дает второй объем. Первый объем может дать вам средний размер начальной страницы, если его поделить на число сайтов. Второй - средний объем внутренней страницы (если поделить на число отобранных страниц). Дальше, отталкиваясь от этих чисел и ориентировочного числа страниц на каждом сайте, можно приблизительно посчитать трафик...

С уважением, Андрей Хроленок. Загляни в FAQ по оптимизации и продвижению сайтов (http://www.seoman.ru/FAQ/) Анализатор страниц сайтов (http://www.seoman.ru/analizer/)
AK
На сайте с 20.11.2003
Offline
0
#2

Это понятно. Я примерно это и имел в виду, когда говорил про 'среднестатистическое'.

Значит точно посчитать -- не судьба?

Григорий Селезнев
На сайте с 25.09.2001
Offline
298
#3

можно пройтись по списку запросами типа HEAD и посчитать ...

А
На сайте с 29.07.2003
Offline
58
#4
можно пройтись по списку запросами типа HEAD и посчитать ...

Динамические сайты (99%) не отдают размер документа по HEAD

Это будет работать только если все на статичном html сделано.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий