Анализ объема сайта!

123 4
neznaika
На сайте с 28.06.2006
Offline
356
#11

Была прога, для чекания ПР, так вот она все ссылки юзала и показывала количество страниц.

Если кто вспомнит, киньте ссылу.

Дорого покупаю настоящие сайты. Не инвестирую деньги и не беру кредиты.
john2007
На сайте с 26.03.2007
Offline
173
#12
John_Doe:
Его можно так настроить, чтобы он только адреса страниц скачивал, не трогая содержимое.

Это не возможно.

Кто же тогда ему список всех адресов (урл) сайта даст, он только из контента, скачивая каждую страницу это может вытащить...

Совершая ошибки, мы не только учимся их не повторять, но и учимся прощать такие же ошибки другим... (с)
john2007
На сайте с 26.03.2007
Offline
173
#13
neznaika:
Была прога, для чекания ПР, так вот она все ссылки юзала и показывала количество страниц.

Видимо, проиндексированных Гуглом, а тут нужно общее кол-во страниц сайта, в не зависимости от индексации ПС.

[Удален]
#14
john2007:
Это не возможно.
Кто же тогда ему список всех адресов (урл) сайта даст, он только из контента, скачивая каждую страницу это может вытащить...

Гм-гм. Я не знаю, каким это образом происходит, не вникал в подробности. Жаль у меня сейчас под рукой Телепорта нет... В общем, скан происходил за считанные секунды (при том, что интернет у меня не ахти какой был). Специально "измерял" таким образом несколько сайтов с известным количеством страниц - результаты по Телепорту сходились с истинными.

Не знаю, может быть я, конечно, что-то не так делал, но факт остается фактом.

john2007
На сайте с 26.03.2007
Offline
173
#15
John_Doe:
Не знаю, может быть я, конечно, что-то не так делал, но факт остается фактом.

Это возможно, когда Вы вложенность не глубокую задаете или другими параметрами играете. Например, задали вложенность скачки главная и еще 2 уровня внутренних.

Например, на главной 20 ссылок, на 1-м уровне внутренней в среднем 10 (уникальных) ссылок, на 2-м уровне внутренней в среднем 10 (уникальных) ссылок.

Качаем - 1 + 20 + 20*10 = 221 страниц. Но скаченный 2-й уровень дает инфу еще о 200*10 = 2 000 страниц, которые мы не качаем, но в количество страниц включить можем.

А универсально качать, без ограничения уровня, не зная, на какой странице больше нет ссылок - придется все страницы качать.

neznaika
На сайте с 28.06.2006
Offline
356
#16
john2007:
Видимо, проиндексированных Гуглом

Нет, просто бот путешествующий по ссылкам ;)

[Удален]
#17
john2007:
Это возможно, когда Вы вложенность не глубокую задаете или другими параметрами играете. Например, задали вложенность скачки главная и еще 2 уровня внутренних.
Например, на главной 20 ссылок, на 1-м уровне внутренней в среднем 10 (уникальных) ссылок, на 2-м уровне внутренней в среднем 10 (уникальных) ссылок.
Качаем - 1 + 20 + 20*10 = 221 страниц. Но скаченный 2-й уровень дает инфу еще о 200*10 = 2 000 страниц, которые мы не качаем, но в количество страниц включить можем.

А универсально качать, без ограничения уровня, не зная, на какой странице больше нет ссылок - придется все страницы качать.

Кхм... То есть, я так понимаю, без ограничения уровня невозможно даже технически скачивать только количество страниц? Их нужно все выкачать для этого?

Тьфу, запутался что-то совсем.

Надо будет почитать, как все это дело работает.

john2007
На сайте с 26.03.2007
Offline
173
#18

neznaika, ну не знаю, см. мой пост выше, посчитайте примерно какой нужен канал и сколько нужно путешествовать и какой период обхода будет для русскоязычного инета. Только в Яндексе 2 750 733 027 страниц.

Умножим 2 750 733 027 хотя бы на 10к (средний размер страницы), поделим на скорость 1Мбайт/с (10Мбит) = 2 750 733 0 с / 60 = 458 455 мин / 60 = 7 641 ч / 24 = 1 год.

john2007
На сайте с 26.03.2007
Offline
173
#19
John_Doe:
Кхм... То есть, я так понимаю, без ограничения уровня невозможно даже технически скачивать только количество страниц? Их нужно все выкачать для этого?
Тьфу, запутался что-то совсем.

Конечно, не выкачивая страницу, Вы не можете определить есть на ней ссылки или нет.

А перебирать страницы сайта можно только по ссылкам на страницах.

Serboy
На сайте с 29.09.2005
Offline
94
#20
john2007:
Конечно, не выкачивая страницу, Вы не можете определить есть на ней ссылки или нет.
А перебирать страницы сайта можно только по ссылкам на страницах.

+1,

neznaika, пробовали делать такое, вариант john2007, но тормоз еще тот получился:

http://www.auxiliarytools.com/checkall.html

То есть страницы перебирает быстро, в запросах PR дело..

Правда, общее количество внутряков (найденных по ссылкам) не выдает, но это не сложно добавить.

З.Ы. В принципе, можно убрать запросы PR и получится довольно шустрый (медию не тягает) счетчик страниц по найденным ссылкам.

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий