Попробуйте объяснить, почему программе надо знать о числе страниц на сайте - Сервисы и программы для работы с SE

115

Kostushko

24 ноября 2011, 09:56

#1231

Sterh:
2 Kostushko
То, что Вы просите сделать не реально. У программы нет конечного списка страниц. На каждой странице могут быть новые ссылки, которые еще не учитывались.

Однако если Вы знаете количество страниц на сайте, то можно это количество сравнить с отображаемым в процессе парсинга - тогда будет ясно, сколько еще осталось.

Я никоим образом не настаиваю на том что число страниц в очереди должно быть постоянным, наоборот я говорю о том что по степени роста или уменьшения числа страниц этой очереди можно судить о завершенности сканирования.

Давайте я совсем на пальцах попробую объяснить (вроде предложение-то совсем простецкое, во многих сканерах сайтов реализовано).

При старте загрузки программа пишет: Найдено страниц 0 (в очереди 1)
При загрузке 1-ой страницы (на которой 10 новых ссылок) программа пишет: Найдено страниц 1 (в очереди 10)
При загрузке 2-ой страницы (на которой 3 новых ссылки) программа пишет: Найдено страниц 2 (в очереди 12)
... допустим на сайте всего 14 страниц, тогда далее программа будет писать
Найдено страниц 3 (в очереди 11)
Найдено страниц 4 (в очереди 10)
...
Найдено страниц 13 (в очереди 1)
Найдено страниц 14 (в очереди 0)

Пример конечно упрощенный, но практика показывает что после сканирования 10-30% страниц сайта, с нормальной перелинковкой, очередь либо почти не растет либо уменьшается. Для сайтов в сотни страниц это не особо критично, а вот для сайтов с непонятной структурой очень актуально, допустим если после часа сканирования в очереди еще 5 млн. страниц и очередь растет с теми же темпами - то очевидно ждать программу не стоит.

SM

83

SL.ME

24 ноября 2011, 12:16

#1232

Kostushko:
... допустим на сайте всего 14 страниц, тогда далее программа будет писать
.

Откуда программа знает что на сайте 14 страниц?

Она это может знать только уже их все отсканировав.

А если уже отсканировала, то ей незачем писать сколько страниц найдено и сколько в очереди, т.к. процесс уже выполнен.

Собственно процесс сканирования это и есть первоначальный подсчет количества страниц.

--

А вот когда программа рассчитывает веса страниц, там как раз и может оперировать уже известным числом страниц, показывается сколько пересчитала из оставшихся, потому что ей общее число уже известно.

Kostushko:

Уверен в программе есть список страниц к загрузке (так как качает программа в один поток) .

списка нет. он как раз первоначально и формируется этим одним потоком.

Каким плагином для WordPress Факторы ранжирования Гугл 2024 Упал доход

K

115

Kostushko

24 ноября 2011, 12:50

#1233

SL.ME:
Откуда программа знает что на сайте 14 страниц?
Она это может знать только уже их все отсканировав.
А если уже отсканировала, то ей незачем писать сколько страниц найдено и сколько в очереди, т.к. процесс уже выполнен.
Собственно процесс сканирования это и есть первоначальный подсчет количества страниц.
--
А вот когда программа рассчитывает веса страниц, там как раз и может оперировать уже известным числом страниц, показывается сколько пересчитала из оставшихся, потому что ей общее число уже известно.

Нет, ну это что-то с чем-то. Народ вы что ни разу сканер сайтов не запускали? Offlinexplorer, старейший teleport и куча других, все программы имеющиеся у меня (кроме обсуждаемой тут) показывают ТЕКУЩУЮ длину очереди, при загрузке сайта. Пусть очередь меняется после каждой загруженной страницы, уменьшается на единицу или вдруг резко увеличивается, это не важно, по общей степени её изменения любой мало-мальски грамотный пользователь может прикинуть оставшееся время сканирования.

В программе должен быть массив в котором хранятся текущие не загруженные страницы - нужно всего-то сосчитать количество этих страниц и вывести. Если они в одном массиве то это что-то типа count(array_url) и всего-то, если массив более сложный то добавится пара-тройка строк кода. В общем, то что я прощу абсолютно реально, просто и быстро реализуемо - если вы считаете что это не так - попытайтесь понять о чем я говорю.

SL.ME, перечитайте еще раз мое сообщение и объясните почему вы решили что программе надо знать о числе страниц на сайте? Может так понятней будет - я не прощу выводить число страниц сайта которые осталось загрузить, я прошу вывести число страниц, которые программа нашла по ссылкам и собирается загрузить (во всех сканерах которые я встречал это называется очередью).

SM

83

SL.ME

24 ноября 2011, 13:53

#1234

Kostushko:

SL.ME, перечитайте еще раз мое сообщение и объясните почему вы решили что программе надо знать о числе страниц на сайте? .

Просто вы упоминали про все странички сайта, что соответственно программа такой информацией не располагает.

В отличии от тех программ которые загружают и сохраняют странички, у них требуется больше времени на это. Здесь же временной интервал между "нашла по ссылке" и "загрузила" достаточно мал. Как только новая ссылка находится страничка загружается, что и отображается.

На больших сайтах с большим количеством страниц, может и можно будет оценить некоторое оставшееся время, точнее более наглядно видеть процесс происходящего, но не время всего сканирования сайта (не всех его страниц).

Сколько может быть ссылок на вновь загруженной страничке 5-10-20 , причем если еще вычесть дубликаты ссылок, страницы по которым не будут загружаться.

Итого пусть для примера по 5 новых ссылок на каждой страничке, процесс будет выглядеть так:

загружено страниц 1 - осталось 5

загружено страниц 2 - осталось 9 (+5 страниц)

загружено страниц 3 - осталось 13 (+5 страниц)

Вы такое имели ввиду судя по всему. Если сканирование будет идти долго с задержкой, то информация полезная, но всего времени сканирования сайта не определить т.к. с каждой новой страничкой оно меняется.

K

115

Kostushko

24 ноября 2011, 14:32

#1235

SL.ME:
В отличии от тех программ которые загружают и сохраняют странички, у них требуется больше времени на это. Здесь же временной интервал между "нашла по ссылке" и "загрузила" достаточно мал. Как только новая ссылка находится страничка загружается, что и отображается.

Понятие очереди о которой я говорю применимо ко всем сканерам, в том числе и к тем которые не сохраняют страницы, а например парсят сайт на наличие внешних ссылок (к примеру).

SL.ME:
На больших сайтах с большим количеством страниц, может и можно будет оценить некоторое оставшееся время, точнее более наглядно видеть процесс происходящего, но не время всего сканирования сайта (не всех его страниц).

По опыту знаю, что очередь позволяет с точностью до десятков минут предсказать окончание сканирования сайтов с сотнями тысяч страниц. Программа, конечно, может прогнозировать примерно время, но этого-то я как раз и не прошу.

SL.ME:
Сколько может быть ссылок на вновь загруженной страничке 5-10-20 , причем если еще вычесть дубликаты ссылок, страницы по которым не будут загружаться.

А разве программа на каком-то этапе не занимается тем что проверяет дубликаты и те страницы, которые не будут загружаться? Вот после этого и надо посчитать сколько найдено страниц к загрузке, на данный момент (я полагаю такой список должен быть, и он пополняется при поступлении новых ссылок).

SL.ME:
Итого пусть для примера по 5 новых ссылок на каждой страничке, процесс будет выглядеть так:

загружено страниц 1 - осталось 5
загружено страниц 2 - осталось 9 (+5 страниц)
загружено страниц 3 - осталось 13 (+5 страниц)

Похоже так, сейчас я уже стал сомневаться. Еще раз уточню - допустим на сайте 100 страниц, каждая страница ссылается на 5 других (внутренняя перелинковка по идее так и должна работать), тогда, если повезет и все новые ссылки будут разными, то после загрузки первых 20 страниц, программа узнает обо всех страницах на сайте и очередь будет только уменьшаться. Для гипотетического 100 страничного сайта, согласно статистике, это произойдет где-то после 30-50 страниц. Для реального сайта, учитывая наличие карты сайта, списков статей в блогах/категориях и то что их уровень вложенности, как правило, минимальный - это произойдет немного раньше, и примерно после 30% сканирования будет очевидно что скорость роста новых страниц в очереди замедляется и скоро пойдет на убыль.

SL.ME:
Вы такое имели ввиду судя по всему. Если сканирование будет идти долго с задержкой, то информация полезная, но всего времени сканирования сайта не определить т.к. с каждой новой страничкой оно меняется.

Безусловно информация очень полезная, определить время можно на глаз очень точно. Также при сканировании неизвестного сайта можно хотя бы видеть планируется ли завершение или нет.

YL

10

YuLink

24 ноября 2011, 15:37

#1236

Может где то и написано новсе 100+ страниц не осилю.

А как программа относится к страницам с урлами вида: http://site.ru/catalog.php?tovar=1 , http://site.ru/catalog.php?tovar=t1 и это одна и таже страничка. ПС такие ведь страницы склеивают, соответственно и вес идет на одну страничку, а программка это посчитает как две разных и распределит вес между ними ?

226

Sterh

24 ноября 2011, 18:04

#1237

2 Kostushko

Я вас понял... посмотрим, может что и придумаем. Мысль действительно интересная.

YuLink:
Может где то и написано новсе 100+ страниц не осилю.
А как программа относится к страницам с урлами вида: http://site.ru/catalog.php?tovar=1 , http://site.ru/catalog.php?tovar=t1 и это одна и таже страничка. ПС такие ведь страницы склеивают, соответственно и вес идет на одну страничку, а программка это посчитает как две разных и распределит вес между ними ?

С чего это вдруг это одна и та же страничка? Разные УРЛы - разные страницы. Если они 100% совпадают, то это дубликат. И ПС их не склеивают, а записывают в очередь на АГС.

Программа эти страницы будет считать как разные страницы

Программа для настройки внутренней перелинковки сайта: купить (http://www.page-weight.ru/) Проверка внешних ссылок на сайт (https://backlink.page-weight.ru) (когда Ахрефс дорого) Возьму на продвижение пару магазинов, & SEO консультации (/ru/forum/987866) для сложных случаев.

W2

76

wq21

25 ноября 2011, 22:06

#1238

жалко что демки нет, приходиться по знакомым клянчить чтоб потестить посмотреть результаты работы - и вот что получилось:

вылезло куча ссылок на страничку

/wp-login.php?action=lostpassword - с огромным весом

/feed - с огромным весом

вылезли ссылки /wp-login.php?redirect_to=******* больше сотни - с весом 1 (хотя пишет, что ссылок ведущих на страницу 0)

/wp-content - с весом чуть больше 1

хотя в роботсе у меня все это закрыто, перепроверено еще 15 раз что закрыто и все равно программа находит эти ссылки.

вопрос - программа что роботс не может определять нормально или откуда она берет эти ссылки?

буржунет.рф (http://буржунет.рф/) про буржунет. Прогоны по буржуйским каталогам статей. дешевая недвижимость Болгарии (http://blog.nedvigimost-bg.ru/) учшая партнерка =)

A

98

aryanatha

25 ноября 2011, 22:57

#1239

на странице сайта есть 20 preview картинок и скрип highslide, который при клике на маленькую картинку открывает в отдельном окошке эту же картинку но из файла значительно большего размера

<a class="highslide" onclick="return hs.expand(this)" href="images/foto/kupalniki-panache1676.jpg"><img src="images/foto/small/kupalniki-panache1676.jpg" /></a>

у меня инет медленный, поэтому хорошо заметен следующий факт:

ваша программа закачивает на комп все двадцать картинок jpg и это у неё получаются как бы отдельные страницы сайта

типа таких

/images/foto/kupalniki-panache1676.jpg

вопросы:

1. нафига качать эти картинки-страницы, если и так же понятно что это именно картинка и на ней не будет никаких ссылок ни внешних ни внутренних? это и по времени долго и трафика много уходит...

2. каждая такая картинка получается как бы отдельная страница сайта, на которую входит минимум одна ссылка, но не выходит ни одной. соответственно эта "страница" имеет свой вес, который как бы "пропадает". можете посоветовать способ как не передавать вес на такие картинки?

QComment (http://qcomment.ru/ref/303810) лучший сервис для отзывов, лайков, комментариев

226

Sterh

26 ноября 2011, 06:01

#1240

wq21:
... больше сотни - с весом 1 (хотя пишет, что ссылок ведущих на страницу 0)
/wp-content - с весом чуть больше 1

вопрос - программа что роботс не может определять нормально или откуда она берет эти ссылки?

Единичка - вес страницы по умолчанию. Т.е. сам факт наличия страницы дает ей вес, равный 1.

Другой вопрос, если ссылок 0, то как она их нашла :)

Роботс глючный, увы, не всегда корректно обрабатывает исключения. Поэтому исключения лучше забивать в настройках.

aryanatha:
на странице сайта есть 20 preview картинок и скрип highslide, который при клике на маленькую картинку открывает в отдельном окошке эту же картинку но из файла значительно большего размера

<a class="highslide" onclick="return hs.expand(this)" href="images/foto/kupalniki-panache1676.jpg"><img src="images/foto/small/kupalniki-panache1676.jpg" /></a>

у меня инет медленный, поэтому хорошо заметен следующий факт:
ваша программа закачивает на комп все двадцать картинок jpg и это у неё получаются как бы отдельные страницы сайта
типа таких
/images/foto/kupalniki-panache1676.jpg

Почему как бы? Ссылка на страницу есть, урл страницы есть - значит это и есть страничка.

aryanatha:

вопросы:
1. нафига качать эти картинки-страницы, если и так же понятно что это именно картинка и на ней не будет никаких ссылок ни внешних ни внутренних? это и по времени долго и трафика много уходит...
2. каждая такая картинка получается как бы отдельная страница сайта, на которую входит минимум одна ссылка, но не выходит ни одной. соответственно эта "страница" имеет свой вес, который как бы "пропадает". можете посоветовать способ как не передавать вес на такие картинки?

1. А это кому как. Кто считает, что не нужно подобные ссылки и страницы обрабатывать - закрывает их в настройках. Кому нужно - не закрывает.

2. Поставить другой скрипт, что бы не было конструкции <a href>

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Что делать, чтобы попасть в ответы Google Bard

Новая, уникальная программа для перелинковки сайта и проверки площадок