Kostushko

Рейтинг
115
Регистрация
31.03.2008
predator-hoi:
Все эти оферы ActionPay (рефка)

Не похоже. Эти оферы встречаются и в других агрегаторах партнерок, причем только одна пачка сайтов, а вот вторая аналогичная (это например домены net-cellyulitu.com, kakzaberemenit.com) не встречается.

Подскажите чья это партнерка: cellulit-stop.ru, net-cellyulitu.com, kakzaberemenet.ru, kakzaberemenit.com?

Подскажите чья это партнерка: cellulit-stop.ru, net-cellyulitu.com, kakzaberemenet.ru, kakzaberemenit.com?

По своим сайтам вижу что ошибки есть только там где DNS прописаны у наунета (dns1.naunet.ru, dns2.naunet.ru). При этом сами сайты расположены на разных серверах, хостингах и в разных странах. Из этого следует что дело вряд ли в блокировке ip GoogleBot'а, ведь фактически нет доступа к DNS, а не сайту.

Есть подозрение что дело не в самом доступе к DNS, а в записях, например у сайтов у которых нет ошибок, в DNS не прописаны записи SOA, а у наунета они прописываются автоматически.

teolog, подскажите Ваши сайты с ошибкой DNS индексируется Google?

Похоже что Google реально не может получить доступ к сайтам с ошибками DNS. Индекс/кеш ограничен 13-ым числом, новые страницы не индексируются, при попытке загрузить страницу через инструменты вебмастера так же выводится ошибка.

SL.ME:
В отличии от тех программ которые загружают и сохраняют странички, у них требуется больше времени на это. Здесь же временной интервал между "нашла по ссылке" и "загрузила" достаточно мал. Как только новая ссылка находится страничка загружается, что и отображается.

Понятие очереди о которой я говорю применимо ко всем сканерам, в том числе и к тем которые не сохраняют страницы, а например парсят сайт на наличие внешних ссылок (к примеру).

SL.ME:
На больших сайтах с большим количеством страниц, может и можно будет оценить некоторое оставшееся время, точнее более наглядно видеть процесс происходящего, но не время всего сканирования сайта (не всех его страниц).

По опыту знаю, что очередь позволяет с точностью до десятков минут предсказать окончание сканирования сайтов с сотнями тысяч страниц. Программа, конечно, может прогнозировать примерно время, но этого-то я как раз и не прошу.

SL.ME:
Сколько может быть ссылок на вновь загруженной страничке 5-10-20 , причем если еще вычесть дубликаты ссылок, страницы по которым не будут загружаться.

А разве программа на каком-то этапе не занимается тем что проверяет дубликаты и те страницы, которые не будут загружаться? Вот после этого и надо посчитать сколько найдено страниц к загрузке, на данный момент (я полагаю такой список должен быть, и он пополняется при поступлении новых ссылок).

SL.ME:
Итого пусть для примера по 5 новых ссылок на каждой страничке, процесс будет выглядеть так:

загружено страниц 1 - осталось 5
загружено страниц 2 - осталось 9 (+5 страниц)
загружено страниц 3 - осталось 13 (+5 страниц)

Похоже так, сейчас я уже стал сомневаться. Еще раз уточню - допустим на сайте 100 страниц, каждая страница ссылается на 5 других (внутренняя перелинковка по идее так и должна работать), тогда, если повезет и все новые ссылки будут разными, то после загрузки первых 20 страниц, программа узнает обо всех страницах на сайте и очередь будет только уменьшаться. Для гипотетического 100 страничного сайта, согласно статистике, это произойдет где-то после 30-50 страниц. Для реального сайта, учитывая наличие карты сайта, списков статей в блогах/категориях и то что их уровень вложенности, как правило, минимальный - это произойдет немного раньше, и примерно после 30% сканирования будет очевидно что скорость роста новых страниц в очереди замедляется и скоро пойдет на убыль.

SL.ME:
Вы такое имели ввиду судя по всему. Если сканирование будет идти долго с задержкой, то информация полезная, но всего времени сканирования сайта не определить т.к. с каждой новой страничкой оно меняется.

Безусловно информация очень полезная, определить время можно на глаз очень точно. Также при сканировании неизвестного сайта можно хотя бы видеть планируется ли завершение или нет.

SL.ME:
Откуда программа знает что на сайте 14 страниц?
Она это может знать только уже их все отсканировав.
А если уже отсканировала, то ей незачем писать сколько страниц найдено и сколько в очереди, т.к. процесс уже выполнен.
Собственно процесс сканирования это и есть первоначальный подсчет количества страниц.
--
А вот когда программа рассчитывает веса страниц, там как раз и может оперировать уже известным числом страниц, показывается сколько пересчитала из оставшихся, потому что ей общее число уже известно.

Нет, ну это что-то с чем-то. Народ вы что ни разу сканер сайтов не запускали? Offlinexplorer, старейший teleport и куча других, все программы имеющиеся у меня (кроме обсуждаемой тут) показывают ТЕКУЩУЮ длину очереди, при загрузке сайта. Пусть очередь меняется после каждой загруженной страницы, уменьшается на единицу или вдруг резко увеличивается, это не важно, по общей степени её изменения любой мало-мальски грамотный пользователь может прикинуть оставшееся время сканирования.

В программе должен быть массив в котором хранятся текущие не загруженные страницы - нужно всего-то сосчитать количество этих страниц и вывести. Если они в одном массиве то это что-то типа count(array_url) и всего-то, если массив более сложный то добавится пара-тройка строк кода. В общем, то что я прощу абсолютно реально, просто и быстро реализуемо - если вы считаете что это не так - попытайтесь понять о чем я говорю.

SL.ME, перечитайте еще раз мое сообщение и объясните почему вы решили что программе надо знать о числе страниц на сайте? Может так понятней будет - я не прощу выводить число страниц сайта которые осталось загрузить, я прошу вывести число страниц, которые программа нашла по ссылкам и собирается загрузить (во всех сканерах которые я встречал это называется очередью).

Sterh:
2 Kostushko
То, что Вы просите сделать не реально. У программы нет конечного списка страниц. На каждой странице могут быть новые ссылки, которые еще не учитывались.

Однако если Вы знаете количество страниц на сайте, то можно это количество сравнить с отображаемым в процессе парсинга - тогда будет ясно, сколько еще осталось.

Я никоим образом не настаиваю на том что число страниц в очереди должно быть постоянным, наоборот я говорю о том что по степени роста или уменьшения числа страниц этой очереди можно судить о завершенности сканирования.

Давайте я совсем на пальцах попробую объяснить (вроде предложение-то совсем простецкое, во многих сканерах сайтов реализовано).

  • При старте загрузки программа пишет: Найдено страниц 0 (в очереди 1)
  • При загрузке 1-ой страницы (на которой 10 новых ссылок) программа пишет: Найдено страниц 1 (в очереди 10)
  • При загрузке 2-ой страницы (на которой 3 новых ссылки) программа пишет: Найдено страниц 2 (в очереди 12)
  • ... допустим на сайте всего 14 страниц, тогда далее программа будет писать
  • Найдено страниц 3 (в очереди 11)
  • Найдено страниц 4 (в очереди 10)
  • ...
  • Найдено страниц 13 (в очереди 1)
  • Найдено страниц 14 (в очереди 0)

Пример конечно упрощенный, но практика показывает что после сканирования 10-30% страниц сайта, с нормальной перелинковкой, очередь либо почти не растет либо уменьшается. Для сайтов в сотни страниц это не особо критично, а вот для сайтов с непонятной структурой очень актуально, допустим если после часа сканирования в очереди еще 5 млн. страниц и очередь растет с теми же темпами - то очевидно ждать программу не стоит.

Str256:
Как программа поймёт, что уже прошла половина сканирования? И насчёт известного числа страниц тоже спорно, мне на сайте в 2к страниц прога находила их в 2-а раза больше. Из-за раного рода дублей. Плюс ссылки на картинки и документы - это тоже страницы.

Я когда-то вроде тоже поднимал этот вопрос, в итоге сделали видимым какой урл сканируется в настоящее время и можно прикинуть докуда программа дошла.

Вы как-то излишне заботитесь о том что программа должна знать и понимать. Программе не надо ничего знать и понимать - ей надо просто работать как работала. Когда пользователь видит что очередь страниц все время уменьшается он поймет что сканирование близится к завершению.

Уверен в программе есть список страниц к загрузке (так как качает программа в один поток) я лишь прошу отобразить длину этого списка. Это 2-3 строки кода. К чему столько дебатов?

Str256:
Если вы не загрузили конкретный список страниц сайта для сканирования, почём программе знать сколько страниц всего на сайте. Если там ошибки в коде, вообще может зациклиться. И потом скорость зависит от числа внутренних ссылок на странице, если в последующих страницах их будет больше процесс замедлится, а если меньше ускорится.

А никто и не говорит что программа должна знать о том сколько страниц на сайте. Про замедление-ускорение процесса - я прекрасно понимаю, потому и написал что после половины сканирования очередь еще не загруженных страниц будет как правило только уменьшаться. К тому же если сканируются свои сайты то их число страниц обычно известно. Попробуйте воспользоваться программами которые отображают число страниц в очереди и вы увидите что это достаточно информативно и удобно.

Всего: 112