Не похоже. Эти оферы встречаются и в других агрегаторах партнерок, причем только одна пачка сайтов, а вот вторая аналогичная (это например домены net-cellyulitu.com, kakzaberemenit.com) не встречается.
Подскажите чья это партнерка: cellulit-stop.ru, net-cellyulitu.com, kakzaberemenet.ru, kakzaberemenit.com?
По своим сайтам вижу что ошибки есть только там где DNS прописаны у наунета (dns1.naunet.ru, dns2.naunet.ru). При этом сами сайты расположены на разных серверах, хостингах и в разных странах. Из этого следует что дело вряд ли в блокировке ip GoogleBot'а, ведь фактически нет доступа к DNS, а не сайту.
Есть подозрение что дело не в самом доступе к DNS, а в записях, например у сайтов у которых нет ошибок, в DNS не прописаны записи SOA, а у наунета они прописываются автоматически.
teolog, подскажите Ваши сайты с ошибкой DNS индексируется Google?
Похоже что Google реально не может получить доступ к сайтам с ошибками DNS. Индекс/кеш ограничен 13-ым числом, новые страницы не индексируются, при попытке загрузить страницу через инструменты вебмастера так же выводится ошибка.
Понятие очереди о которой я говорю применимо ко всем сканерам, в том числе и к тем которые не сохраняют страницы, а например парсят сайт на наличие внешних ссылок (к примеру).
По опыту знаю, что очередь позволяет с точностью до десятков минут предсказать окончание сканирования сайтов с сотнями тысяч страниц. Программа, конечно, может прогнозировать примерно время, но этого-то я как раз и не прошу.
А разве программа на каком-то этапе не занимается тем что проверяет дубликаты и те страницы, которые не будут загружаться? Вот после этого и надо посчитать сколько найдено страниц к загрузке, на данный момент (я полагаю такой список должен быть, и он пополняется при поступлении новых ссылок).
Похоже так, сейчас я уже стал сомневаться. Еще раз уточню - допустим на сайте 100 страниц, каждая страница ссылается на 5 других (внутренняя перелинковка по идее так и должна работать), тогда, если повезет и все новые ссылки будут разными, то после загрузки первых 20 страниц, программа узнает обо всех страницах на сайте и очередь будет только уменьшаться. Для гипотетического 100 страничного сайта, согласно статистике, это произойдет где-то после 30-50 страниц. Для реального сайта, учитывая наличие карты сайта, списков статей в блогах/категориях и то что их уровень вложенности, как правило, минимальный - это произойдет немного раньше, и примерно после 30% сканирования будет очевидно что скорость роста новых страниц в очереди замедляется и скоро пойдет на убыль.
Безусловно информация очень полезная, определить время можно на глаз очень точно. Также при сканировании неизвестного сайта можно хотя бы видеть планируется ли завершение или нет.
Нет, ну это что-то с чем-то. Народ вы что ни разу сканер сайтов не запускали? Offlinexplorer, старейший teleport и куча других, все программы имеющиеся у меня (кроме обсуждаемой тут) показывают ТЕКУЩУЮ длину очереди, при загрузке сайта. Пусть очередь меняется после каждой загруженной страницы, уменьшается на единицу или вдруг резко увеличивается, это не важно, по общей степени её изменения любой мало-мальски грамотный пользователь может прикинуть оставшееся время сканирования.
В программе должен быть массив в котором хранятся текущие не загруженные страницы - нужно всего-то сосчитать количество этих страниц и вывести. Если они в одном массиве то это что-то типа count(array_url) и всего-то, если массив более сложный то добавится пара-тройка строк кода. В общем, то что я прощу абсолютно реально, просто и быстро реализуемо - если вы считаете что это не так - попытайтесь понять о чем я говорю.
SL.ME, перечитайте еще раз мое сообщение и объясните почему вы решили что программе надо знать о числе страниц на сайте? Может так понятней будет - я не прощу выводить число страниц сайта которые осталось загрузить, я прошу вывести число страниц, которые программа нашла по ссылкам и собирается загрузить (во всех сканерах которые я встречал это называется очередью).
Я никоим образом не настаиваю на том что число страниц в очереди должно быть постоянным, наоборот я говорю о том что по степени роста или уменьшения числа страниц этой очереди можно судить о завершенности сканирования.
Давайте я совсем на пальцах попробую объяснить (вроде предложение-то совсем простецкое, во многих сканерах сайтов реализовано).
Пример конечно упрощенный, но практика показывает что после сканирования 10-30% страниц сайта, с нормальной перелинковкой, очередь либо почти не растет либо уменьшается. Для сайтов в сотни страниц это не особо критично, а вот для сайтов с непонятной структурой очень актуально, допустим если после часа сканирования в очереди еще 5 млн. страниц и очередь растет с теми же темпами - то очевидно ждать программу не стоит.
Вы как-то излишне заботитесь о том что программа должна знать и понимать. Программе не надо ничего знать и понимать - ей надо просто работать как работала. Когда пользователь видит что очередь страниц все время уменьшается он поймет что сканирование близится к завершению.
Уверен в программе есть список страниц к загрузке (так как качает программа в один поток) я лишь прошу отобразить длину этого списка. Это 2-3 строки кода. К чему столько дебатов?
А никто и не говорит что программа должна знать о том сколько страниц на сайте. Про замедление-ускорение процесса - я прекрасно понимаю, потому и написал что после половины сканирования очередь еще не загруженных страниц будет как правило только уменьшаться. К тому же если сканируются свои сайты то их число страниц обычно известно. Попробуйте воспользоваться программами которые отображают число страниц в очереди и вы увидите что это достаточно информативно и удобно.