В секунду, в час, в сутки? Сколько страниц на сайте? К каким адресам запросы? Без всего этого разговор беспредметен.
Клево если речь о запросах шаблона. Их нечасто бывает меньше сотни
Естессна. Но речь о том, что у ПС достаточно источников данных, чтобы понять, откель ноги растут в каждом конкретном случае.Способны ли они обработать эту информацию и сделать какие-то внятные выводы - другое дело.Выглядит так, будто не способны. Или не заинтересованы.
О. Это повод пообщаться с хостером для начала. Если фрога достаточно чтобы его положить - то он и от поисковых ботов приляжет и отдаст пачку пятисотых в самый неподходящий момент.Ну, и можно же парсер настроить, чтобы помягче данные тянул.Сейчас 15-я версия актуальна, они туда воткнули, например, сравнение версий сайта - что было, что стало.
Учитывая, что поисковые боты постоянно пасутся в соцсетях и этот факт прекрасно используется для ускорения индексации нового контента и наверняка имеют доступ к внутренней стате соцсетей так или иначе - тут и вопросов нету. Кроме того, слышал я, что Яндекс ещё и выкупает данные сторонних сервисов, но эта информация фактами не подтверждена.
Configuration - Spider, вкладка Extraction, отметить галочкой Store HTML (внизу).Потом Configuration - Content - Duplicates. Там отметить галочкой Enable Near Duplicates и задать степень похожести (по умолчанию стоит 90%). Я обычно выставляю 80%, но тут дело хозяйское.Парсим.После этого - Crawl Analysis. Ну, а дальше смотреть, что на что похоже и в какой степени. А, ну и я бы посоветовал в качестве User-Agent выбрать что-то осмысленное, типа Googlebot Smartphone. Иногда полезно разными UA посмотреть - бывают нюансы, особенно если речь об адаптивной вёрстке.
Кроме того, можно использовать сторонние сервисы - типа siteliner.com, но там бесплатно - только 200 страниц, остальное - за бабки.
Дык я уже оттуда и свалил. В студии было недурно, хорошая школа - примерно как врачом "Скорой" на крушении поезда. Но экономически невыгодно, и тащить будешь всех, кого взяли на продвижуху - даже если там без шансов и от проекта просто тошнит.