Проверяйте лимит сканирования. Используйте поправочный коэффициент, деленный на среднее число страниц краулинга - Популярные вопросы про SEO

И снова об индексации большого раздела сайта (много букв)

SilverMaster · 2021-09-03T04:23:17.0000000Z

И снова об индексации Google Камрады, устраивайтесь поудобнее, будет много букв (и немного картинок) Мы давно работаем под Google (US) и в 2017-2019 годах загнать несколько миллионов страниц в индекс сайта (не нулевого сайта) не представляло особых проблем. Сейчас происходит какой-то треш, если один из наших текущих проектов мог по какой-то причине не взлететь, то сразу два - это уже тревожно... Итак по порядку, чтобы вы не думали что мы совсем уж нубы. 1) Домен зарегистрирован жарким летом 2008 года. 2) Ahrefs: DR 73, Referring domains - 9790, Backlinks - 9.85M 3) Страниц в индексе было около 10к (львиная доля ссылок как раз на внутренние) Добавляем мы обычно новые страницы (а тематика не всегда один в один с основной веткой сайта) следующим образом: 1) Создается две корневые папки на домене (пусть это будут папки /catalog/ и /products/), первая папка это сам каталог, вторая папка это сами лендинговые страницы, которые мы хотим добавить в индекс. 2) Каталог обычно делается тремя уровнями - первый уровень (100-300 ссылок) с небольшим анонсом вывешивается списком на главной странице сайта, второй уровень это следующая ступенька в глубь сайта - на ней тоже список, стараемся как можно больше его уникализировать от таких же каталожных страниц, но по сути они конечно очень похожи друг на друга как и на любом другом сайте. Третий уровень - это уже уровень ссылок на лендинговые страницы, обычно с небольшими снипетами о самих страницах. 3) На каталожные страницы проставлены ссылки со старых страниц в довольно большом кол-ве 4) Лендинговые страницы уникальны, лежат они в одной папке /products/ она хоть и основана на едином шаблоне, но по своему наполнению довольно сильно отличается одна от других. Страницы имеют микроразметку и сделаны страницы AMP. Pagespeed лендинговых страниц в районе 95-97% 5) Лендинговые страницы перелинкованы между собой (20-30 ссылок) и имеют breadcrumbs Раньше такая схема работала на ура, пусть и не быстро - но Google проедал за сутки 10-50к страниц и какими-то порциями выкидывал страницы в индекс. На нашем сайте сейчас совершенно другая история. Не ест Google новую ветку сайта - и все тут. То есть за примерно полгода в индексе таки появилось наверное - 30-40к новых страниц, и все они ранжируются в Google (US, New York) на уровне 1-5 позиции по своим сугубо HЧ запросам. Косвенно можно предполагать что со страницами все ок, равно как и с доменом. Да, бывают скачки до 20-30к Googlebot в сутки - но скорее это исключение нежели правило, да и в индексе страницы не прибавляются в таком количестве. Пробовали добавлять sitemaps - из 50к URLs, которые можно добавить в один Sitemap - Google проедает максимум 500 - 1000 страниц, что примерно 1-2% от общей массы страниц в Sitemap.xml. В последнее время добавили еще один каталог для лендинговых страниц, по географическому признаку - с картой, маркерами, фильтрами, с блэкджеком и шлюхами - но он тоже никакого видимого результата не дал. Что бы хотелось услышать: что делать для более контролируемой индексации. Что бы не хотелось услышать: откровенно черные схемы SEO (спам, взлом и тп) От кого хочется совета: кто сталкивался раньше и сталкивается сейчас с добавлением в индекс страниц от 1млн. Можем добавить любые уточнения по проекту, в рамках разумного конечно

D

59

Denechka

8 августа 2021, 09:47

#21

Виктор Петров #:

"Проверяйте также лимит сканирования."

"В Search Console - среднее число просканированных за день. Берем число страниц, которые должны быть в индексе. Делим на среднее число сканированных за день. По итогам смотрим: если результат в 10 раз больше просканированных за день, то кричим караул и бегаем кругами. Меньше трёх - хороший результат, можно не париться."
Точных цифр никто не даст. Да их и нет, в этой сфере они все динамические, поэтому надо отталкиваться от медианных данных. И в этом плане градация 3/10 работает хорошо. Большой сайт? - Ну, используйте поправочный коэффициент.

Вы, наверное, гуманитарий по жизни, ведь так?

240

Виктор Петров

8 августа 2021, 10:03

#22

Denechka #:
Вы, наверное, гуманитарий по жизни, ведь так?

Я практик на потоке. А в данном случае мне неясна суть ваших затруднений. Вот объём сайта. Вот среднее число страниц краулинга. Вот логи. Чего вам не хватает для решения задачи, и в чём суть этой задачи?

https://t.me/seomagus

сколько будет приносит проект? Яндекс обходит несуществующие страницы Вы рискуете своими доходами.

D

59

Denechka

8 августа 2021, 12:21

#23

Виктор Петров #:

Я практик на потоке. А в данном случае мне неясна суть ваших затруднений. Вот объём сайта. Вот среднее число страниц краулинга. Вот логи. Чего вам не хватает для решения задачи, и в чём суть этой задачи?

Хорошо.

У меня затруднений особых нет.

Просто вы налегке даёте ТС совет (цитирую) - "Проверяйте также лимит сканирования."

Меня заинтересовало как Вы его определяете и я начал задавать наводящие вопросы, надеясь, что ответы будут интересны не только мне, но и другим читателям. Далее последовало: - "В Search Console - среднее число просканированных за день. Берем число страниц, которые должны быть в индексе. Делим на среднее число сканированных за день. По итогам смотрим: если результат в 10 раз больше просканированных за день, то кричим караул и бегаем кругами. Меньше трёх - хороший результат, можно не париться."
Точных цифр никто не даст. Да их и нет, в этой сфере они все динамические, поэтому надо отталкиваться от медианных данных. И в этом плане градация 3/10 работает хорошо. Большой сайт? - Ну, используйте поправочный коэффициент. "

Так вот - объём сайта (в страницах) делённый на среднее число страниц в день даст только количество дней, необходимых для сканирования данного сайта. Ничего более. Это же элементарная алгебра с соблюдением размерностей. Ни а каком вычислении лимита сканирования (сначала надо определиться что это и в какой размерности вычисляется) по Вашей формуле идти речь не может. Ни с поправочными коэффициентами ни без (кстати непонятно из каких соображений выбирается так называемый поправочный коэффициент и его величина).

Вы и своим клиентам так налегке втюхиваете речи с вкраплениями технических словосочетаний типа "поправочный коэффициент", "среднее число страниц краулинга", "надо отталкиваться от медианных данных", "в этом плане градация 3/10 работает хорошо", в надежде или с уверенностью, что клиент не перепроверит элементарные вещи?

Если бы я так умел на легке кидаться своим словарным запасом - уже давно миллиардером стал бы (пока бы по голове за безграмотность не получил бы).

Только без обид, каждый зарабатывает как может.

Вконтакте введет лимит на GoGetLinks.net: ссылки навсегда на Утекание веса по ссылкам

240

Виктор Петров

8 августа 2021, 12:35

#24

Denechka #:
Так вот - объём сайта (в страницах) делённый на среднее число страниц в день даст только количество дней, необходимых для сканирования данного сайта.

Вы хорошо понимаете, что такое лимит сканирования? Или ждёте чудес от статистических данных?
Я вижу в вашей писанине какие-то придирки с непонятной мотивацией. Если вам надо выявить проблемы со сканированием сайта - вы используете эти данные. Они полезны, они работают.
Как просчитать поправочный коэффициент - это уже ваша аналитика. Можете исходить от среднего объёма сайтов в интернете, в своём сегменте, а дальше опираться на собственную статистику по сайтам в целом.
Техника работает, если, конечно, вам нужны результаты. Можете искать свою - это SEO, канонов нет, всё - на имеющихся данных и на опыте. Делаете гипотезу, тестируете. Работает - берем на вооружение. Что там вы хотите перепроверять? Данные сёрч консоли?

Как же правильно оценивать Сканирование позиций в гугле Чем может быть вызвана

D

59

Denechka

8 августа 2021, 12:38

#25

Виктор Петров #:
Вы хорошо понимаете, что такое лимит сканирования?

Хотелось бы услышать Вашу версию.

Опять же - без обид. Что бы разъяснить и себе и тем, кто нас будет читать, что вкладываем в смысл одного и того же термина.

240

Виктор Петров

8 августа 2021, 12:56

#26

Хорошо, давайте уточним и обобщим.
Лимит сканирования (он же - краулинговый бюджет) - это несколько устаревший термин, обозначающий сейчас скорее объём вычислительных ресурсов, выделяемых нейросетью гугла для сканирования сайта в прямой связи с его техническим состоянием, ценностью для пользователей с точки зрения нейросети, цитируемостью и т.д. и т.п.
Точных цифр тут быть не может, вы можете лишь опираться на некие усредненные показатели, а в качестве необходимого инструмента прибегать к инсайтам. Всё, что у вас есть - это данные Google Search Console, Google Analytics и данные логов по визитам гуглоботов.
Из этого жиденького набора вы можете извлечь какие-то выводы и построить какие-то гипотезы, способные помочь улучшить сканирование сайта и перераспределить цели этих визитов. Вот у вас данные по визитам из панели вебмастера, вот данные из логов по целевым URL, среди которых могут доминировать папки шаблона, давно несуществующие URL (например, после переноса сайта пару лет назад), либо нецелевые URL, получающие статус важных в глазах гуглобота на основе пользовательских сигналов.
Всё остальное - вилами по воде. Для примера: по утверждениям Мюллера, гуглобот может ждать отклика сервера 2 минуты (при рекомендуемой норме - 0,2-0,5с). Будет ли он ждать столько в реале? - Другой вопрос. То же самое с редиректами. насколько я помню, 10 считается допустимой нормой. Однако на практике гуглобот вполне себе прекращает переходы где-нибудь на пятом переходе.
Вся градация реально укладывается в "хорошо обходит - плохо обходит". Разброс 3-10 позволяет работать с этой градацией чуть тоньше, не более того.
Знаете подход получше - поделитесь, с удовольствием почитаю.

Страница просканировано, но не Как обойти портал, если Google: это нормально, если

D

59

Denechka

8 августа 2021, 13:51

#27

Виктор Петров #:
Хорошо, давайте уточним и обобщим.
Лимит сканирования (он же - краулинговый бюджет) - это несколько устаревший термин, обозначающий сейчас скорее объём вычислительных ресурсов, выделяемых нейросетью гугла для сканирования сайта в прямой связи с его техническим состоянием, ценностью для пользователей с точки зрения нейросети, цитируемостью и т.д. и т.п.
Точных цифр тут быть не может, вы можете лишь опираться на некие усредненные показатели, а в качестве необходимого инструмента прибегать к инсайтам. Всё, что у вас есть - это данные Google Search Console, Google Analytics и данные логов по визитам гуглоботов.
Из этого жиденького набора вы можете извлечь какие-то выводы и построить какие-то гипотезы, способные помочь улучшить сканирование сайта и перераспределить цели этих визитов. Вот у вас данные по визитам из панели вебмастера, вот данные из логов по целевым URL, среди которых могут доминировать папки шаблона, давно несуществующие URL (например, после переноса сайта пару лет назад), либо нецелевые URL, получающие статус важных в глазах гуглобота на основе пользовательских сигналов.
Всё остальное - вилами по воде. Для примера: по утверждениям Мюллера, гуглобот может ждать отклика сервера 2 минуты (при рекомендуемой норме - 0,2-0,5с). Будет ли он ждать столько в реале? - Другой вопрос. То же самое с редиректами. насколько я помню, 10 считается допустимой нормой. Однако на практике гуглобот вполне себе прекращает переходы где-нибудь на пятом переходе.
Вся градация реально укладывается в "хорошо обходит - плохо обходит". Разброс 3-10 позволяет работать с этой градацией чуть тоньше, не более того.
Знаете подход получше - поделитесь, с удовольствием почитаю.

Ну, вот видите, что то начинает выкристаллизовываться.

Сейчас Вы утверждаете, что лимит сканирования - это несколько устаревший термин с безрамерной величиной, хотя ещё в 9:30 утверждали (цитирую) - "Среднее количество просканированных страниц - это и есть условный лимит сканирования. ".

Для меня он разделяется на 2 базовые величины:

Лимит по времени (ибо ни кто не любит долго ждать) и тут я довожу время отклика до <100ms для пиковой нагрузки. В полупиковой (рабочий режим) 40-50мс. Идеал для меня, над которым еще работаю - 20мс.
Лимит по дисковому объёму. Ибо весь этот шлак хранится физически на дисках (даже с учётом эффективной упаковки, хешей, контрольных сумм и т.д. и т.п.). А диски, как известно не резиновые. По-этому я лично минимизирую верстку и всякий левый хлам в коде. Опять же идеал для меня 10кБ, пока топчусь на 15-25кБ.

По редиректам я с Вами согласен. Ни кто не любит, когда его гоняют туда-сюда по 10 раз, поэтому редиректы свожу к нулю (вообще не люблю этих фокусов).

Я думаю с этими двумя факторами (время и объём) и может работать напрямую веб-мастер, дабы сделать привлекательнее и удобнее свой сайт и для сканирования краулером и для просмотра с браузера пользователем).

Спасибо за внимание.

PageSpeed Insights До и Google: размер файла Sitemap Время ответа сервера 250мс

240

Виктор Петров

8 августа 2021, 15:38

#28

Denechka #:
Сейчас Вы утверждаете, что лимит сканирования - это несколько устаревший термин с безрамерной величиной, хотя ещё в 9:30 утверждали (цитирую) - "Среднее количество просканированных страниц - это и есть условный лимит сканирования. ".

Времена меняются. То, что бот зашёл на сайт - ещё не значит, что он будет парсить контент. Или весь контент, а не один какой-то важный (для него) абзац или другой фрагмент. Мы этого не знаем, и всё, что у нас есть - это а) данные консоли; б) логи. То есть количество урлов, страницы в индексе в сопоставлении с тем, что там должно быть, плюс какая-то динамика по сканированию конкретных папок.

В консоли фиксируются только странички, там не понять, что бот старательно перебирал js и прочие служебные файлы. А это - тоже часть лимита.
Стало быть, говорить исключительно о лимите сканирования - не совсем корректно. Но других терминов пока нет.

Объявления показываются через 1-10 Google Updates - апдейты Переиндексировать страници

D

59

Denechka

8 августа 2021, 15:41

#29

Виктор Петров #:

Времена меняются. То, что бот зашёл на сайт - ещё не значит, что он будет парсить контент. Или весь контент, а не один какой-то важный (для него) абзац или другой фрагмент. Мы этого не знаем, и всё, что у нас есть - это а) данные консоли; б) логи. То есть количество урлов, страницы в индексе в сопоставлении с тем, что там должно быть, плюс какая-то динамика по сканированию конкретных папок.

В консоли фиксируются только странички, там не понять, что бот старательно перебирал js и прочие служебные файлы. А это - тоже часть лимита.
Стало быть, говорить исключительно о лимите сканирования - не совсем корректно. Но других терминов пока нет.

насколько я смотрел индекс - там лежит ВЕСЬ код страницы на дату/время последнего обхода с кодом последнего обхода 200 от начального <doctype> до конечного </html> и даже все заголовки сервера. По этому и не только - от левых js-ов стараюсь избавляться.

Т.е. бот забирает ВСЮ страницу (если дождётся её, конечно).

Какие там куски будут переиндексирываться - это уже не задача краулера, это задача других подсистем.

По крайней мере у моих сайтов - так.

Можно ли в код Позиции сайта в поиске После последнего апдейта Яндекса

774

богоносец

9 августа 2021, 17:20

#30

Виктор Петров #:
То, что бот зашёл на сайт - ещё не значит, что он будет парсить контент. Или весь контент, а не один какой-то важный (для него) абзац или другой фрагмент. Мы этого не знаем

Дайте определение "бот зашёл на сайт".

А если бы вы парсилку писали, то по каким признакам выделяли бы в коде "важный абзац/фрагмент"? Может у вас даже есть примеры, когда из двух изменённых абзацев после скачивания ботом (html-документа) только один абзац учёлся? (вопрос не про рисуемое js) Вы не можете это проверить?.. «мы этого не знаем»

Вы для кого это пишете? Для верующих клиентов? Им 'нейросеть гугла' крышу сносит?

1

Как выводить кусок html Google - "Так увидит Почему яндекс выдает в

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ

И снова об индексации большого раздела сайта (много букв)