Google: Обнаружена, не проиндексирована

B
На сайте с 11.04.2019
Offline
1
1689

Здравствуйте!

Есть 10млн+ ссылок вида: site.ru/items/brand/number

Запрос в гугле: site:site.ru items

Показывает около 600 тысяч из десяти-то плюс миллионов!

Вычитал какое-то соотношение полезного текста к коду.

На проверенных мною вот сегодня страницах, текст колеблется от 14% до 15%

Беру одну из страниц, что обнаружена и не в индексе, к примеру:

site.ru/items/brand_34/number_63

Ищу в гугле: brand_34 number_63

Открывают первых конкурентов, все ниже 2%, один даже 0.14%

Отсюда можно сделать вывод, что это не главное?!

....или этот сайт это не правильно делает

Связка brand+number не повторяется, дублей страниц на сайте нет.

Индекс доходил до 3-4 млн, мы во сне подпрыгивали и улыбались от посещения с таких страниц.

Но в один прекрасный момент, все полетело, и я начал изучать ситуацию.

Как выяснилось, на подобных страницах есть изображения, которые были запрещены в robots.txt

Не спрашивайте почему, не помню, для чего-то делал, сглупил, недоконтролил.

Есть несколько тысяч страниц с кривым номером, и такие страницы в ошибках, но это мелочь с 10 млн нормальных.

Перед тем как создавать тему, пробежался по первым топам и там увидел фразу:

Есть понятие коллекции документов, например в рамках хоста. Изменение их количества и состава прямо будет влиять на семантику внутри этой коллекции.

Может это помешать гуглу индексировать, мол а зачем, вы еще ошибки не исправили?

Вот такое обстоятельство дел:

Обнаружена, не проиндексирована
9 673 278

Страница просканирована, но пока не проиндексирована
468 627

Заблокировано в файле robots.txt
24 963

Страница с переадресацией
14 721

Ошибка сканирования
8 005

Страница является копией. Канонический вариант не выбран пользователем.
2 905

Страница является копией. Отправленный URL не выбран в качестве канонического.
1 676

Ошибка 404
1 591

Не найдено (404)
11

Так как ссылок 10млн+, то они сделаны в виде текстовых файлов по 5к ссылок в каждом.

Естественно gz-ипнуты, хотя не знаю можно ли по другому и как лучше.

sitemap выглядит так:

<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

<sitemap>
<loc>https://site.ru/sitemaps/offices.xml</loc>
<lastmod>2018-11-30T11:42:52+03:00</lastmod>
</sitemap>
<sitemap>
<loc>https://site.ru/sitemaps/statics.xml</loc>
<lastmod>2018-11-30T11:42:52+03:00</lastmod>
</sitemap>
<sitemap>
<loc>https://site.ru/sitemaps/sitemap1.txt.gz</loc>
<lastmod>2018-11-30T11:42:52+03:00</lastmod>
</sitemap>
...
<sitemap>
<loc>https://site.ru/sitemaps/sitemapN.txt.gz</loc>
<lastmod>2018-11-30T11:42:52+03:00</lastmod>
</sitemap>
</sitemapindex>

Если обратили внимание, отсутствует changefreq, добавить или в нашем случаем не в этом гвоздь?

Опять же как добавлять, не будет же гугл каждый месяц по 10млн записей проходить.

Если сделать год, тогда смысл, он еще старые не обработал....

Подскажите куда копать?

Спасибо.

B
На сайте с 11.04.2019
Offline
1
#1

Мысли в слух, прав ли я...

У нас в начале сайта в теге <header> идет список офисов, который показывается в модальном окне.

Точно так же сделана категория товаров.

И, как мне кажется, гугл открывает страницу, читает title, там пряники.

Потом идет дальше по страницы, натыкается на текст, который к пряникам не относится, на много текста и не индексирует страницу.

Он же видит все эти скрытые модалки и не умеет понимать что это по делу и не мешает пользователю.

Видит где title про пряники и что текст далеко от начала документа, и забивает болт на такую страницу.

Может такое быть?

B
На сайте с 11.04.2019
Offline
1
#2

Ребят, весь большой неосмысленный текст переместил в футер, надеятся ну улучшение ситуации, то сколько, неделя/месяц?

Что бы понимать и дальнейшие меры предпринимать.

Спасибо.

B
На сайте с 11.04.2019
Offline
1
#3

Подскажите, что думать то?!

А то я сейчас вижу два путя:

1. Я все чётко изложил, что ни у кого не возникло дополнительных вопрос. А учитывая, что нет ни ответа, ни пустого размышления, могу предположить, что ни кто ни чего не знает, или ситуация без выходная - понять и простить...

2. Ответы есть, но они не тривиальные, что тут раздают и, как бы сказать, входят в состав тяжелого опыта, которым без интереса делиться не хочется. Тогда дайте как-нибудь знать: тут чуток блесните или сразу в лс.

По теме:

Количество таких страницы увеличилось

Возможно еще правки не начали действовать

Сколько в среднем ждать?

Гугл же типа помнит о таких страница, сами пишут, мол работайте и вам воздастся!

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий