И снова об индексации большого раздела сайта (много букв)

SilverMaster · 2021-09-03T04:23:17.0000000Z

И снова об индексации Google Камрады, устраивайтесь поудобнее, будет много букв (и немного картинок) Мы давно работаем под Google (US) и в 2017-2019 годах загнать несколько миллионов страниц в индекс сайта (не нулевого сайта) не представляло особых проблем. Сейчас происходит какой-то треш, если один из наших текущих проектов мог по какой-то причине не взлететь, то сразу два - это уже тревожно... Итак по порядку, чтобы вы не думали что мы совсем уж нубы. 1) Домен зарегистрирован жарким летом 2008 года. 2) Ahrefs: DR 73, Referring domains - 9790, Backlinks - 9.85M 3) Страниц в индексе было около 10к (львиная доля ссылок как раз на внутренние) Добавляем мы обычно новые страницы (а тематика не всегда один в один с основной веткой сайта) следующим образом: 1) Создается две корневые папки на домене (пусть это будут папки /catalog/ и /products/), первая папка это сам каталог, вторая папка это сами лендинговые страницы, которые мы хотим добавить в индекс. 2) Каталог обычно делается тремя уровнями - первый уровень (100-300 ссылок) с небольшим анонсом вывешивается списком на главной странице сайта, второй уровень это следующая ступенька в глубь сайта - на ней тоже список, стараемся как можно больше его уникализировать от таких же каталожных страниц, но по сути они конечно очень похожи друг на друга как и на любом другом сайте. Третий уровень - это уже уровень ссылок на лендинговые страницы, обычно с небольшими снипетами о самих страницах. 3) На каталожные страницы проставлены ссылки со старых страниц в довольно большом кол-ве 4) Лендинговые страницы уникальны, лежат они в одной папке /products/ она хоть и основана на едином шаблоне, но по своему наполнению довольно сильно отличается одна от других. Страницы имеют микроразметку и сделаны страницы AMP. Pagespeed лендинговых страниц в районе 95-97% 5) Лендинговые страницы перелинкованы между собой (20-30 ссылок) и имеют breadcrumbs Раньше такая схема работала на ура, пусть и не быстро - но Google проедал за сутки 10-50к страниц и какими-то порциями выкидывал страницы в индекс. На нашем сайте сейчас совершенно другая история. Не ест Google новую ветку сайта - и все тут. То есть за примерно полгода в индексе таки появилось наверное - 30-40к новых страниц, и все они ранжируются в Google (US, New York) на уровне 1-5 позиции по своим сугубо HЧ запросам. Косвенно можно предполагать что со страницами все ок, равно как и с доменом. Да, бывают скачки до 20-30к Googlebot в сутки - но скорее это исключение нежели правило, да и в индексе страницы не прибавляются в таком количестве. Пробовали добавлять sitemaps - из 50к URLs, которые можно добавить в один Sitemap - Google проедает максимум 500 - 1000 страниц, что примерно 1-2% от общей массы страниц в Sitemap.xml. В последнее время добавили еще один каталог для лендинговых страниц, по географическому признаку - с картой, маркерами, фильтрами, с блэкджеком и шлюхами - но он тоже никакого видимого результата не дал. Что бы хотелось услышать: что делать для более контролируемой индексации. Что бы не хотелось услышать: откровенно черные схемы SEO (спам, взлом и тп) От кого хочется совета: кто сталкивался раньше и сталкивается сейчас с добавлением в индекс страниц от 1млн. Можем добавить любые уточнения по проекту, в рамках разумного конечно

240

Виктор Петров

9 августа 2021, 18:34

#31

богоносец #:
А если бы вы парсилку писали, то по каким признакам выделяли бы в коде "важный абзац/фрагмент"? Может у вас даже есть примеры, когда из двух изменённых абзацев после скачивания ботом (html-документа) только один абзац учёлся? (вопрос не про рисуемое js) Вы не можете это проверить?.. «мы этого не знаем»

Я не гадалкой работаю. Я читаю про passage-based indexing, вижу, что некоторые ресурсы ранжируются не по целевому URL, а по фрагменту, и эти фрагменты в выдаче - вовсе уже не редкость, и по ряду запросов вот сейчас, в 2021, периодически заменяют обычные URL. Какие выводы из этого можно сделать? Их всего два. Пиарщики Гугла с год назад настаивали на том, что страницы всё-таки парсятся целиком. С учётом того, сколько раз они врали на голубом глазу, гипотезы остаются гипотезами.
Мне не очень важно знать, что было раньше - курица или яйцо и прочая схоластика.

https://t.me/seomagus

Google: Passage Indexing это Google ответил на вопрос Бесплатный аудит сайтов: анализ

D

59

Denechka

9 августа 2021, 18:51

#32

Виктор Петров #:

Я не гадалкой работаю. Я читаю про passage-based indexing, вижу, что некоторые ресурсы ранжируются не по целевому URL, а по фрагменту, и эти фрагменты в выдаче - вовсе уже не редкость, и по ряду запросов вот сейчас, в 2021, периодически заменяют обычные URL. Какие выводы из этого можно сделать? Их всего два. Пиарщики Гугла с год назад настаивали на том, что страницы всё-таки парсятся целиком. С учётом того, сколько раз они врали на голубом глазу, гипотезы остаются гипотезами.
Мне не очень важно знать, что было раньше - курица или яйцо и прочая схоластика.

Гадалкой работать не надо.

Что-бы понять как работает парсер, Вам надо написать хотя бы один реально работающий свой.

Допустим напишите (на php используя curl или на си с использованием веб-сокетов или ёще как, мне все равно, Ваш выбор) свой парсер, который просканирует не весь интернет, а какой-нибудь один более-менее крупный сайт (допустим, тот же yellowpages.com).

Уверяю - гуманитарной воды в ваших ответах по этим темам уменьшится в разы, зато появится конкретика.

P.S. Вы скажете - зачем мне данные, спарсенные с этого сайта. Я отвечу - я куплю у Вас их.

1

Curl VS fsock VS Rapida ворует деньги. Не Помогите плиз разобраться

240

Виктор Петров

9 августа 2021, 19:04

#33

Denechka #:
Что-бы понять как работает парсер, Вам надо написать хотя бы один свой.

А зачем? По идее - отличный навык. Но насколько он обязателен в условиях, когда извлечение и обработка данных, информационный поиск сдают позиции поисковому маркетингу? Не правильнее ли приложить небесконечные ресурсы головной кости для актуальных навыков? Для аудитории слишком многое переходит в разряд избыточного и недоступного, там увеличение ссылочного бюджета на 150$ зачастую - неподъёмная ноша, а самая простая веб-аналитика - за гранью понимания. Проблемы же поциэнтов чаще всего сравнимы с лечением переломов, а не с ловлей блох.
И к слову: гуманитарий - это не оскорбление, если говорить о SEO в 2021. Я по образованию филолог, а одним из своих "коньков" считаю семантику и умение работать с текстовым контентом.

1

Вакансия. СПб. В офис, Будущее улучшение качества поиска, Seo-специалист, менеджер интернет проектов

D

59

Denechka

9 августа 2021, 19:08

#34

Виктор Петров #:

А зачем? По идее - отличный навык. Но насколько он обязателен в условиях, когда извлечение и обработка данных, информационный поиск сдают позиции поисковому маркетингу? Не правильнее ли приложить небесконечные ресурсы головной кости для актуальных навыков? Для аудитории слишком многое переходит в разряд избыточного и недоступного, там увеличение ссылочного бюджета на 150$ зачастую - неподъёмная ноша, а самая простая веб-аналитика - за гранью понимания. Проблемы же поциэнтов чаще всего сравнимы с лечением переломов, а не с ловлей блох.
И к слову: гуманитарий - это не оскорбление, если говорить о SEO в 2021. Я по образованию филолог, а одним из своих "коньков" считаю семантику и умение работать с текстовым контентом.

Не обижайтесь, я не собирался никого оскорблять. )

1

240

Виктор Петров

9 августа 2021, 19:20

#35

Denechka #:
Не обижайтесь, я не собирался никого оскорблять. )

Я понял. Но это общая коннотация, так или иначе проявляющаяся в любой веб-студии при общении с разработчиками или аналитиками. Привычно, но всё же вызывает некоторое недоумение.

1

772

богоносец

10 августа 2021, 15:42

#36

Виктор Петров #:
Я по образованию филолог, а одним из своих "коньков" считаю семантику и умение работать с текстовым контентом

Вам это пригодится при проведении простейших экспериментов (весь контент статика.html):

завести на сцайте, доступном для индексации несколько документов, чтобы там было несколько абзацев / в кажном из которых есть уникальное для документа слово, дождаться (пере)индексации, поискать уникальное слово... проверить – (новые) абзацы вместе попали в индекс или как вы на предыдущей странице фантазировали.

Зачем проклятому гуглу, вынужденному экономить ресурсы, доп.затраты на "постепенную" индексацию статики? А ещё это означало бы не релевантную выдачу...

Googlebot сканирует и индексирует В Вебмастере появились точные Сергей Кокшаров: «SEO-фишки, о

240

Виктор Петров

10 августа 2021, 15:49

#37

богоносец #:
завести на сцайте, доступном для индексации несколько документов, чтобы там было несколько абзацев / в кажном из которых есть уникальное для документа слово, дождаться (пере)индексации, поискать уникальное слово... проверить – (новые) абзацы вместе попали в индекс или как вы на предыдущей странице фантазировали.

Вопрос временных ресурсов и необходимости.
Объективно: пока Гугл свой MuM тестировать не прекратит - поводов для экспериментов слишком много, а выхлопа от них - ноль.
Я отслеживаю несколько таких страниц. В топе постоянно меняется выдача фрагмента с полным документом. До тех пор, пока фрагмент торчит на целевой странице, а страница торчит в топе - нет повода что-то менять.

Google улучшает качество выделенных Google делает featured snippets Яндекс начал эксперимент по

228

SilverMaster

11 августа 2021, 06:51

#38

Denechka #:

P.S. Вы скажете - зачем мне данные, спарсенные с этого сайта. Я отвечу - я куплю у Вас их.

Сколько заплатите?

Из детских комшаров: "А вдруг ночью придет страшный робот!" Из взрослых: "И криво проиндексирует сайт". Не всякий гик добежит до середины поисковой страницы гугла

D

59

Denechka

11 августа 2021, 14:42

#39

SilverMaster #:

Сколько заплатите?

100$ за данные каждого 1000000стр.

Только вышлите, пожалуйста пробные данные, порядка 2000-3000, что бы можно было обговорить выходной формат и окончательную цену.

Желателен формат sql (MySQL),либо csv, либо xml, на крайняк txt(не желательно, т.к. могут быть траблы с разделителями). В идеале sql (MySQL).

Помогите разобраться с конвертацией Посоветуйте SERP парсер где Куплю много сателитов по

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Open AI тестирует память для ChatGPT