Как конкретно Google сканирует текст на странице?

P
На сайте с 27.10.2014
Offline
221
828

Так как я конкретный контентщик, меня всегда интересовало то как ПС сканирует страницу, что конкретно робот видит, а что пропускает мимо.

Все мои исследования показали мне то, что есть всего 2 фактора ранжирования + 1 (мнимый, непостоянный, временный).

1) Соответсвие страницы запросу (релевантность)

2) Авторитетность страницы/домена (PR, DA, PA, TF, etc...)

Ну и тот мнимый фактор -- это ПФ... Да он может сработать, но только в ТОП10... На 75-м месте ПФ нет, но ведь ПС как-то ставит сайт на 75-е место.

Итого, у нас остаётся 2 фактора, 1 из которых мы отметаем. Авторитетность -- это ссылки и точка на этом.

-------------

Теперь вопрос:

Итак, за несколько лет работы с Google столкнулся с тем, что страницы делятся на 2 типа:

1) Страницы, которые всегда на 1-3 месте по куску текста со страницы

2) Страницы, которые на 50-70х местах по поиску того же куска текста

3) Мы не будем рассматривать запрос в ковычках, так как он говорит лишь о том, что этот текст присутствует на странице, но ничего не говорит о релевантности

К сожалению, мои проекты всегда, со временем, попадают во 2-ю категорию страниц. Я не могу найти свой абсолютно эксклюзивный текст по куску этого же текста без ковычек. Поначалу, всё хорошо, но после, либо я нахожу свои страницы на последних местах (в ТОП100) по куску текста, при том, что сами страницы стоят в ТОП10, либо я могу найти только какой-то один абзац и не более...

Отсюда жирный вопрос -- Что же все же видит и оценивает поисковик? Почему совершенно эксклюзивный текст не находится по куску этого же текста?

------------------

Я работаю в Google USA, потому не спец в Яндексе. Но, все мои сайты там проиндексированы. Ради интереса, я провёл тот же эксперимент и, с удивлением, обнаружил что некоторые страницы не находтся даже по куску текста в ковычках!

Я сам пишу текста. Я знаю что они экслюзивные. Но выходит что они совсем не релевантные!

Это не крик и не плач. Все страницы, о которых я говорю находятся в ТОП10. Это не вопрос о том как попасть в ТОП, а о том как, все же, в реальности ПС видит контент. Если он банально не может найти кусок текста в тексте, то на что тогда могут вообще быть заточены принципы ранжирования?

------------------

Проблема в том, что Google, Yahoo, Bing, Yandex, все ПС видят одни и те же страницы на первых местах. Так вот эти страницы всегда попадают в первую категорию.

В независимости от того какое качество контента на них, этот контент можно всегда найти по куску текста. Доходит до абсурда. Есть страницы, где вообще только 1 строчка контента, но эта строчка находится по эйтой же строчке во всех поисковиках, в то время как есть уникальные тексты по 1500 слов, где и одного абзаца не найти!

Хочу услышать мнения, предположения, да и вообще, любую информацию по этому поводу!

P.s.: Еще раз, это не крик ПАМАГИТЕ, вопрос не в ранжировании, а в сканировании и индексировании страниц!

---------- Добавлено 02.11.2019 в 16:30 ----------

P.P.S: У меня у самого есть много что сказать по этому поводу, есть много интересных фактов, статистики и предположений. Просто я не хочу раздувать и так большое вводное сообщение. Хотелось бы услышать мнения, которые я буду комментировать.

S
На сайте с 09.11.2018
Offline
34
#1

слишком много текста

bruder
На сайте с 03.02.2015
Offline
199
#2

Отсутствие всех буковок в индексе означает, что ПС не целиком индексируют страницы. Их понять можно, на все ГС дисков не хватит.

А вот по какому принципу они работают, можно лишь гадать. Чисто логически, чем выше вес и ПФ, тем больше готовы проиндексировать.

IRIP
На сайте с 22.06.2010
Offline
125
#3

Тоже обращал внимание на то, как поисковик видит текст

пришел к выводу -

что на странице создается "ядро" по наиболее часто встречающимся словам

и это ядро записывается в базу поисковика (и там хранится)

поисковик не хранит весь текст в своей базе, а только ядро

P
На сайте с 26.10.2018
Offline
31
poc
#4

У меня есть сайт только с главной страницей, полным отсутсвием текста, только h1 и 3 h2 заголовка, дескр + тайтл + немного картинок.

и в гугле он порой не дурно ранжируется по НЧ и СЧ, под что и создавался.

и нужен ли контент вообще тогда

D
На сайте с 28.06.2008
Offline
1101
#5

Лично я вот что заметил в этом году - раньше по куску текста я находил свои сайте в ТОП 10 (даже если текст растаскивали).

Сейчас же я нахожу страницу только если она... как бы сказать ... прокачена, генерирует трафик.

Такое впечатление что реально стали экономить на дисках под индекс сети.

P
На сайте с 27.10.2014
Offline
221
#6

IRIP, предположение скорее верное чем нет, так как если не ваша страница выводится на 1-м месте, то там чужая страница на которй выделяется именно набор слов, что лишний раз доказывает, что ПС предложение прочитать не может.

Dram, да, в том и дело, что даже когда растаскивали, оригинал все равно был первым.

poc, согласен, контент -- это не всегда текс. Например, конвертер валют или поиск по билетам или формы там еще какие могут ранжироваться лучше чем текс.

Понятно что Google точно читает:

1) Title

2) Desc

2) H1, H2...H6

Но вот, например как он относится к тегу <p>? Вопрос может показаться наивным, но он более чем черьезен.

Google абсолютно точно анализирует текст частями и, если быть еще точнее, он не видит целостной картины. Этим и объясняется его проблема в поиске первоисточника. Ну не может он его найти и всё тут.

Он видит как бы диаграму с ключевыми словами, но никак не документ. Вот тут и встаёт вопрос, почему на некоторых сайтах он видит эту "схему" лучше.

Причем создатели этих сайтов специально ничего не делают. Я, к прмеру, видел несколько очень удачных тем для WP. Я лично его не использую, но некотрый G просто обожает (при том, что они не зявлены как SEO Friendly).

---------- Добавлено 02.11.2019 в 21:49 ----------

Но еще интереснее становится, если посмотреть только текстовую версию кэша. Вот тут прям бросается в глаза разрыв шаблонов. Заведомо проиграшная страница, на которой основной контент практически отсутсвует может выигрывать большой статье, не имея при этом вообще обртаных ссылок!

---------- Добавлено 02.11.2019 в 21:51 ----------

Лично я вижу это так: G как и другие поисковики не видит как мы страницу отдельно от сайта, он анализирует её релевантность с привязкой ко всему сайту. Человек не робот, он видит только контент страници. Для ПС релевантен сам сайт, а страница лишь максимально подходящий набор ключевых слов на релевантном сайте...

Alpatorix
На сайте с 05.11.2019
Offline
5
#7
poc:
У меня есть сайт только с главной страницей, полным отсутсвием текста, только h1 и 3 h2 заголовка, дескр + тайтл + немного картинок.

и в гугле он порой не дурно ранжируется по НЧ и СЧ, под что и создавался.
и нужен ли контент вообще тогда

Гугл часто эксперементирует, поэтому всё может быть.

Живу вопреки (https://www.youtube.com/@zhivu-vopreki) - мой канал на ютубе, в котором я рассказываю о разных городах и странах.
богоносец
На сайте с 30.01.2007
Offline
753
#8
Pliny:

Итак, за несколько лет работы с Google столкнулся с тем, что страницы делятся на 2 типа:

1) Страницы, которые всегда на 1-3 месте по куску текста со страницы
2) Страницы, которые на 50-70х местах по поиску того же куска текста
3) Мы не будем рассматривать запрос в ковычках, так как он говорит лишь о том, что этот текст присутствует на странице, но ничего не говорит о релевантности

Ну и не задавайтесь тогда вопросом «как парсит», если сразу отказыветесь рассматривать...


либо я нахожу свои страницы на последних местах (в ТОП100) по куску текста, при том, что сами страницы стоят в ТОП10, либо я могу найти только какой-то один абзац и не более...

Отсюда жирный вопрос -- Что же все же видит и оценивает поисковик? Почему совершенно эксклюзивный текст не находится по куску этого же текста?

А нормальные пользователи таких запросов не делают.

У Гугла нет никаких проблем из-за проблем сеошников.

Оставьте тут несколько сцылок на поиск текста этой темы... как вы это делаете?

Ваши посты гуглятся даже в кавычках, даже из разных абзацев, если там редкое слово...

Это не вопрос о том как попасть в ТОП, а о том как, все же, в реальности ПС видит контент.

Если он банально не может найти кусок текста в тексте, то на что тогда могут вообще быть заточены принципы ранжирования?.

На бабло.

На “максимизацию метрик по всей странице выдачи”

https://roem.ru/03-12-2009/124756/ex-mailru-smenit-yandeks-na-google/#comment-54649

органики не бывает отдельно от ... рекламы.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий