Как конкретно Google сканирует текст на странице?

221

Pliny

2 ноября 2019, 12:24

828

Так как я конкретный контентщик, меня всегда интересовало то как ПС сканирует страницу, что конкретно робот видит, а что пропускает мимо.

Все мои исследования показали мне то, что есть всего 2 фактора ранжирования + 1 (мнимый, непостоянный, временный).

1) Соответсвие страницы запросу (релевантность)

2) Авторитетность страницы/домена (PR, DA, PA, TF, etc...)

Ну и тот мнимый фактор -- это ПФ... Да он может сработать, но только в ТОП10... На 75-м месте ПФ нет, но ведь ПС как-то ставит сайт на 75-е место.

Итого, у нас остаётся 2 фактора, 1 из которых мы отметаем. Авторитетность -- это ссылки и точка на этом.

-------------

Теперь вопрос:

Итак, за несколько лет работы с Google столкнулся с тем, что страницы делятся на 2 типа:

1) Страницы, которые всегда на 1-3 месте по куску текста со страницы

2) Страницы, которые на 50-70х местах по поиску того же куска текста

3) Мы не будем рассматривать запрос в ковычках, так как он говорит лишь о том, что этот текст присутствует на странице, но ничего не говорит о релевантности

К сожалению, мои проекты всегда, со временем, попадают во 2-ю категорию страниц. Я не могу найти свой абсолютно эксклюзивный текст по куску этого же текста без ковычек. Поначалу, всё хорошо, но после, либо я нахожу свои страницы на последних местах (в ТОП100) по куску текста, при том, что сами страницы стоят в ТОП10, либо я могу найти только какой-то один абзац и не более...

Отсюда жирный вопрос -- Что же все же видит и оценивает поисковик? Почему совершенно эксклюзивный текст не находится по куску этого же текста?

------------------

Я работаю в Google USA, потому не спец в Яндексе. Но, все мои сайты там проиндексированы. Ради интереса, я провёл тот же эксперимент и, с удивлением, обнаружил что некоторые страницы не находтся даже по куску текста в ковычках!

Я сам пишу текста. Я знаю что они экслюзивные. Но выходит что они совсем не релевантные!

Это не крик и не плач. Все страницы, о которых я говорю находятся в ТОП10. Это не вопрос о том как попасть в ТОП, а о том как, все же, в реальности ПС видит контент. Если он банально не может найти кусок текста в тексте, то на что тогда могут вообще быть заточены принципы ранжирования?

------------------

Проблема в том, что Google, Yahoo, Bing, Yandex, все ПС видят одни и те же страницы на первых местах. Так вот эти страницы всегда попадают в первую категорию.

В независимости от того какое качество контента на них, этот контент можно всегда найти по куску текста. Доходит до абсурда. Есть страницы, где вообще только 1 строчка контента, но эта строчка находится по эйтой же строчке во всех поисковиках, в то время как есть уникальные тексты по 1500 слов, где и одного абзаца не найти!

Хочу услышать мнения, предположения, да и вообще, любую информацию по этому поводу!

P.s.: Еще раз, это не крик ПАМАГИТЕ, вопрос не в ранжировании, а в сканировании и индексировании страниц!

---------- Добавлено 02.11.2019 в 16:30 ----------

P.P.S: У меня у самого есть много что сказать по этому поводу, есть много интересных фактов, статистики и предположений. Просто я не хочу раздувать и так большое вводное сообщение. Хотелось бы услышать мнения, которые я буду комментировать.

S

34

Saaa

2 ноября 2019, 12:37

#1

слишком много текста

199

bruder

2 ноября 2019, 16:03

#2

Отсутствие всех буковок в индексе означает, что ПС не целиком индексируют страницы. Их понять можно, на все ГС дисков не хватит.

А вот по какому принципу они работают, можно лишь гадать. Чисто логически, чем выше вес и ПФ, тем больше готовы проиндексировать.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

125

IRIP

2 ноября 2019, 16:59

#3

Тоже обращал внимание на то, как поисковик видит текст

пришел к выводу -

что на странице создается "ядро" по наиболее часто встречающимся словам

и это ядро записывается в базу поисковика (и там хранится)

поисковик не хранит весь текст в своей базе, а только ядро

2

P

31

poc

2 ноября 2019, 17:18

#4

У меня есть сайт только с главной страницей, полным отсутсвием текста, только h1 и 3 h2 заголовка, дескр + тайтл + немного картинок.

и в гугле он порой не дурно ранжируется по НЧ и СЧ, под что и создавался.

и нужен ли контент вообще тогда

1

Яндекс ставит дескр. вместо Продвижение большого количества НЧ Видео находится за пределами

D

1101

Dram

2 ноября 2019, 17:20

#5

Лично я вот что заметил в этом году - раньше по куску текста я находил свои сайте в ТОП 10 (даже если текст растаскивали).

Сейчас же я нахожу страницу только если она... как бы сказать ... прокачена, генерирует трафик.

Такое впечатление что реально стали экономить на дисках под индекс сети.

2

Яндекс кобласит Влияние текста на картинке Упал доход

P

221

Pliny

2 ноября 2019, 17:46

#6

IRIP, предположение скорее верное чем нет, так как если не ваша страница выводится на 1-м месте, то там чужая страница на которй выделяется именно набор слов, что лишний раз доказывает, что ПС предложение прочитать не может.

Dram, да, в том и дело, что даже когда растаскивали, оригинал все равно был первым.

poc, согласен, контент -- это не всегда текс. Например, конвертер валют или поиск по билетам или формы там еще какие могут ранжироваться лучше чем текс.

Понятно что Google точно читает:

1) Title

2) Desc

2) H1, H2...H6

Но вот, например как он относится к тегу <p>? Вопрос может показаться наивным, но он более чем черьезен.

Google абсолютно точно анализирует текст частями и, если быть еще точнее, он не видит целостной картины. Этим и объясняется его проблема в поиске первоисточника. Ну не может он его найти и всё тут.

Он видит как бы диаграму с ключевыми словами, но никак не документ. Вот тут и встаёт вопрос, почему на некоторых сайтах он видит эту "схему" лучше.

Причем создатели этих сайтов специально ничего не делают. Я, к прмеру, видел несколько очень удачных тем для WP. Я лично его не использую, но некотрый G просто обожает (при том, что они не зявлены как SEO Friendly).

---------- Добавлено 02.11.2019 в 21:49 ----------

Но еще интереснее становится, если посмотреть только текстовую версию кэша. Вот тут прям бросается в глаза разрыв шаблонов. Заведомо проиграшная страница, на которой основной контент практически отсутсвует может выигрывать большой статье, не имея при этом вообще обртаных ссылок!

---------- Добавлено 02.11.2019 в 21:51 ----------

Лично я вижу это так: G как и другие поисковики не видит как мы страницу отдельно от сайта, он анализирует её релевантность с привязкой ко всему сайту. Человек не робот, он видит только контент страници. Для ПС релевантен сам сайт, а страница лишь максимально подходящий набор ключевых слов на релевантном сайте...

2

5

Alpatorix

5 ноября 2019, 23:11

#7

poc:
У меня есть сайт только с главной страницей, полным отсутсвием текста, только h1 и 3 h2 заголовка, дескр + тайтл + немного картинок.

и в гугле он порой не дурно ранжируется по НЧ и СЧ, под что и создавался.
и нужен ли контент вообще тогда

Гугл часто эксперементирует, поэтому всё может быть.

Живу вопреки (https://www.youtube.com/@zhivu-vopreki) - мой канал на ютубе, в котором я рассказываю о разных городах и странах.

753

богоносец

6 ноября 2019, 13:14

#8

Pliny:

Итак, за несколько лет работы с Google столкнулся с тем, что страницы делятся на 2 типа:

1) Страницы, которые всегда на 1-3 месте по куску текста со страницы
2) Страницы, которые на 50-70х местах по поиску того же куска текста
3) Мы не будем рассматривать запрос в ковычках, так как он говорит лишь о том, что этот текст присутствует на странице, но ничего не говорит о релевантности

Ну и не задавайтесь тогда вопросом «как парсит», если сразу отказыветесь рассматривать...

либо я нахожу свои страницы на последних местах (в ТОП100) по куску текста, при том, что сами страницы стоят в ТОП10, либо я могу найти только какой-то один абзац и не более...

Отсюда жирный вопрос -- Что же все же видит и оценивает поисковик? Почему совершенно эксклюзивный текст не находится по куску этого же текста?

А нормальные пользователи таких запросов не делают.

У Гугла нет никаких проблем из-за проблем сеошников.

Оставьте тут несколько сцылок на поиск текста этой темы... как вы это делаете?

Ваши посты гуглятся даже в кавычках, даже из разных абзацев, если там редкое слово...

Это не вопрос о том как попасть в ТОП, а о том как, все же, в реальности ПС видит контент.

Если он банально не может найти кусок текста в тексте, то на что тогда могут вообще быть заточены принципы ранжирования?.

На бабло.

На “максимизацию метрик по всей странице выдачи”

https://roem.ru/03-12-2009/124756/ex-mailru-smenit-yandeks-na-google/#comment-54649

органики не бывает отдельно от ... рекламы.

1

Open AI тестирует память для ChatGPT

Что делать, если ваша email-рассылка попала в спам