Утечка тысяч документов Google Search API

123 4
M
На сайте с 17.06.2021
Offline
69
1571

почему то не обсуждают тут эту тему совсем, собственно всю инфу заливаю сюда, что нашел в тележке

Аноним связался с Рэндом Фишкиным (https://sparktoro.com/blog/an-anonymous-source-shared-thousands-of-leaked-google-search-api-documents-with-me-everyone-in-seo-should-see-them/) и поделился тысячами документов Google Search API.

Некоторые из утверждений совпадают с информацией, раскрытой в ходе антимонопольного дела, многие из них являются новыми и предполагают инсайдерские знания.

Утечка содержит более 2500 страниц документации API, 14 014 атрибутов (функций API), которые, по всей видимости, взяты из внутреннего «Хранилища API контента» Google. Судя по истории коммитов документа, этот код был загружен на GitHub 27 марта 2024 года и удален только 7 мая 2024 года.
Эта документация не показывает такие вещи, как вес отдельных элементов в алгоритмах ранжирования, а также не доказывает, какие элементы используются в системах ранжирования. Но он показывает невероятные подробности о данных, которые собирает Google.
Рэнд связался с Майком Кингом и он также выпустил свой обзор:

https://ipullrank.com/google-algo-leak

Что мы узнали из утечки документации Google Поиска?

Тезисы из поста (https://ipullrank.com/google-algo-leak) Майка Кинга.

Сами документы тут (https://hexdocs.pm/google_api_content_warehouse/api-reference.html).

— системы Google работают в монолитном репозитории («монорепо»), а машины работают в общей среде - это означает, что весь код хранится в одном месте и любая машина в сети может быть частью любой системы Google

— публичные заявления Google, вероятно, не являются намеренной попыткой лгать, а скорее обманывают потенциальных спамеров (а также многих «белых» SEO-специалистов), чтобы сбить с толку о том, как оказать влияние на результаты поиска

— существует функция под названием siteAuthority - авторитетность домена, она используется в системе ранжирования Q*

— в Navboost есть специальный модуль, полностью ориентированный на сигналы о кликах:

badClicks - плохие клики

goodClicks - хорошие клики 

lastLongestClicks - последние длинные клики

unsquashedClicks - несжатые клики

unsquashedImpressions - несжатые показы

unsquashedlastLongestClicks - несжатые последние длинные клики

«Сжатие — это функция, которая предотвращает доминирование одного большого сигнала над другими».

Другими словами, это нормализация данных.

— песочница: в документации модуля PerDocData указан атрибут hostAge, который используется специально «для изолирования свежего спама»

— Navboost упоминается 84 раза, в т.ч. в названии 5 модулей

— Google не упоминает CTR или время пребывания (dwell time) именно в такой формулировке, но явно используются клики по результатам поиска и показатели успешного визита из поиска 

— один из модулей, связанных с показателями качества страниц, получает просмотры из браузера Chrome

— Google явно сохраняет авторов, связанных с документом, в виде текста; они также пытаются определить, является ли объект на странице ее автором

— cуществует целый ряд показателей выявления всплесков спама в анкор-листе (AnchorSpamDays)

— Google использует 20 последних изменений документа при анализе ссылок

— оценка ссылки производится исходя из степени доверия к главной странице (homePageInfo)

— усечение документов: Google подсчитывает количество токенов и отношение общего количества слов в тексте к количеству уникальных токенов (numTokens)

— происходит оценка оригинальности короткого контента (OriginalContentScore)

— происходит оценка соответствия title запросу (titleMatchScore)

— даты важны: Google несколько раз пытается получить даты со страницы (bylineDate, SyntacticDate, semanticDate)

— используется информация из whois домена (RegistrationInfo)

— если более 50% страниц сайта содержит видео, к нему относятся по-другому (isVideoFocusedSite)

— у Google есть классификаторы, которые генерируют оценки для YMYL Health и YMYL News (ymylNewsScore)

— существуют документы золотого стандарта: в описании упоминаются «документы, размеченные человеком» (golden)

— есть фактор, определяющий, насколько сайт придерживается одной темы (SiteFocusScore)

— есть специальный флаг, который указывает, что сайт является «небольшим персональным сайтом» (smallPersonalSite).


An Anonymous Source Shared Thousands of Leaked Google Search API Documents with Me; Everyone in SEO Should See Them
An Anonymous Source Shared Thousands of Leaked Google Search API Documents with Me; Everyone in SEO Should See Them
  • 2024.05.28
  • Rand Fishkin
  • sparktoro.com
On Sunday, May 5th, I received an email from a person claiming to have access to a massive leak of API documentation from inside Google’s Search division. The email further claimed that these leaked documents were confirmed as authentic by ex-Google employees, and that those ex-employees and others had shared additional, private information...
Bybit крипто биржа https://partner.bybit.com/b/58507 /// Зарубежные VPS с оплатой РФ картами https://aeza.net/?ref=416422 (+15% к пополнению) //// Обучаем нейронки на сайте https://f4ck41.fun/
OZ
На сайте с 24.04.2018
Offline
64
#1

Ну меня удивило почему всех западных специалистов удивила информация о кликах. Известно было что Гугл анализирует удовлетворенность пользователей своей выдачей, как он это мог делать? Естественно анализировать клики, возвраты в выдачу, и прекращение поиска по данному запросу.

Про  siteAuthority а также про возраст домена и песочницу, все вебмастера были уверены, что это есть, а представители Гугла пытались в той или иной мере отрицать.

"один из модулей, связанных с показателями качества страниц, получает просмотры из браузера Chrome" да, но какие? Возможно это всего лишь Core Web Vitals ))) про которую Гугл твердит, а возможно и что то другое)))

Про всплески ссылок и AnchorSpamDays, помоему тоже все знали.

Про 20 последних изменений, ну тут все помнили, что лучше чтобы ссылка появлялась сразу вместе со страницей, в остальном, ни о чем информация, что для вас бы изменилось еслибы было не 20, а 15 или 10

"оценка ссылки производится исходя из степени доверия к главной странице (homePageInfo)" тут скорее правильно было бы сказать, одним из многих факторов, является степень доверия к главной, но он один из многих.

Я пока что чего то сенсационного вообще не нашел, ну точнее самое сенсационное там что это слили, у Гугла утечка.

МА
На сайте с 02.11.2018
Offline
169
#2
И песочница есть, и кликовые ПФ, и траст домена учитывается, и Хром для поиска тянет нужную инфу... и Мюллер - старый лгунишка.
Nokia x71 (https://x71.ru/) - хороший смартфон, и отзывы интересные
V
На сайте с 17.11.2010
Offline
233
#3

Вот это новость, гугл оказываеться, врал.. Вот это да. Вот вам еще новость - Деда Мороза нет. (Хотя и это не достоверно, ибо то что родители подкладывают сами подарки под елки, не доказывает сам факт его отсутствия.)

P.S. Аксиома - чем больше компания, тем больше у неё вранье. Иначе бы компания не стала - больше.

Artisan
На сайте с 04.03.2005
Online
357
#4
OS_ZP_UA #:
представители Гугла пытались в той или иной мере отрицать.

Многое было понятно из внимательного чтения этих отрицаний.

www.leak.info / ДАРОМ линки конкурентов и забытых доменов
Vladimir SEO
На сайте с 19.10.2011
Offline
1741
#5

И мало того - надо не забывать что для буржа и для снг нета - это разные факторы ранжа)так  что нужно делить инфу

Эксперт по продуктам Google https://support.google.com/profile/58734375 ᐈ Продвижение коммерческих сайтов https://kulinenko.com/
OZ
На сайте с 24.04.2018
Offline
64
#6
Vladimir SEO #:

И мало того - надо не забывать что для буржа и для снг нета - это разные факторы ранжа)так  что нужно делить инфу

Разные факторы, или по разному учитываются одинаковые факторы, учитывая традиционную спамность всего рунета?

Vladimir SEO
На сайте с 19.10.2011
Offline
1741
#7
OS_ZP_UA #:

Разные факторы, или по разному учитываются одинаковые факторы, учитывая традиционную спамность всего рунета?

Вообще по разному гугл работает, снг проще в плане фильтров санкций сложности продвижения итд. Разные наборы факторов, они по разному учитываются И так далее 

Антоний Казанский
На сайте с 12.04.2007
Offline
631
#8

Коллеги ещё информируют о подтверждении (таки 😎) Page Rank-а, влияния околоссылочного окружения и даже размерности шрифта ссылки. 

Есть также вычисление вероятной ценности ссылки на странице и поэтому учитывается тот самый кликовый фактор в контексте страницы (данные передаются через Chrome браузер).

Учитывается широта бренда, как кол-во цитирований бренда (причём без ссылок).

p.s. При этом Гугл классифицирует это не как факторы, а как функции, степень влияния которых остаётся за рамками слитого документа.

√ SEO продвижение https://akazansky.ru - экспертный аудит сайтов ( https://akazansky.ru/audit-sajtov ), внедрение эффективных решений цифрового маркетинга. Обучение автоматизации с помощью Zennoposter https://goo-gl.me/6Zypu
Vladimir SEO
На сайте с 19.10.2011
Offline
1741
#9
Антоний Казанский #:

Есть также вычисление вероятной ценности ссылки на странице и поэтому учитывается тот самый кликовый фактор в контексте страницы (данные передаются через Chrome браузер).

Учитывается широта бренда, как кол-во цитирований бренда (причём без ссылок).

ага и это только в бурже работает
юни
На сайте с 01.11.2005
Offline
903
#10
Антоний Казанский #:
Гугл классифицирует это не как факторы, а как функции

Видимо, что бы все запутались.

Почему-то вспомнилось, что папки раньше назывались директориями.

https://a-parser.com/ - парсер для профессионалов SEO, маркетологов, арбитражников и SaaS, https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий