Утечка тысяч документов Google Search API

79

makepuff

28 мая 2024, 17:00

3942

почему то не обсуждают тут эту тему совсем, собственно всю инфу заливаю сюда, что нашел в тележке

Аноним связался с Рэндом Фишкиным (https://sparktoro.com/blog/an-anonymous-source-shared-thousands-of-leaked-google-search-api-documents-with-me-everyone-in-seo-should-see-them/) и поделился тысячами документов Google Search API.

Некоторые из утверждений совпадают с информацией, раскрытой в ходе антимонопольного дела, многие из них являются новыми и предполагают инсайдерские знания.

Утечка содержит более 2500 страниц документации API, 14 014 атрибутов (функций API), которые, по всей видимости, взяты из внутреннего «Хранилища API контента» Google. Судя по истории коммитов документа, этот код был загружен на GitHub 27 марта 2024 года и удален только 7 мая 2024 года.
Эта документация не показывает такие вещи, как вес отдельных элементов в алгоритмах ранжирования, а также не доказывает, какие элементы используются в системах ранжирования. Но он показывает невероятные подробности о данных, которые собирает Google.
Рэнд связался с Майком Кингом и он также выпустил свой обзор:

https://ipullrank.com/google-algo-leak

Что мы узнали из утечки документации Google Поиска?

Тезисы из поста (https://ipullrank.com/google-algo-leak) Майка Кинга.

Сами документы тут (https://hexdocs.pm/google_api_content_warehouse/api-reference.html).

— системы Google работают в монолитном репозитории («монорепо»), а машины работают в общей среде - это означает, что весь код хранится в одном месте и любая машина в сети может быть частью любой системы Google

— публичные заявления Google, вероятно, не являются намеренной попыткой лгать, а скорее обманывают потенциальных спамеров (а также многих «белых» SEO-специалистов), чтобы сбить с толку о том, как оказать влияние на результаты поиска

— существует функция под названием siteAuthority - авторитетность домена, она используется в системе ранжирования Q*

— в Navboost есть специальный модуль, полностью ориентированный на сигналы о кликах:

badClicks - плохие клики

goodClicks - хорошие клики

lastLongestClicks - последние длинные клики

unsquashedClicks - несжатые клики

unsquashedImpressions - несжатые показы

unsquashedlastLongestClicks - несжатые последние длинные клики

«Сжатие — это функция, которая предотвращает доминирование одного большого сигнала над другими».

Другими словами, это нормализация данных.

— песочница: в документации модуля PerDocData указан атрибут hostAge, который используется специально «для изолирования свежего спама»

— Navboost упоминается 84 раза, в т.ч. в названии 5 модулей

— Google не упоминает CTR или время пребывания (dwell time) именно в такой формулировке, но явно используются клики по результатам поиска и показатели успешного визита из поиска

— один из модулей, связанных с показателями качества страниц, получает просмотры из браузера Chrome

— Google явно сохраняет авторов, связанных с документом, в виде текста; они также пытаются определить, является ли объект на странице ее автором

— cуществует целый ряд показателей выявления всплесков спама в анкор-листе (AnchorSpamDays)

— Google использует 20 последних изменений документа при анализе ссылок

— оценка ссылки производится исходя из степени доверия к главной странице (homePageInfo)

— усечение документов: Google подсчитывает количество токенов и отношение общего количества слов в тексте к количеству уникальных токенов (numTokens)

— происходит оценка оригинальности короткого контента (OriginalContentScore)

— происходит оценка соответствия title запросу (titleMatchScore)

— даты важны: Google несколько раз пытается получить даты со страницы (bylineDate, SyntacticDate, semanticDate)

— используется информация из whois домена (RegistrationInfo)

— если более 50% страниц сайта содержит видео, к нему относятся по-другому (isVideoFocusedSite)

— у Google есть классификаторы, которые генерируют оценки для YMYL Health и YMYL News (ymylNewsScore)

— существуют документы золотого стандарта: в описании упоминаются «документы, размеченные человеком» (golden)

— есть фактор, определяющий, насколько сайт придерживается одной темы (SiteFocusScore)

— есть специальный флаг, который указывает, что сайт является «небольшим персональным сайтом» (smallPersonalSite).

An Anonymous Source Shared Thousands of Leaked Google Search API Documents with Me; Everyone in SEO Should See Them

2024.05.28
Rand Fishkin
sparktoro.com

On Sunday, May 5th, I received an email from a person claiming to have access to a massive leak of API documentation from inside Google’s Search division. The email further claimed that these leaked documents were confirmed as authentic by ex-Google employees, and that those ex-employees and others had shared additional, private information...

Bybit крипто биржа https://partner.bybit.com/b/58507 /// Зарубежные VPS с оплатой РФ картами https://aeza.net/?ref=416422 (+15% к пополнению) //// Обучаем нейронки на сайте https://f4ck41.fun/

11

98

OS_ZP_UA

28 мая 2024, 18:01

#1

Ну меня удивило почему всех западных специалистов удивила информация о кликах. Известно было что Гугл анализирует удовлетворенность пользователей своей выдачей, как он это мог делать? Естественно анализировать клики, возвраты в выдачу, и прекращение поиска по данному запросу.

Про siteAuthority а также про возраст домена и песочницу, все вебмастера были уверены, что это есть, а представители Гугла пытались в той или иной мере отрицать.

"один из модулей, связанных с показателями качества страниц, получает просмотры из браузера Chrome" да, но какие? Возможно это всего лишь Core Web Vitals ))) про которую Гугл твердит, а возможно и что то другое)))

Про всплески ссылок и AnchorSpamDays, помоему тоже все знали.

Про 20 последних изменений, ну тут все помнили, что лучше чтобы ссылка появлялась сразу вместе со страницей, в остальном, ни о чем информация, что для вас бы изменилось еслибы было не 20, а 15 или 10

"оценка ссылки производится исходя из степени доверия к главной странице (homePageInfo)" тут скорее правильно было бы сказать, одним из многих факторов, является степень доверия к главной, но он один из многих.

Я пока что чего то сенсационного вообще не нашел, ну точнее самое сенсационное там что это слили, у Гугла утечка.

Методы оптимизации под новый Google: при переадресации URL В каких случаях сылочный

МА

197

Махмуд Аббас

29 мая 2024, 05:06

#2

И песочница есть, и кликовые ПФ, и траст домена учитывается, и Хром для поиска тянет нужную инфу... и Мюллер - старый лгунишка.

Nokia x71 (https://x71.ru/) - хороший смартфон, и отзывы интересные

V

289

Vladimirus

29 мая 2024, 06:58

#3

Вот это новость, гугл оказываеться, врал.. Вот это да. Вот вам еще новость - Деда Мороза нет. (Хотя и это не достоверно, ибо то что родители подкладывают сами подарки под елки, не доказывает сам факт его отсутствия.)

P.S. Аксиома - чем больше компания, тем больше у неё вранье. Иначе бы компания не стала - больше.

3

Цинизм человеколюбия [НГ] А вы обманываете Отчеты о новогодней вечеринке

390

Artisan

29 мая 2024, 08:20

#4

OS_ZP_UA #:
представители Гугла пытались в той или иной мере отрицать.

Многое было понятно из внимательного чтения этих отрицаний.

█ www.leak.info / изучайте даром входящие указатели конкурентов и забытых доменов. █ Есть хороший способ подработки для умных людей, обучение даром, вопросы в личку.

2151

Vladimir SEO

29 мая 2024, 08:31

#5

И мало того - надо не забывать что для буржа и для снг нета - это разные факторы ранжа)так что нужно делить инфу

98

OS_ZP_UA

29 мая 2024, 09:55

#6

Vladimir SEO #:

И мало того - надо не забывать что для буржа и для снг нета - это разные факторы ранжа)так что нужно делить инфу

Разные факторы, или по разному учитываются одинаковые факторы, учитывая традиционную спамность всего рунета?

2151

Vladimir SEO

29 мая 2024, 10:25

#7

OS_ZP_UA #:

Разные факторы, или по разному учитываются одинаковые факторы, учитывая традиционную спамность всего рунета?

Вообще по разному гугл работает, снг проще в плане фильтров санкций сложности продвижения итд. Разные наборы факторов, они по разному учитываются И так далее

1

825

Антоний Казанский

30 мая 2024, 09:28

#8

Коллеги ещё информируют о подтверждении (таки 😎) Page Rank-а, влияния околоссылочного окружения и даже размерности шрифта ссылки.

Есть также вычисление вероятной ценности ссылки на странице и поэтому учитывается тот самый кликовый фактор в контексте страницы (данные передаются через Chrome браузер).

Учитывается широта бренда, как кол-во цитирований бренда (причём без ссылок).

p.s. При этом Гугл классифицирует это не как факторы, а как функции, степень влияния которых остаётся за рамками слитого документа.

4

√ SEO продвижение ► https://akazansky.ru - экспертный аудит сайтов, внедрение эффективных решений цифрового маркетинга. ► Продвижение бизнес сайтов по доступной цене (от 15 тыс. / месяц), сопровождение -> 1200 рублей / час.

Достал уже отрицательный вес Влияние follow и nofollow Учитывать ли количество внутренних

2151

Vladimir SEO

30 мая 2024, 11:35

#9

Антоний Казанский #:

Есть также вычисление вероятной ценности ссылки на странице и поэтому учитывается тот самый кликовый фактор в контексте страницы (данные передаются через Chrome браузер).

Учитывается широта бренда, как кол-во цитирований бренда (причём без ссылок).

ага и это только в бурже работает

950

юни

30 мая 2024, 18:08

#10

Антоний Казанский #:
Гугл классифицирует это не как факторы, а как функции

Видимо, что бы все запутались.

Почему-то вспомнилось, что папки раньше назывались директориями.

https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит. Пишите в личку.

Все что нужно знать о DDоS-атаках грамотному менеджеру

VK приобрела 70% в структуре компании-разработчика red_mad_robot