Google опубликовал новый выпуск подкаста Search Off the Record. В этот раз к неизменным участникам Мартину Сплитту, Джону Мюллеру и Гэри Илшу также присоединилась технический писатель Google Лизи Харви.
В новом выпуске Гэри Илш подробно рассказал о том, как Google определяет дублированный контент и проводит каноникализацию.
Если кратко, то Google создает контрольную сумму (checksum) для каждой страницы. По сути, это похоже на уникальный отпечаток документа, который основан на словах на странице. Таким образом, если есть две страницы с одинаковой контрольной суммой, то Google расценивает их как дубликаты.
Контрольная сумма – это значение, полученное из блока цифровых данных с целью обнаружения ошибок, которые могли быть внесены во время их передачи или хранения. Сами по себе контрольные суммы часто используются для проверки целостности данных.
Илш также объяснил, что выявление дубликатов и каноникализация являются разными процессами.
«Сначала вы должны определить дубли, сгруппировать их вместе, заявив, что все эти страницы являются дубликатами друг друга, а затем найти главную страницу для всех из них... Это каноникализация».
Как Google определяет дубли
«Мы сокращаем контент до контрольной суммы. И мы делаем это, потому что не хотим сканировать весь текст, поскольку это просто не имеет смысла. Это требует больше ресурсов, а результат будет примерно таким же. Поэтому мы вычисляем несколько видов контрольных сумм для текстового содержимого страницы, а затем сравниваем эти контрольные суммы».
Для расчёта контрольной суммы используется «центральный элемент страницы» – её основное содержимое (за вычетом колонтитулов и боковых панелей).
После того, как будут рассчитаны контрольные суммы и создан кластер дубликатов, Google должен будет выбрать один документ, который он будет показывать в результатах поиска.
С помощью этого подхода Google определяет не только полные дубликаты, но и частичные.
Для чего Google это делает
Пользователи не любят, когда похожий контент появляется в результатах поиска. Кроме того, свободное пространство в поисковом индексе не бесконечно. К тому же, зачем хранить дубликаты, если они не нравятся пользователям.
Как Google выбирает каноническую страницу
После определения дубликатов Google переходит к каноникализации – выбору главной страницы в кластере.
Понять, какая страница должна быть канонической – это непростая задача. Существуют ситуации, когда даже люди не могут сказать, какая страница должна показываться в результатах поиска.
При выборе канонической страницы Google использует более 20 сигналов. В их числе – контент, Page Rank, атрибут rel=canonical, переадресация, наличие HTTPS и другие.
Google не присваивает вес этим сигналам вручную. Для этого используется машинное обучение.
Илш также рассказал, что вручную очень тяжело найти правильный вес для каждого сигнала. Когда вес одного сигнала уменьшается, то некоторые другие стают более значимыми. При этом проконтролировать, какие именно, сложно, поскольку их больше 20.
Инженер начинает настраивать другой сигнал, что приводит к перекосам в ещё одном сигнале. И это бесконечная история. Между тем использование машинного обучения позволяет упростить эту задачу.
Илш также отметил, что каноникализация не имеет отношения к ранжированию. Т.е., выбранная страница будет ранжироваться, но на основании других сигналов, а не тех, что учитывались при каноникализации.
Что касается Лиззи Харви, которая присоединилась к этому выпуску, то она рассказала подробнее о создании справочной документации по поиску.
Прослушать подкаст можно по ссылке.
Напомним, что в предыдущем выпуске Search Off the Record сотрудники Google говорили о рендеринге, извлечении сигналов, PageRank и майнинге биткоина.