Google разработал новый алгоритм SMITH – более эффективный, чем BERT

Google недавно опубликовал научную статью о новом алгоритме под названием SMITH, который превосходит BERT в понимании длинных запросов и документов.

В частности, новая модель способна понимать фрагменты в документах так же, как BERT понимает слова и предложения, что позволяет лучше понимать более длинные документы.

Что такое SMITH

SMITH – это новая модель, которая пытается понять документы целиком. Что касается BERT, то его обучают понимать слова в контексте предложений.

Согласно очень упрощённому описанию, модель SMITH ориентирована на понимание фрагментов в контексте всего документа.

В то время как алгоритмы, подобные BERT, обучаются на наборах данных для предсказания случайным образом скрытых слов из контекста в предложениях, алгоритм SMITH обучают предсказывать следующий блок предложений.

По словам исследователей, такое обучение помогает новому алгоритму лучше понимать объёмные документы, чем алгоритм BERT.

Использует ли Google новый алгоритм

Google обычно не раскрывает, какие конкретные алгоритмы он использует. Хотя исследователи утверждают, что SMITH превосходит BERT, пока Google официально не заявит об использовании этого алгоритма, можно только предполагать, применяется ли он в работе поисковой системы или нет.

Результаты тестирования SMITH

«Модель СМИТ, которая имеет бо́льшую длину входного текста по сравнению с другими стандартными моделями, является лучшим выбором для изучения и сопоставления длинных представлений документов», - говорится в статье.

В итоге исследователи пришли к выводу, что алгоритм SMITH лучше подходит для анализа длинных документов.

Ознакомиться со статьёй можно по ссылке.

Источник: Search Engine Journal
preview Google внёс четыре изменения в отчёт об индексировании в Search Console

Google внёс четыре изменения в отчёт об индексировании в Search Console

Чтобы предоставлять более точную информацию
preview Google добавил более детальные статусы в отчёт об индексировании

Google добавил более детальные статусы в отчёт об индексировании

Об этом сообщается на странице Data Anomalies
preview Fiddlehead: сотрудник Google Ads посоветовал тратить больше на рекламу для улучшения SEO

Fiddlehead: сотрудник Google Ads посоветовал тратить больше на рекламу для улучшения SEO

В Google заверили, что это так не работает
preview Google запустил подкатегории в ранжировании

Google запустил подкатегории в ранжировании

Это позволяет предоставлять более разнообразные результаты по широким запросам
preview Google работает над улучшением инструмента проверки robots.txt

Google работает над улучшением инструмента проверки robots.txt

Который по-прежнему доступен только в старой версии Search Console
preview Пиратские сайты стали получать меньше трафика после обновлений основного алгоритма Google

Пиратские сайты стали получать меньше трафика после обновлений основного алгоритма Google

Об этом говорится в отчёте TorrentFreak и MUSO