Яндекс внедряет новую нейросетевую архитектуру для ранжирования веб-страниц


Сегодня на YaC 2020 Яндекс рассказал о внедрении трансформера — новой нейросетевой архитектуры для ранжирования веб-страниц. Благодаря ей поиск Яндекса научился гораздо лучше оценивать смысловую связь между запросами пользователей и содержанием документов в интернете — настолько лучше, что по мнению специалистов Яндекса, это наиболее значимое событие для поиска за последние 10 лет (со времен запуска Матрикснета). 

По их словам, Палех и Королёв вместе повлияли на поиск меньше, чем новая модель на трансформерах. Более того, в поиске рассчитываются тысячи факторов, но если выключить их все и оставить только новую модель, то качество ранжирования по основной офлайн-метрике упадёт лишь на 4-5%.

Новая технология анализа текстов называется YATI. В ней задействованы нейронные сети нового поколения — трансформеры. Это общее название популярной нейросетевой архитектуры, которая лежит в основе современных подходов к анализу текста. Яндекс разработал собственную реализацию трансформеров, поэтому YATI расшифровывается как Yet Another Transformer with Improvements — «Ещё один трансформер с улучшениями».

«Хотя архитектура нейросетей-трансформеров известна уже достаточно давно, а их использование для задач NLP приобрело огромную популярность после появления BERT в 2018 году, внедрение трансформера в современную поисковую систему невозможно без инженерной изобретательности и большого числа оригинальных технологических улучшений в обучении и рантайме. Поэтому мы назвали нашу технологию YATIYet Another Transformer (with Improvements), что, как нам кажется, хорошо отражает её суть. Это действительно «ещё один трансформер», архитектурно похожий на другие модели, но уникальный тем, что благодаря совокупности улучшений он способен работать и приносить пользу в поиске — самом сложном сервисе Яндекса», - сообщили в компании.

В Поиске YATI сопоставляет смысл запросов и веб-документов. Она умеет работать не только с короткими, такими как запросы или заголовки статей, но и с длинными текстами. У нее есть «механизм внимания», который позволяет выделять в тексте самые значимые фрагменты. Наконец, она обращает внимание на порядок слов и учитывает контекст — то, как слова влияют друг на друга, ведь во многих случаях порядок слов определяет смысл всей фразы (например, при поиске билетов из одной точки в другую).

Подробнее о трансформерах в поиске и о том, как Яндекс применил тяжёлые нейросети для поиска по смыслу, можно прочитать здесь

Ранее стало известно, что Яндекс запустил новый сервис для предпринимателей Яндекс.Бизнес, начал тестирование доставки по требованию в приложении Яндекс Go, и реализовал возможность заказа еды в машину в Яндекс.Заправках, Яндекс.Навигаторе и Яндекс.Картах.

preview Google убрал автосгенерированные Web Stories из результатов поиска

Google убрал автосгенерированные Web Stories из результатов поиска

Они создавались поисковой системой с использованием ИИ
preview Google поделился советами по созданию эффективных Web Stories

Google поделился советами по созданию эффективных Web Stories

С высокими показателями вовлечённости
preview AMP Packager стал доступен на Google Cloud Marketplace

AMP Packager стал доступен на Google Cloud Marketplace

Теперь издателям будет проще его использовать
preview Google тестирует избранные сниппеты со ссылками на другие сайты

Google тестирует избранные сниппеты со ссылками на другие сайты

И использует в качестве основного источника Web Stories
preview Google начал показывать, как давно компании находятся на рынке

Google начал показывать, как давно компании находятся на рынке

В блоке локальной выдачи
preview Google: заставить Googlebot сканировать сайт по HTTP/2 нельзя

Google: заставить Googlebot сканировать сайт по HTTP/2 нельзя

Пока эта опция используется только на отдельных сайтах