Google представил нейросеть Imagen, которая способна генерировать изображения на основе текстового описания. Например, по описанию «собака смотрится в зеркало и видит кошку» нейросеть создала вот такую картинку:
А описание «пара роботов ужинает на фоне Эйфелевой башни» было визуализировано вот так:
Для распознавания текстового запроса нейросеть использует большие языковые модели, на которых основаны алгоритмы обработки естественной речи.
Далее алгоритмы улучшают схематичную картинку размером 64×64 до тех пор, пока искусственный интеллект не поймет, что уже не может сделать ее лучше по заданным параметрам. После этого размер изображения увеличивается 256 х 256 пикселей.
В результате изображение уже в высоком качестве доходит до размера 1024×1024. Это происходит не путем масштабирования — каждый из трех этапов нейросеть улучшает детали на картинке.
Разработчики сравнили Imagen с аналогичной нейросетью DALL-E 2 от OpenAI. По данным Google, тестировщики при сравнении изображений от Imagen и DALL-E 2 чаще выбирали Imagen за более точную и достоверную работу.
Пока Imagen работает в режиме закрытой бета-версии и недоступна для всех желающих. Разработчики опасаются, что пользователи будут использовать нейросеть для генерации неприемлемых изображений, тем самым усугубляя принятые обществом предрассудки и стереотипы.
Отметим, за последние полгода Google представил много новинок в области визуального поиска и обработки изображений. В их числе интеграция инструмента Google Lens в мобильную и десктопную версию браузера Chrome, его добавление в поиск на десктопах и запуск мультипоиска – с одновременным использованием в запросе текста и изображения.