Google представил нейросеть, генерирующую изображения по текстовым описаниям

Google представил нейросеть Imagen, которая способна генерировать изображения на основе текстового описания. Например, по описанию «собака смотрится в зеркало и видит кошку» нейросеть создала вот такую картинку:


А описание «пара роботов ужинает на фоне Эйфелевой башни» было визуализировано вот так:


Для распознавания текстового запроса нейросеть использует большие языковые модели, на которых основаны алгоритмы обработки естественной речи.

Далее алгоритмы улучшают схематичную картинку размером 64×64 до тех пор, пока искусственный интеллект не поймет, что уже не может сделать ее лучше по заданным параметрам. После этого размер изображения увеличивается 256 х 256 пикселей.

В результате изображение уже в высоком качестве доходит до размера 1024×1024. Это происходит не путем масштабирования — каждый из трех этапов нейросеть улучшает детали на картинке.


Разработчики сравнили Imagen с аналогичной нейросетью DALL-E 2 от OpenAI. По данным Google, тестировщики при сравнении изображений от Imagen и DALL-E 2 чаще выбирали Imagen за более точную и достоверную работу.

Пока Imagen работает в режиме закрытой бета-версии и недоступна для всех желающих. Разработчики опасаются, что пользователи будут использовать нейросеть для генерации неприемлемых изображений, тем самым усугубляя принятые обществом предрассудки и стереотипы.

Отметим, за последние полгода Google представил много новинок в области визуального поиска и обработки изображений. В их числе интеграция инструмента Google Lens в мобильную и десктопную версию браузера Chrome, его добавление в поиск на десктопах и запуск мультипоиска – с одновременным использованием в запросе текста и изображения. 

Источник: kod.ru
preview Google отключает в России часть ускоряющих загрузку серверов

Google отключает в России часть ускоряющих загрузку серверов

Это может снизить стабильность работы каналов
preview Браузер DuckDuckGo не блокирует рекламные трекеры Microsoft

Браузер DuckDuckGo не блокирует рекламные трекеры Microsoft

Linkedin и Bing могут собирать данные о пользователях
preview В Яндекс Картах появится озвучка самокатных и велосипедных маршрутов

В Яндекс Картах появится озвучка самокатных и велосипедных маршрутов

Голосовым помощником Алисой
preview Google упрощает поиск c помощью инструмента Lens в браузере Chrome

Google упрощает поиск c помощью инструмента Lens в браузере Chrome

Больше никаких отдельных вкладок
preview Председателем совета директоров VK стал Сергей Куприянов

Председателем совета директоров VK стал Сергей Куприянов

Сменив на этом посту Дмитрия Гришина
preview Облачные технологии VK помогут развивать ИИ-сервисы в медицине

Облачные технологии VK помогут развивать ИИ-сервисы в медицине

Алгоритмические решения VeinCV будут использоваться для диагностики патологий в медицинских изображениях КТ и МРТ