Макс Варламов 11 968 0

Google представила нейросеть, которая генерирует картинки по текстовому описанию

Нейросеть попробовать пока что нельзя, но можно выбрать описание из предложенных вариантов, а также посмотреть на готовые изображения от Google.

Google представила «конкурента DALL-E 2» — собственную нейросеть Imagen, способную генерировать изображения по текстовому описанию.

В основе Imagen лежит метод диффузии — изначально по текстовому «заданию» создаётся схематичный рисунок разрешением 32×32 пикселя, который впоследствии увеличивается до 256×256 и до 1024×1024 точек. Это не простой апскейлинг — нейросеть добавляет новые элементы в рисунок с каждым новым «проходом».

Компания провела тест DrawBench, в рамках которого демонстрировала людям различные изображения, сгенерированные как Imagen, так и другими нейросетями, в числе которых есть и DALL-E 2. По результатам эксперимента, люди отдают предпочтение именно Imagen, в особенности за счёт точности готового изображения.

В отличие от DALL-E 2, попробовать самостоятельно нейросеть от Google пока что нельзя — компания воздержалась от публикации исходного кода и проведения бета-тестирования по этическим причинам. Imagen «обучена» на наборе данных LAION-400M, который содержит «широкий спектр неприемлемого контента».

«Милый корги живёт в доме, сделанном из суши»

«Пара роботов ужинает на фоне Эйфелевой башни»

«Собака с любопытством смотрит в зеркало и видит кошку»

Тем не менее, на сайте проекта можно посмотреть готовые примеры или выбрать слова, по которым будут сгенерированы изображения.