DALL-E: нейросеть-импрессионист

Алексей Моралес Прохоров

27 июня 2022

Постер публикации — Картинка от Dall-E: куриный наггетс курит сигарету во время дождя

Алгоритм генерации изображений Dall-E заслуженно получил популярность сперва на Reddit, а затем и по всему интернету. Нейросеть умеет «рисовать» по описанию пользователя довольно точные и вместе с тем забавные картинки.

Dall-E была опубликована компанией OpenAI 5 января 2021 года. «Ядром» для этого алгоритма послужила модель обработки естественного языка GPT-3. Благодаря обучению на выборке в 500 миллиардов текстов GPT-3 впечатляла своими возможностями сразу после появления: нейросети оказалась по силам генерация убедительных текстов и даже конструкция относительно цельных «цифровых личностей».

Dall-E представляет собой один из вариантов GPT-3 с 12 миллиардами параметров, который заменяет текст на пиксели. Основой для алгоритма послужили более 400 миллионов пар «текст — изображение», после изучения которых Dall-E и сама разобралась в том, как генерировать картинки. На каждый запрос нейросеть выдаёт выборку из 9 изображений разрешения 256x256 пикселей. Лучше всего у Dall-E пока что получается архитектура и абстрактные пейзажи.

С людьми и другими живыми существами нейросеть справляется иногда хорошо, а иногда — не очень.

Алгоритм чаще всего угадывает контекст, но лица рисует очень своеобразными. Хотя иногда у нейросети получаются убедительные лица, чаще персонажи картинок всё же похожи на жертв ядерного апокалипсиса.

Хотя сложные запросы вызывают у нейросети неоднозначную реакцию, она всё же неплохо угадывает контекст.

Эти изображения созданы с помощью Dall-E Mini, варианта алгоритма с открытым доступом. Именно он получил в сети большую популярность, в том числе и благодаря доступности — создавать собственные изображения можно, например, с помощью телеграм-бота.

Сегодня OpenAI ведёт разработку второго варианта алгоритма, Dall-E 2. Эта нейросеть способна не только генерировать изображения, а и редактировать уже готовые. По сравнению с первой версией картинки очень сильно выросли в качестве, как в прямом, так и в переносном смысле. Dall-E 2 генерирует изображения разрешением 1024x1024 пикселей и гораздо лучше справляется с изображением живых существ, чем предшественница.

Нейросеть держит марку при исполнении даже замысловатых запросов.

С помощью Dall-E 2 режиссёр Карен Чанг создала обложку для нового номера Cosmopolitan. Для подбора правильного изображения автор создала с помощью нейросети множество вариантов по запросам вроде «женщина-космонавт». На подбор правильного изображения у Чанг ушло около ста часов. Ей помогли в том числе подсказки художников — так, благодаря им режиссёр узнала, что нейросеть умеет распознавать ракурсы и фильтры. Чанг считает, что Dall-E 2 пока не сможет заменить человека — это в большей степени инструментарий для экспериментов.

Впрочем, Dall-E 2 сегодня доступна не каждому. Рано или поздно представители организации собираются открыть доступ к сети через OpenSource. А пока что организация рассылает приглашения для работы с алгоритмом только тщательно отобранным пользователям, примерно по 1000 приглашений в неделю.