Робот может написать симфонию. Как нейросети меняют искусство

Алексей Моралес Прохоров

30 апреля 2023

Удивительно ли, что новая песня Дрейка и The Weeknd собрала миллионы прослушиваний и стала предметом горячих споров в соцсетях и мировых СМИ? Нет, если не знать причину резонанса. Поклонники музыкантов на YouTube не сразу поняли, что трек «Heart on my Sleeve» был создан нейросетями и, судя по всему, даже не имеет к артистам отношения.

А ведь ещё совсем недавно было принято считать, что ИИ не способен заниматься творчеством. Но времена изменились. Компьютер заставляет художников с маниакальной внимательностью рассматривать чужие рисунки в поисках «нейросетевого следа», рассуждать об этике применения ИИ, спорить об актуальности законов об авторском праве. Неужели мы и правда живём во время, когда компьютер способен создать шедевр?

Характерный почерк

В мае 2020 года компания OpenAI представила алгоритм обработки естественного языка GPT-3.0. Обученный на огромной выборке данных, он общался с пользователем почти как человек — разве что немного забывчивый. Этот же алгоритм лёг в основу выпущенной в 2021-м системы Dall-E. Пользуясь текстовым описанием, нейросеть генерировала вполне убедительные изображения: от домашних животных до архитектуры.

Годом позднее была опубликована вторая версия Dall-E, а также ещё два известных сегодня алгоритма — MidJourney и Stable Diffusion. Уже на стадии тестирования режиссёр Карен Ченг использовала Dall-E для создания обложки Cosmopolitan, показывая возможности нейросети. И действительно, три ведущих алгоритма очень быстро обрели огромную популярность среди художников разных уровней: и начинающих, и состоявшихся профессионалов.

Но скоро стала заметна и обратная сторона этой популярности. В декабре 2022-го авторы площадки ArtStation объявили забастовку против изображений, созданных ИИ. Главная проблема заключалась в том, что такие картинки лишь условно оригинальны.

Создавая их, нейросеть знакомится с большим количеством найденных в сети изображений, в том числе и работ с ArtStation. То есть творчество художников используют для того, чтобы конкурировать с ними самими.

Администрация ArtStation не согласилась с этими доводами. Владельцы сайта заявили, что пока не хотят мешать «нейросетевым исследованиям» и ограничивать ИИ-художников. Самые злые посты от сообщества модераторы просто удалили — в ответ некоторые пользователи ушли с платформы.

И, напротив, споры об авторском праве заставили сервис Getty запретить публикацию картинок, сгенерированных ИИ. Больше того, агентство Getty Images подало в суд на создателей алгоритма Stable Diffusion за неправомерное использование более 12 миллионов изображений из фотобанка без разрешения и финансовой компенсации.

Компания не обращалась к нам с просьбой использовать материалы фотобанка, поэтому мы принимаем меры для защиты наших авторов и своих прав на интеллектуальную собственность

—
Крейг Питерс, гендиректор Getty Images

Так или иначе, последствия популяризации нейросетей выходят за рамки споров об авторском праве. В Китае ИИ обрушили на 70% спрос на труд иллюстраторов в сфере разработки видеоигр. По словам художницы-фрилансера Эмбер Ю, раньше она получала от 430 до 1000 долларов за создание одного постера. Однако нейросети создают рисунки схожего качества за секунды, а работать с ними гораздо дешевле.

Компьютерные алгоритмы для создания артов используют такие IT-гиганты как Tencent или NetEase, один из самых крупных провайдеров Китая. Как рассказал глава одной из российских игровых компаний, MidJourney помогла команде сократить стоимость разработки на 80%.

Конечно, далеко не каждый раз программа отвечает на запрос качественным рисунком, но идеальный результат часто и не нужен. Алгоритм создаёт выборку из нескольких картинок, которые опытный художник использует для создания полноценной работы. Разве что на тонкую коррекцию изображений, вроде изменения цветов в определённых зонах по текстовому запросу, нейросети пока не способны.

Разработчики постоянно совершенствуют уже созданные алгоритмы. Например, характерной чертой Stable Diffusion первой версии были ошибки в анатомии людей, периодически возникающие десяти- и восьмипалые люди с неестественно выкрученными конечностями. Версия 2.0 гораздо лучше приноровилась рисовать людей, включая убедительные изображения крупным планом. И заказчиков устраивает такой уровень. На крупных фриланс-сайтах уже появились разделы для заказов ИИ-рисунков, а расценки делают покупку ИИ-арта довольно выгодной.

Сейчас сообщество художников переживает своеобразный «нейросетевой кризис». Периодически одного или другого автора обвиняют в применении ИИ из-за характерных особенностей геометрии объектов, изображения контуров. С другой стороны, компьютер уже научили специально подражать определённым художественным стилям, из-за чего интернет и YouTube в частности заполонили ролики и подборки картинок: «Персонажи „Звёздных войн“ в виде жителей СССР», «„Властелин колец“ в стиле кино 80-х» или «Нейросеть „проиллюстрировала“ песню группы „Гражданская оборона“».

Пока одни художники жалуются на всё большее количество «ИИ-авторов», которые полностью полагаются на компьютерные алгоритмы, другие считают, что ИИ в любом случае будет уступать людям в изобретательности. Так или иначе, профессия художника или дизайнера прямо сейчас сильно меняется.

Цифрозвук

Успехи нейросетей в генерации музыки до недавнего времени оставались в тени по сравнению с изобразительным искусством. Тем не менее в последние годы разработчики продвинулись в этом вопросе очень далеко и создали немало заслуживающих внимание программ.

Так, AIVA ещё в 2019 году научилась генерировать музыку по запросу с помощью алгоритмов машинного обучения. Изначально ПО было специализировано на классической музыке, но с началом платного распространения музыкального движка разработчики добавили поддержку джаза, рока и других жанров.

Закрытый алгоритм Mubert создатели позиционируют как ПО для создания роялти-фри-саундтреков. А в декабре 2022-го разработчики Сет Форсгрен и Хаик Мартирос опубликовали Riffusion, созданную на основе Stable Diffusion. Алгоритм, изначально предназначенный для генерации изображений, сначала создаёт спектрограмму трека, а затем преобразовывает в звук.

Среди разработчиков музыкального нейросетевого ПО есть и IT-гиганты — например, MusicLM от Google которая способна создать композицию в любом жанре по текстовому описанию. Типичный запрос для MusicLM выглядит так: «Саундтрек к аркадной игре. Быстрый, с электрогитарой. Репетативная музыка, которую легко запомнить, но с неожиданными звуками, вроде цимбал».

Достаточно широким функционалом обладает также Jukebox от OpenAI. С помощью компьютера можно создавать чистые вокальные партии или накладывать их на заранее созданную музыку. Разные сервисы можно синхронизировать со стримами на Twitch, настраивать их для создания треков в собственном музыкальном стиле, в некоторых программах можно изменять части отдельных композиций. Всё это, разумеется, не требует каких-либо глубоких познаний в программировании.

Словом, благодаря нейросетям у авторов появился большой набор инструментов для генерации музыки. Результат не заставил себя ждать: «потерянный» альбом Oasis, созданный с помощью ИИ, заслужил удивлённый отзыв от самого Лиама Галлахера, вокалиста группы. А трек Heart on my Sleeve, якобы созданный рэперами Дрейком и The Weeknd, стал настоящим хитом. Осмысленный текст песни, грамотная обработка звука и удачное копирование авторского стиля исполнителей прнесли треку более 15 млн прослушиваний. Некоторые слушатели даже писали, что цифровой Дрейк звучит лучше настоящего.

У самих исполнителей столь бурные успехи ИИ вызывают неоднозначные чувства. Так, для Дрейка «искусственная» песня стала «последней каплей». Владелец лейбла, где издаётся канадский музыкант, сослалась на нарушение авторских прав, чтобы удалить «Heart on my Sleeve» с YouTube.

«Обучение генеративному ИИ с использованием музыки наших исполнителей (...), создаёт вопрос относительно того, на чьей стороне заинтересованные в музыкальной экосистеме стороны: на стороне артистов, фанатов и человеческого творческого самовыражения или на стороне дипфейков, мошенничества и отказа артистам в их должной компенсации», — заявили в лейбле UMG.

Но далеко не все исполнители воспринимают работу ИИ в штыки. Так, певица Граймс сообщила в Twitter, что не против использования её голоса для созданий нейросетевых композиций. Вдобавок она предложила авторам успешных треков разделить 50% роялти.

Пока UMG и другие медиагиганты разбираются с авторским правом, разработчики продолжают тестировать музыкальные возможности ИИ и приходят порой к неожиданным результатам.

Так, программист Джеком Видал в попытке совместить игровой ИИ и стримы создал нейросетевого стримера Neuro-Sama, чат-бота с аватаром в виде аниме-девушки. Neuro-sama регулярно исполняет в эфире разные композиции по запросу пользователей, обычно каверы на известные треки. Причём в комментариях отмечают, как «девушка» со временем совершенствуется — голос становится более объёмным, а песни звучат всё более эффектно.

***

Наконец, не стоит забывать и про прямое назначение нейросетей — создание текстов. ИИ всё более активно применяют как СМИ, так и авторы художественной литературы. Мы уже рассказывали, как писательница Дженифер Лепп использовала алгоритмы, чтобы те подсказывали ей направление для творчества и даже дописывали куски текста. В какой-то момент она ощутила, что программа начинает играть первую скрипку в создании книги и развивать сюжет по собственному «усмотрению», из-за чего творчество получается безыдейным, «бездушным».

В средствах массовой информации нейросети можно использовать, например, для генерации коротких новостных заметок, объяснения сложных вещей простым языком. Англоязычные медиа начали экспериментировать с применением GPT в этой области ещё несколько лет назад, а сегодня крупные агентства, вроде Reuters, AFP, AP, используют ИИ для автоматизации заметок о спортивных результатах, финансовых отчётах.

При этом следует, конечно же, учитывать специфику генеративных алгоритмов, их неосознанность. Даже алгоритмы последних версий способны обстоятельно и с умным видом нести абсолютную околесицу — например, аргументированно доказывать пользу поедания битого стекла.

На современном этапе развития (...) ИИ не оригинален. У искусственного интеллекта нет аналитических способностей или мнения

—
Мадхумита Мурджиа, Financial Times

«Неоригинальность» контента заложена в основе генеративных алгоритмов, которые создают нечто новое из кусков информации в интернете, в строгом соответствии с заданием пользователя. Поэтому нейросети сегодня не могут создавать большие аналитические материалы, давать детальный анализ какой-либо темы. С другой стороны, ИИ-контент можно использовать так же, как это делают художники, — для создания заготовок, из которых будет «сшит» финальный вариант текста.

Кроме того, компании пытаются приспособить ИИ для решения задач фактчекинга — например, Meta пару лет назад попробовала внедрить такую систему в Facebook. Получается с переменным успехом, но нейросети достаточно быстро развиваются — кто знает, что ожидает нас через несколько лет и как изменятся привычные нам сегодня профессии.