Хотите знать, на что похож идеальный автомобиль для России? А как будет выглядеть чемпион Формулы-1 в недалёком будущем? Ответы на эти вопросы способна дать нейросеть. Ну, почти готова... Мы попробовали испытать функционал российского бота ruDALL-E, способного создавать картинки на основе текста. Задали ему несколько животрепещущих тем — и вот что вышло.
Дешёвый внедорожник для России
Наверняка вы слышали про ruDALL-E XL Malevich — это российская нейросеть, которая умеет генерировать изображения по их текстовому описанию. Проект, реализованный при участии «Сбера», стал известен в ноябре текущего года, а сама система — это сверхмозговитый алгоритм, готовый творить как заправский художник. Вы ему — внятный запрос на сайте или в Telegram-боте, он вам — произведение цифрового искусства или просто симпатичное изображение, которым можно поделиться с друзьями.
Вскоре в Сети появились тысячи фотографий, «нарисованных» умной сетью на основе запросов типа «красивая бегущая собака» или «уютный домик с балконом на побережье». И хотя часть рисунков мало походила на здоровое творчество, креатив программы в отдельных случаях был налицо. Вот так, например, ruDALL-E XL Malevich «видит» красный гараж в спальном районе и круговой перекрёсток с пробками.
Красный гараж в спальном районе
Круговой перекрёсток с пробками
Мы решили пойти дальше и забросали систему чисто автомобильными запросами в надежде получить шедевры. Сначала объектом интереса стали конкретные модели и марки. Например, спорткары Ferrari и Lamborghini, а также легковушки Mazda (на фото ниже — фотоответы нейросети на запросы «красное купе Ferrari», «кроссовер от Lambo» и «алый седан Mazda 6»). Оцените, как система пытается усложнить себе работу и выдать картинку в непривычном ракурсе, отчаянно стараясь сохранить перспективу и пропорции.
Красное купе Ferrari
Кроссовер от Lambo
Алый седан Mazda 6
Вскоре желание выпытать у цифрового Малевича более ценные ответы взяло верх, и мы сменили тактику. Ниже — результаты, выданные нейросетью на более общие запросы: «доступный кроссовер для России», «новый массовый электромобиль», «люксовый седан для российского чиновника» и «самый красивый автомобиль XX века». Задачка, скажем прямо, непростая. А поскольку на каждую такую просьбу «нейросетка» выдаёт несколько вариантов ответа, у вас есть возможность выбрать лучший.
Доступный кроссовер для России
Новый массовый электромобиль
Люксовый седан для российского чиновника
Самый красивый автомобиль ХХ века
Наконец, нас заинтересовали ответы ещё на несколько актуальных вопросов. Получив три коротких текстовых описания и потратив на обработку каждого по три-четыре минуты, ruDALL-E XL выдала серию не менее интересных изображений.
Вот так нейросеть обработала запрос «новый внедорожник Lada 2024 года»
А это — новый УАЗ
А таким нейро-Малевич видит «обновлённый дизайн ГАЗели»
А вот интересные фотоответы на запрос «будущий чемпион Формулы-1».
Доступная сейчас демо-версия программы не использует всех заложенных вычислительных возможностей и работает скорее на скорость, чем на результат. Вдобавок у сети очевидные проблемы с абстрактным мышлением. Например, обработать несложный запрос с тем же круговым перекрёстком и пробками у алгоритма не получилось.
При этом сам по себе машинный интеллект ruDALL-E Malevich — весьма начитанная штука: «младшая» из двух созданных систем долго обучалась на картинках и тексте и учитывает примерно 1,3 миллиарда параметров. «Старшая» модель (названная ruDALL-E XXL Kandinsky), судя по описанию, работает с 12 миллиардами параметров и по интеллекту сравнима с нейросетью DALL-E, ранее запущенной английской компании Open AI.
Как бы там ни было, получать забавные автомобильные картинки на смартфон — пока одна из разновидностей фана. Важно лишь давать нейросети конкретные описания и не надеяться на то, что и вы, и система «мыслите» в одном направлении…