Как пользоваться нейросетью DALL-E 2 для генерации изображений
Бум на искусственный интеллект и не думает прекращаться, а мы продолжаем готовить для вас материалы про самые интересные разработки на его основе. Наверняка, вы слышали про такие нейросети как Midjourney, и ChatGPT. Последняя была создана компанией OpenAl. Сегодня мы расскажем про ее вторую популярнейшую разработку — DALL-E 2, которая тоже много чего умеет. Например, создавать реалистичные картинки всего за несколько кликов. Кроме этого, расскажем, как она работает, как получить к ней доступ бесплатно (почти), на каких платформах ей можно пользоваться, как грамотно составлять промты, а также рассмотрим ее преимущества и недостатки.
Интересно? Тогда поехали!
DALL-E 2 была выпущена компанией OpenAI в апреле 2022 года. Она умеет генерировать четыре картинки по одному текстовому запросу (промту), создавать вариации сгенерированных или загруженных изображений и фотографий, а также редактировать их.
Кроме этого она умеет:
- смешивать разные концепции для создания сложных изображений;
- создавать одно изображение из двух других;
- генерировать отсутствующие части изображения, менять композицию, освещение, тени;
- добавлять и удалять объекты;
- дорисовывать фон благодаря функции Outpainting.
Функционал сети значительно шире, чем у многих аналогов. Но это неудивительно, учитывая опыт ее создателей.
Содержание:
Как работает нейросеть DALL-E 2?
DALL-E 2 обучалась на огромной коллекции картинок с описанием. Какие-то из них были получены из открытых источников, какие-то лицензированы. Среди них была проведена «чистка», чтобы убрать откровенные изображения, насилие, ненависть, расизм и другие нехорошие моменты.
Для генерации картинок используется ИИ на основе преобразователя. Это такой тип машинного обучения, который воспринимает контекст и последовательно его обрабатывает, чтобы создавать итоговые изображения по естественным текстовым запросам. Эта модель продолжает постоянно обучаться в том числе на тех изображениях, которые выбирает пользователь из сгенерированных вариантов.
Сама генерация осуществляется тремя нейросетями:
- CLIP (Contrastive Language-Image Pre-treaining) отвечает за восприятие текста и создание «чисельного» черновика. Здесь промт переводится в набор чисел, связанных векторами, которые показывают близость описанных пользователем категорий между собой.
- GLIDE отвечает за превращение черновика в предварительный итоговый вариант невысокого разрешения. Здесь картина создается через диффузную модель, на основе которое построено большинство нейросетей. Сначала появляется квадрат, полностью состоящий из пиксельного шума, уровень которого постепенно снижается и появляются очертания изображения.
- Нейросеть «без названия» отвечает за увеличение картинки, добавление к ней деталей и улучшение качества в 16 раз.
Это очень упрощенное описание рабочих инструментов, но общий принцип должен быть понятен.
Как бесплатно попробовать возможности нейросети DALL-E 2?
Бесплатно попробовать искусственный интеллект можно. Для этого рекомендуем зарегистрировать почту на нероссийский домен. Настройки можно оставить любые. После этого вам придется преодолеть еще ряд трудностей.
Во-первых, сеть не доступна на территории России в связи с санкциями. Поэтому для перехода на ее сайт вам потребуется VPN. Буквально на днях Роскомнадзор опять начал блокировать работу сервисов. Пока что это касается только мобильного трафика, но никто не даст гарантий, что проблем с обычным интернетом не появится в самое ближайшее время.
Во-вторых, регистрация осуществляется с помощью мобильного телефона. А если у вас российский номер, то SMS с кодом вам просто не придет. Поэтому придется искать SMS-активатор. Бесплатные решения есть, но они обычно работают не очень ненадежно. Поэтому рекомендуем воспользоваться или платным активатором, стоимость которых начинается от нескольких рублей (можно сказать, что почти бесплатно), или купить готовый аккаунт на какой-нибудь интернет-площадке. Там цены начинаются в среднем от 100 рублей, что тоже очень недорого.
Аккаунт для написания этой статьи обошелся всего в 200 рублей. От нас потребовалась почта и все. Через несколько минут мы получили пароль от нашего собственного личного кабинета и обещание, что доступ пожизненный.
Выбирали по отзывам. Риск скама, конечно, был, но все прошло без проблем, и в личный кабинет на сайте мы в итоге попали.
Где скачать DALL-E 2 на телефон?
Официального приложения от OpenAІ не существует в принципе ни в Google Play, ни в AppStore, ни в других магазинах. Поэтому на телефоне можно пользоваться через мобильную версию сайта или через альтернативные приложения, которые «работают через АРІ». Проверить правда это или нет не предоставляется возможном. Вполне вероятно, что картинки будут генерироваться каким-то другим бесплатным ИИи выдаваться за результат работы главной героини статьи.
Если ввести в Google Play соответствующий поисковый запрос, результатов будет очень много, но рейтинг почти у всех не самый высокий.
Как пользоваться нейросетью DALL-E 2?
Интерфейс сайта похож на интерфейсы других сервисов. Вы вводите промт длиной не более 400 символов и ждете результат. Промт лучше составлять на английском языке, потому что он — основной. Но нейросеть понимает более ста других языков, в том числе и русский. Однако результаты на них обычно получаются хуже.
Кнопка «Surprise me» («Удиви меня») используется для генерации случайного промта, если просто хочется посмотреть, как она работает, а вдохновения составлять промт — нет.
Вот несколько советов по созданию хорошего промта.
- Определитесь с типом изображения. Здесь ваша фантазия ничем не ограничена. Это может быть рисунок акварелью или гуашью, 3D, пиксель-арт, цифровое искусство, эмоджи, портрет, пейзаж или фото.
- Выберите стиль. ИИ знает стили всех известных художников, аниматоров, иллюстраторов и людей других творческих профессий. Кроме этого вы можете задать реализм, абстракцию, освещение и даже модель камеры.
- Придумайте контекст и сюжет. Сюда нужно добавлять все детали, которые вы хотите увидеть на итоговом изображении: людей, животных, роботов. А также то, что они делают: идут, бегут, летят, задумчиво смотрят вдаль и так далее.
Общая схема для хорошего промта выглядит примерно так:
Тип — Стиль — Освещение — Предмет — Контекст — Детали.
А теперь давайте поэкспериментируем на простых запросах и не очень. Для генерации картинок будем использовать английский язык. Это позволит сделать результат более точным и соответствующим запросу. Добавим перевод для упрощения восприятия тех, кто им не владеет.
Начнем с примера того, что нейросети традиционно плохо изображают — руки.
Вот что получилось по запросу «two kids hold hands» — «двое детей держатся за руки»:
Сейчас скопируем легендарный промт от генератора Яндекса — Шедеврум — про руку. Вот что получилось в оригинале по запросу «рука человека с пятью пальцами, не четырьмя, не шестью, а пятью (5) пальцами» — «human hand with five fingers, not four, not six, but five (5) fingers»:
И вот что у нас:
Немного абстрактного.
«true friendship» – «настоящая дружба»:
Попробуем что-то совсем простое.
«beautiful young woman» — «красивая молодая девушка»:
«old medieval town» — «старый средневековый город»:
Еще пара не самых сложных промтов, но чуть более детальных.
«sad man is sitting in the kitchen and drinking tea» — «грустный мужчина сидит на кухне и пьет чай»:
«biker drives a futuristic highway in neon lights» – «байкер едет по футуристическому шоссе в неоновых огнях»:
А сейчас немного фантастики.
«angry black dog plays rock on electric guitar open air» — «злая черная собака играет рок на электрогитаре на оупен-эйре»:
«army of undead is singing in the town, Van Gogh style» — «армия нежити поет в городе, в стиле Ван Гога»:
И максимум деталей.
«group of apes is drinking whiskey in the cave near the fire, rain outside, natural light, hyperrealism, shot with Canon 5D mark II» — «группа обезьян пьет виски в пещере, сидя около огня, на улице идет дождь, естественный свет, гиперреализм, снято на Canon 5D mark Il»:
«Mario is giving the Ruling Ring to Darth Vader in the Starship Enterprise, stars in the background, anime style, dark atmosphere, DSLR camera» — «Марио отдает Кольцо всевластья Дарту Вейдеру на космическом корабле «Энтерпрайз», звезды на фоне, в стиле аниме, темная атмосфера, камера DSLR»:
И парочка «Surprise me» напоследок.
«a happy black woman wearing a VR headset in a Shangri-La with a rainbow, digital art» – «счастливая чернокожая женщина в шлеме виртуальной реальности в Шангри-Ла, радуга, цифровая живопись»:
«an astronaut dance party on the surface of mars, digital illustration» – «дискотека астронавтов на поверхности Марса, цифровая иллюстрация»:
Все результаты, как нам кажется, вполне достойные. Особенно порадовал тот факт, что пальцев на руке было ровно столько, сколько надо.
Плюсы и минусы DALL-E 2
По традиции начинаем с того, в чем сервис силен:
- очень удобный личный кабинет, который принадлежит только вам и вашей фантазии;
- возможность не только генерировать изображения с нуля, но и редактировать уже готовые, удалять и заменят их части, а также дорисовывать фон;
- работа на основе алгоритмов GPT-3, которые справляются с распознаванием печатного текста лучше многих аналогов.
А сейчас перечислим некоторые минусы:
- итоговый результат не всегда получается идеальным с первого раза (иногда он может быть даже устрашающим), поэтому нужно экспериментировать с запросами;
- плохо справляется с абстрактными понятиями и длинными запросами с большим количеством деталей;
- иногда нарушаются авторские права, когда вместе генерации выдаются изображения из обучающей выборки (у нас такого, к счастью, не случилось);
- нет четкого алгоритма для реализации «исключений» — того, что не должно быть в кадре.
Несмотря на наличие минусов, которые могут кому-то показаться очень серьезными, сервис справляется с задачей хорошо гораздо чаще, чем плохо. В некоторых моментах она даже превосходит таких мощных конкурентов как, например, Midjourney или Stable Diffusion.
Заключение
Появление таких серьезных технологий как нейросети для обывателей произошло неожиданно. С тех пор алгоритмы постепенно эволюционируют, благодаря машинному обучению: лучше понимают промты, обрастают новыми функциями, начинают работать быстрее и выдавать более качественный результат. Художники, фотографы и иллюстраторы уже ощущают некоторый дискомфорт, потому что качество некоторых картин по-настоящему поражает.
Искусственный интеллект продолжит наполняться жизнью. Кого-то это пугает, кого-то воодушевляет. Но всем стоит признать тот факт, что так, как раньше, уже не будет. Вектор развития транснациональных корпораций понятен, даже несмотря на редкие призывы принудительно ограничить распространение подобных технологий.
Главное сейчас то, что перед людьми открываются невиданные ранее возможности. А как ими распорядится человечество покажет лишь время.
Краткое резюме по статье
Какая компания разработала DALLE-2? +
Американский разработчик OpenAl, который специализируется на создании и лицензировании технологий на основе искусственного интеллекта и машинного обучения. Она реализована при финансовой поддержке Microsoft.
Как получить доступ к DALL-E 2 в России? +
Работа на территории России осуществляется с использованием VPN и SMS-активатора. Это связано с введенными против страны санкциями.
Как пользоваться DALL-E 2 бесплатно? +
При регистрации через почту и номер телефона вам выдадут 50 кредитов, которые можно потратить на запросы. После этого каждый месяц вам будет начисляться еще 15 кредитов. Остатки не переносятся. За большее количество придется платить.
Можно ли делать запросы в DALL-E 2 на русском языке? +
Она понимает около ста языков, в том числе русский. Тем не менее, основным для нее считается английский. Поэтому для получения лучших результатов рекомендуем использовать именно его.
Чем DALL-E 2 отличается от других нейросетей? +
Если посмотреть на общий фон комментариев в интернете о работе подобных сервисов, то DALL-E 2 стабильно находится в топах. Кроме этого, у нее удобный интерфейс, реализованный в отдельном личном кабинете. То есть, ваши промты не пересекаются с запросами других пользователей в общем канале, как это реализовано, например, в Midjourney.
Источник: protraffic.com