Нейросеть DALL-E – один из популярных ИИ-сервисов, генерирующих изображения по текстовым запросам. Эта модель с машинным обучением, разработанная фирмой OpenAI, постоянно совершенствуется, предлагая пользователям все более продвинутые и удобные инструменты для преобразования их идей в уникальный визуальный контент. И теперь этой моделью можно пользоваться без предварительного изучения особенностей типовых формулировок текстовых запросов (prompt engineering).
Компания OpenAI анонсировала DALL-E 3 – новую версию популярной генеративной нейросети, переводящей текст в картинку. Используя оригинальную модель чат-бота с машинным обучением ChatGPT, DALL-E 3 может работать с уточняемыми запросами и рисовать "исключительно точные и детализированные изображения", как заявляет корпорация-разработчик из Сан-Франциско.
По словам OpenAI, пользователь может работать с DALL-E 3 с помощью ChatGPT, который будет выступать в роли "партнера по мозговому штурму" и отладчика текстовых запросов. Пользователь может сформулировать задание на изображение чат-боту – как в одном предложении, так и в виде целого абзаца с подробным описанием своей идеи. В соответствии с этим описанием ChatGPT автоматически сгенерирует наиболее "удобочитаемый" текстовый запрос для DALL-E, по которому тот будет рисовать изображение.
Если результат окажется не вполне подходящим, пользователь, по словам OpenAI, может попросить ChatGPT уточнить текущий запрос в нескольких словах. Как и в предыдущих версиях DALL-E, модель машинного обучения DALL-E 3 имеет ограничения в части генерации "сцен насилия, ненависти и контента для взрослых", хотя ранее некоторые хитроумные пользователи находили способы обходить эти ограничения.
В качестве дополнительной меры предотвращения генерации "социально вредного контента" в DALL-E 3 предусмотрена возможность отклонения запросов на изображение известных персон. Характеристики безопасности модели были "улучшены" в ходе сессий нагрузочного тестирования, проводимых экспертами, как заявляет OpenAI. Кроме того, компания в настоящее время ищет оптимальный способ, помогающий людям точно определить, когда изображение создано ИИ.
OpenAI экспериментирует с "классификатором авторства" – новым встроенным инструментом для идентификации изображений, созданных ИИ. Однако пока OpenAI не включает его в перечень доступных пользовательских инструментов. DALL-E 3 также должен отклонять запросы на создание изображений в стиле "ныне живущих художников", говорят в OpenAI. Художники также могут потребовать исключить их произведения из программ обучения ИИ.
По словам OpenAI, DALL-E 3 представляет собой значительно более продвинутую версию по сравнению с DALL-E 2. Даже при одинаковой текстовой формулировке запроса обученная по новой программе нейросеть генерирует намного более адекватное запросу изображение (см. пример выше – бросок баскетболиста, ассоциирующийся со взрывом галактической туманности).
DALL-E 3 будет доступен заказчикам версий ChatGPT Plus и Enterprise в октябре, а в конце осени планируется адаптировать его к API и Labs. Microsoft, Shutterstock и другие партнеры OpenAI, вероятно, будут в числе первых, кто воспользуется преимуществами улучшенной технологии генерации изображений.
Источник: TechSpot