DALL-E

DALL-E
Логотип программы DALL-E
Скриншот программы DALL-E
Тип нейронная сеть
Автор OpenAI
Разработчик OpenAI[1]
Языки интерфейса английский
Первый выпуск 5 января 2021 года
Сайт openai.com/dall-e-2/
Логотип Викисклада Медиафайлы на Викискладе

DALL-E — нейронная сеть НКО OpenAI, созданная при финансовой поддержке Microsoft[2], способная генерировать высококачественные изображения, исходя из текстовых описаний на английском языке[3][4]. По заявлениям ряда СМИ и экспертов в области анализа данных, данная нейронная сеть совершила значимый прорыв в области нейронных сетей[5][6][7][8].

История

Нейронная сеть DALL-E начала разрабатываться в 2018 году. В 2019 году OpenAI получила грант в 1 млрд $ от компании Microsoft на разработку инновационных технологий в сфере искусственного интеллекта[2]. Первая версия нейросети была представлена сообществу 5 января 2021 года[5].

6 апреля 2022 года была анонсирована DALL-E 2[4][9]. В новой версии программы были доработаны алгоритмы, позволяющие создавать фотореалистичные изображения, а также редактор, позволяющий вносить правки во время работы приложения[10]. Пример работы нейронной сети продемонстрировал журнал Cosmopolitan, который использовал DALL-E 2 для создания обложки для одного из выпусков своего журнала[11].

21 сентября 2023 года OpenAI представила DALL-E 3, которая будет интегрирована с ChatGPT и сможет лучше понимать запросы и генерировать более детальные изображения. Версия станет доступна в октябре в рамках платных подписок ChatGPT Plus и Enterprise через API[12].

В апреле 2024 года OpenAI объявила об отключении DALL-E 2, хотя фактически сервис перестал работать ещё в конце зимы[13].

Архитектура

DALL-E использует 12-миллиардную модель GPT-3 для интерпретации данных и генерации на их основании изображения[6][14]. Сама модель GPT-3 была разработана OpenAI ещё в 2018 году на основе архитектуры глубоких нейронных сетей Трансформер[15]. Таким образом, DALL-E представляет собой мультимодальную реализацию GPT-3 с 12 миллиардами параметров, обучаемая через интернет[16].

Так, DALL-E сначала генерирует изображения в ответ на запрос, а CLIP (Contrastive Language-Image Pre-training), как отдельная модель, «осознаёт» и ранжирует полученные изображения[5][6]. Сам CLIP был обучен на 400 миллионах пар изображений и текста, благодаря чему модель более-менее успешно определяет наиболее успешно подходящие изображения по запросу и публикует имеющиеся изображения по степени их схожести с текстовым описанием[14].

Описание и характеристики

DALL-E способна генерировать изображения в самых разных визуализациях — от фотореализма до картин и эмодзи, передвигая и видоизменяя объекты на своих изображениях[9]. Одна из способностей, отмеченная его создателями, заключалась в правильном размещении элементов дизайна в новых композициях без явных указаний: «Например, когда его попросили нарисовать Редис Дайкон, сморкающийся, потягивающий латте или катающийся на одноколёсном велосипеде, DALL·E часто рисует платок, руки и ноги в правдоподобных местах»[17]. Факт реализма и прорыва в сфере ИИ отмечали различные авторитетные издания — Input[18], NBC[19], Nature[20], Wired[21], CNN[22] и BBC[23]. Особенно интересно для специалистов стал тот факт, что ИИ получил некоторые навыки визуального мышления, позволившие оному пройти тест Рейвена, созданный для оценки интеллекта людей[24].

DALL-E характеризуется как устойчивая и крайне надёжная нейронная сеть для создания изображений различного плана[6]. Сэм Шхед в репортаже для CNBC назвал изображения «интересными» и процитировал Нила Лоуренса, профессора машинного обучения Кембриджского университета, который назвал это «вдохновляющей демонстрацией способности этих моделей хранить информацию о нашем мире и обобщать его способами, которые для людей естественны». Шхед также процитировал Марка Ридла, доцента Технической школы интерактивных вычислений Джорджии, который сказал, что результаты демонстрации DALL-E показали, что он способен «согласованно сочетать концепции», и что «демоверсия DALL-E примечательна созданием иллюстраций, которые гораздо более связны, чем другие системы Text2Image, которые я видел за последние несколько лет»[25]. BBC также цитирует Ридля, который сказал, что он был «впечатлён тем, что система могла сделать»[23].

Примечания

  1. https://www.openai.com/blog/dall-e/
  2. 1 2 Microsoft Invests In and Partners with OpenAI to Support Us Building Beneficial AGI (англ.). OpenAI (22 июня 2019). Дата обращения: 4 июля 2022. Архивировано 7 ноября 2020 года.
  3. Nicolás Rivero. The best examples of DALL-E 2’s strange, beautiful AI art (англ.). QUARTZ (11 июня 2022). Дата обращения: 4 июля 2022. Архивировано 5 июля 2022 года.
  4. 1 2 OpenAI доработала нейросеть DALL-E: теперь она генерирует картинки по текстовому описанию и редактирует уже готовые  (рус.). vc.ru (7 апреля 2022). Дата обращения: 4 июля 2022. Архивировано 5 июля 2022 года.
  5. 1 2 3 Will Douglas Heaven. This avocado armchair could be the future of AI (англ.). MIT Technology Review (5 января 2021). Дата обращения: 4 июля 2022. Архивировано 5 января 2021 года.
  6. 1 2 3 4 Coldewey, Devin. OpenAI’s DALL-E creates plausible images of literally anything you ask it to (англ.). TechCrunch (5 января 2021). Дата обращения: 4 июля 2022. Архивировано 6 января 2021 года.
  7. Jordan Novet. A.I. software called DALL-E turns your words into pictures (англ.). CNBC (18 июня 2022). Дата обращения: 4 июля 2022. Архивировано 5 июля 2022 года.
  8. Gary Marcus, Ernest Davis, Scott Aaronson. A very preliminary analysis of DALL-E 2 (англ.) // Cornell University. — 2022. — doi:10.48550. Архивировано 5 июля 2022 года.
  9. 1 2 Jeremy Kahn. Move over, Photoshop: OpenAI just revolutionized digital image making (англ.). Fortune (6 апреля 2022). Дата обращения: 4 июля 2022. Архивировано 10 апреля 2022 года.
  10. Hope Corrigan. Photographer uses DALL-E 2 AI to automatically edit images better than Photoshop (англ.). PC Gamer (1 июля 2022). Дата обращения: 4 июля 2022. Архивировано 5 июля 2022 года.
  11. Gloria Liu. The World’s Smartest Artificial Intelligence Just Made Its First Magazine Cover (англ.). Cosmopolitan (21 июня 2022). Дата обращения: 4 июля 2022. Архивировано 3 июля 2022 года.
  12. OpenAI представила новую версию генератора изображений DALL-E 3  (неопр.). Коммерсантъ (29 сентября 2023). Дата обращения: 25 сентября 2023.
  13. OpenAI отключила генератор картинок DALL-E 2  (неопр.). Hi-tech Mail.ru (19 апреля 2024). Дата обращения: 24 апреля 2024.
  14. 1 2 Khari Johnson. OpenAI debuts DALL-E for generating images from text (англ.). VentureBeat (5 января 2021). Дата обращения: 4 июля 2022. Архивировано 5 января 2021 года.
  15. Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya. Improving Language Understanding by Generative Pre-Training (англ.) // OpenAI. — 2018. Архивировано 5 февраля 2021 года.
  16. S. Dent. OpenAI's DALL-E app generates images from just a description (англ.). Engadget (6 января 2021). Дата обращения: 4 июля 2022. Архивировано 27 января 2021 года.
  17. Thom Dunn. This AI neural network transforms text captions into art, like a jellyfish Pikachu (англ.). BoingBoing (10 февраля 2021). Дата обращения: 4 июля 2022. Архивировано 22 февраля 2021 года.
  18. Mehreen Kasana. This AI turns text into surreal, suggestion-driven art (англ.). Input (1 июля 2021). Дата обращения: 4 июля 2022. Архивировано 29 января 2021 года.
  19. Melanie Ehrenkranz. Here's DALL-E: An algorithm learned to draw anything you tell it (англ.). NBC (28 января 2021). Дата обращения: 4 июля 2022. Архивировано 20 февраля 2021 года.
  20. Emma Stoye. Tardigrade circus and a tree of life — January’s best science images (англ.). Nature (5 февраля 2021). Дата обращения: 4 июля 2022. Архивировано 8 марта 2021 года.
  21. Will Knight. This AI Could Go From ‘Art’ to Steering a Self-Driving Car (англ.). Wired (26 января 2021). Дата обращения: 4 июля 2022. Архивировано 21 февраля 2021 года.
  22. Rachel Metz. A radish in a tutu walking a dog? This AI can draw it really well (англ.). CNN (8 января 2021). Дата обращения: 4 июля 2022. Архивировано 1 июля 2022 года.
  23. 1 2 Jane Wakefield. AI draws dog-walking baby radish in a tutu (англ.). BBC (6 января 2021). Дата обращения: 4 июля 2022. Архивировано 2 марта 2021 года.
  24. Markowitz, Dale. Here's how OpenAI's magical DALL-E image generator works (англ.). TheNextWeb (23 февраля 2021). Дата обращения: 4 июля 2022. Архивировано 23 февраля 2021 года.
  25. Sam Shead. TECH Why everyone is talking about an image generator released by an Elon Musk-backed A.I. lab (англ.). CNBC (8 января 2021). Дата обращения: 4 июля 2022. Архивировано 16 июля 2022 года.

Литература

  • Jens Knappe: Genesis. A Creation Story in Cooperation with an Artificial Intelligence, Berlin 2022, ISBN 978-3-940948-45-8.
Перейти к шаблону «Обработка естественного языка»
Общие определения
Анализ текста
Реферирование
  • Извлечение предложений[en]
  • Генерация реферата
  • Многодокументное реферирование[en]
  • Упрощение текста[en]
Машинный перевод
Идентификация
и сбор данных
Тематическая модель
Рецензирование
Интерфейс
на естественном языке
[en]
Перейти к шаблону «Типы искусственных нейронных сетей»
Перейти к шаблону «Искусственный интеллект»
История
П:
Философия
Направления
Применение
Исследователи
Перейти к шаблону «Машинное обучение»
Задачи
Обучение с учителем
Кластерный анализ
Снижение размерности
Структурное прогнозирование
Выявление аномалий
Графовые вероятностные модели
Нейронные сети
Обучение с подкреплением
Теория
Журналы и конференции
  • NeurIPS
  • ICML
  • ML
  • JMLR
  • ArXiv:cs.LG