DALL-E

DALL-E


Тип	нейронная сеть
Автор	OpenAI
Разработчик	OpenAI^[1]
Языки интерфейса	английский
Первый выпуск	5 января 2021 года
Сайт	openai.com/dall-e-2/
Медиафайлы на Викискладе

DALL-E — нейронная сеть НКО OpenAI, созданная при финансовой поддержке Microsoft^[2], способная генерировать высококачественные изображения, исходя из текстовых описаний на английском языке^[3]^[4]. По заявлениям ряда СМИ и экспертов в области анализа данных, данная нейронная сеть совершила значимый прорыв в области нейронных сетей^[5]^[6]^[7]^[8].

История

Нейронная сеть DALL-E начала разрабатываться в 2018 году. В 2019 году OpenAI получила грант в 1 млрд $ от компании Microsoft на разработку инновационных технологий в сфере искусственного интеллекта^[2]. Первая версия нейросети была представлена сообществу 5 января 2021 года^[5].

6 апреля 2022 года была анонсирована DALL-E 2^[4]^[9]. В новой версии программы были доработаны алгоритмы, позволяющие создавать фотореалистичные изображения, а также редактор, позволяющий вносить правки во время работы приложения^[10]. Пример работы нейронной сети продемонстрировал журнал Cosmopolitan, который использовал DALL-E 2 для создания обложки для одного из выпусков своего журнала^[11].

21 сентября 2023 года OpenAI представила DALL-E 3, которая будет интегрирована с ChatGPT и сможет лучше понимать запросы и генерировать более детальные изображения. Версия станет доступна в октябре в рамках платных подписок ChatGPT Plus и Enterprise через API^[12].

В апреле 2024 года OpenAI объявила об отключении DALL-E 2, хотя фактически сервис перестал работать ещё в конце зимы^[13].

Архитектура

DALL-E использует 12-миллиардную модель GPT-3 для интерпретации данных и генерации на их основании изображения^[6]^[14]. Сама модель GPT-3 была разработана OpenAI ещё в 2018 году на основе архитектуры глубоких нейронных сетей Трансформер^[15]. Таким образом, DALL-E представляет собой мультимодальную реализацию GPT-3 с 12 миллиардами параметров, обучаемая через интернет^[16].

Так, DALL-E сначала генерирует изображения в ответ на запрос, а CLIP (Contrastive Language-Image Pre-training), как отдельная модель, «осознаёт» и ранжирует полученные изображения^[5]^[6]. Сам CLIP был обучен на 400 миллионах пар изображений и текста, благодаря чему модель более-менее успешно определяет наиболее успешно подходящие изображения по запросу и публикует имеющиеся изображения по степени их схожести с текстовым описанием^[14].

Описание и характеристики

DALL-E способна генерировать изображения в самых разных визуализациях — от фотореализма до картин и эмодзи, передвигая и видоизменяя объекты на своих изображениях^[9]. Одна из способностей, отмеченная его создателями, заключалась в правильном размещении элементов дизайна в новых композициях без явных указаний: «Например, когда его попросили нарисовать Редис Дайкон, сморкающийся, потягивающий латте или катающийся на одноколёсном велосипеде, DALL·E часто рисует платок, руки и ноги в правдоподобных местах»^[17]. Факт реализма и прорыва в сфере ИИ отмечали различные авторитетные издания — Input^[18], NBC^[19], Nature^[20], Wired^[21], CNN^[22] и BBC^[23]. Особенно интересно для специалистов стал тот факт, что ИИ получил некоторые навыки визуального мышления, позволившие оному пройти тест Рейвена, созданный для оценки интеллекта людей^[24].

DALL-E характеризуется как устойчивая и крайне надёжная нейронная сеть для создания изображений различного плана^[6]. Сэм Шхед в репортаже для CNBC назвал изображения «интересными» и процитировал Нила Лоуренса, профессора машинного обучения Кембриджского университета, который назвал это «вдохновляющей демонстрацией способности этих моделей хранить информацию о нашем мире и обобщать его способами, которые для людей естественны». Шхед также процитировал Марка Ридла, доцента Технической школы интерактивных вычислений Джорджии, который сказал, что результаты демонстрации DALL-E показали, что он способен «согласованно сочетать концепции», и что «демоверсия DALL-E примечательна созданием иллюстраций, которые гораздо более связны, чем другие системы Text2Image, которые я видел за последние несколько лет»^[25]. BBC также цитирует Ридля, который сказал, что он был «впечатлён тем, что система могла сделать»^[23].

Примечания

↑ https://www.openai.com/blog/dall-e/
↑ ¹ ² Microsoft Invests In and Partners with OpenAI to Support Us Building Beneficial AGI (англ.). OpenAI (22 июня 2019). Дата обращения: 4 июля 2022. Архивировано 7 ноября 2020 года.
↑ Nicolás Rivero. The best examples of DALL-E 2’s strange, beautiful AI art (англ.). QUARTZ (11 июня 2022). Дата обращения: 4 июля 2022. Архивировано 5 июля 2022 года.
↑ ¹ ² OpenAI доработала нейросеть DALL-E: теперь она генерирует картинки по текстовому описанию и редактирует уже готовые (рус.). vc.ru (7 апреля 2022). Дата обращения: 4 июля 2022. Архивировано 5 июля 2022 года.
↑ ¹ ² ³ Will Douglas Heaven. This avocado armchair could be the future of AI (англ.). MIT Technology Review (5 января 2021). Дата обращения: 4 июля 2022. Архивировано 5 января 2021 года.
↑ ¹ ² ³ ⁴ Coldewey, Devin. OpenAI’s DALL-E creates plausible images of literally anything you ask it to (англ.). TechCrunch (5 января 2021). Дата обращения: 4 июля 2022. Архивировано 6 января 2021 года.
↑ Jordan Novet. A.I. software called DALL-E turns your words into pictures (англ.). CNBC (18 июня 2022). Дата обращения: 4 июля 2022. Архивировано 5 июля 2022 года.
↑ Gary Marcus, Ernest Davis, Scott Aaronson. A very preliminary analysis of DALL-E 2 (англ.) // Cornell University. — 2022. — doi:10.48550. Архивировано 5 июля 2022 года.
↑ ¹ ² Jeremy Kahn. Move over, Photoshop: OpenAI just revolutionized digital image making (англ.). Fortune (6 апреля 2022). Дата обращения: 4 июля 2022. Архивировано 10 апреля 2022 года.
↑ Hope Corrigan. Photographer uses DALL-E 2 AI to automatically edit images better than Photoshop (англ.). PC Gamer (1 июля 2022). Дата обращения: 4 июля 2022. Архивировано 5 июля 2022 года.
↑ Gloria Liu. The World’s Smartest Artificial Intelligence Just Made Its First Magazine Cover (англ.). Cosmopolitan (21 июня 2022). Дата обращения: 4 июля 2022. Архивировано 3 июля 2022 года.
↑ OpenAI представила новую версию генератора изображений DALL-E 3 (неопр.). Коммерсантъ (29 сентября 2023). Дата обращения: 25 сентября 2023.
↑ OpenAI отключила генератор картинок DALL-E 2 (неопр.). Hi-tech Mail.ru (19 апреля 2024). Дата обращения: 24 апреля 2024.
↑ ¹ ² Khari Johnson. OpenAI debuts DALL-E for generating images from text (англ.). VentureBeat (5 января 2021). Дата обращения: 4 июля 2022. Архивировано 5 января 2021 года.
↑ Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya. Improving Language Understanding by Generative Pre-Training (англ.) // OpenAI. — 2018. Архивировано 5 февраля 2021 года.
↑ S. Dent. OpenAI's DALL-E app generates images from just a description (англ.). Engadget (6 января 2021). Дата обращения: 4 июля 2022. Архивировано 27 января 2021 года.
↑ Thom Dunn. This AI neural network transforms text captions into art, like a jellyfish Pikachu (англ.). BoingBoing (10 февраля 2021). Дата обращения: 4 июля 2022. Архивировано 22 февраля 2021 года.
↑ Mehreen Kasana. This AI turns text into surreal, suggestion-driven art (англ.). Input (1 июля 2021). Дата обращения: 4 июля 2022. Архивировано 29 января 2021 года.
↑ Melanie Ehrenkranz. Here's DALL-E: An algorithm learned to draw anything you tell it (англ.). NBC (28 января 2021). Дата обращения: 4 июля 2022. Архивировано 20 февраля 2021 года.
↑ Emma Stoye. Tardigrade circus and a tree of life — January’s best science images (англ.). Nature (5 февраля 2021). Дата обращения: 4 июля 2022. Архивировано 8 марта 2021 года.
↑ Will Knight. This AI Could Go From ‘Art’ to Steering a Self-Driving Car (англ.). Wired (26 января 2021). Дата обращения: 4 июля 2022. Архивировано 21 февраля 2021 года.
↑ Rachel Metz. A radish in a tutu walking a dog? This AI can draw it really well (англ.). CNN (8 января 2021). Дата обращения: 4 июля 2022. Архивировано 1 июля 2022 года.
↑ ¹ ² Jane Wakefield. AI draws dog-walking baby radish in a tutu (англ.). BBC (6 января 2021). Дата обращения: 4 июля 2022. Архивировано 2 марта 2021 года.
↑ Markowitz, Dale. Here's how OpenAI's magical DALL-E image generator works (англ.). TheNextWeb (23 февраля 2021). Дата обращения: 4 июля 2022. Архивировано 23 февраля 2021 года.
↑ Sam Shead. TECH Why everyone is talking about an image generator released by an Elon Musk-backed A.I. lab (англ.). CNBC (8 января 2021). Дата обращения: 4 июля 2022. Архивировано 16 июля 2022 года.

Литература

Jens Knappe: Genesis. A Creation Story in Cooperation with an Artificial Intelligence, Berlin 2022, ISBN 978-3-940948-45-8.

Обработка естественного языка
Общие определения	Языковая модель Корпус текстов Речевой корпус Стоп-слова Мешок слов AI-полнота N-грамма Биграммный шифр Триграмма
Анализ текста	Сегментация текста^[en] Частеречная разметка Поверхностно-синтаксический анализ Обработка сложных слов^[en] Извлечение коллокаций^[en] Стемминг Лемматизация Распознавание именованных сущностей^[en] Разрешение кореферентности Анализ тональности текста Извлечение концептов^[en] Синтаксический анализ Разрешение лексической многозначности Извлечение терминологии^[en] Извлечение информации Идентификация языка Определение регистра^[en]
Реферирование	Извлечение предложений^[en] Генерация реферата Многодокументное реферирование^[en] Упрощение текста^[en]
Машинный перевод	Автоматизированный Гибридный Интерлингвальный^[en] На основе правил На основе примеров На основе словаря^[en] На основе трансформации Нейронный Статистический Синхронный
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентное размещение Дирихле Латентно-семантический анализ
Рецензирование	Автоматизированная оценка сочинений^[en] Конкордансер Предиктивный ввод текста Система проверки грамматики^[en] Система проверки правописания Угадывание синтаксиса^[en]
Интерфейс на естественном языке^[en]	Виртуальный ассистент Виртуальный собеседник Вопросно-ответная система Голосовой интерфейс Интерактивная литература

Типы искусственных нейронных сетей
Сеть прямого распространения Сеть радиально-базисных функций Однослойный перцептрон Многослойный перцептрон Розенблата Румельхарта Сеть Хопфилда Цепь Маркова Машина Больцмана Ограниченная машина Больцмана Автокодировщик Шумоподавляющий автокодировщик^[en] Разреженный автокодировщик^[en] Вариационный автокодировщик^[en] Глубокая сеть доверия Свёрточная нейронная сеть Глубинная свёрточная нейронная сеть Развёртывающая нейронная сеть Глубинная свёрточная обратная графическая сеть Генеративно-состязательная сеть Рекуррентная нейронная сеть Рекурсивные нейронные сети Долгая краткосрочная память Управляемый рекуррентный блок Нейронные машины Тьюринга^[en] Двунаправленная сеть Двунаправленная рекуррентная нейросеть^[en] Двунаправленная сеть с долгой краткосрочной памятью Двунаправленные управляемые рекуррентные нейроны Глубинная остаточная сеть Нейронная эхо-сеть^[en] Метод экстремального обучения^[en] Метод неустойчивых состояний^[en] Метод опорных векторов Сеть Кохонена Самоорганизующаяся карта Кохонена Капсульная нейронная сеть Ассоциативная память на нейронных сетях

Типы искусственных нейронных сетей

Сеть прямого распространения
Сеть радиально-базисных функций
Однослойный перцептрон
Многослойный перцептрон
- Розенблата
- Румельхарта
Сеть Хопфилда
Цепь Маркова
Машина Больцмана
Ограниченная машина Больцмана
Автокодировщик
- Шумоподавляющий автокодировщик^[en]
- Разреженный автокодировщик^[en]
- Вариационный автокодировщик^[en]
Глубокая сеть доверия
Свёрточная нейронная сеть
Глубинная свёрточная нейронная сеть
Развёртывающая нейронная сеть
Глубинная свёрточная обратная графическая сеть
Генеративно-состязательная сеть
Рекуррентная нейронная сеть
Рекурсивные нейронные сети
Долгая краткосрочная память
Управляемый рекуррентный блок
Нейронные машины Тьюринга^[en]
Двунаправленная сеть
- Двунаправленная рекуррентная нейросеть^[en]
- Двунаправленная сеть с долгой краткосрочной памятью
- Двунаправленные управляемые рекуррентные нейроны
Глубинная остаточная сеть
Нейронная эхо-сеть^[en]
Метод экстремального обучения^[en]
Метод неустойчивых состояний^[en]
Метод опорных векторов
Сеть Кохонена
Самоорганизующаяся карта Кохонена
Капсульная нейронная сеть
Ассоциативная память на нейронных сетях

Искусственный интеллект
История	История искусственного интеллекта Зима искусственного интеллекта Дартмутский семинар Регламент ЕС об искусственном интеллекте
Философия	Тест Тьюринга Китайская комната Сильный и слабый искусственные интеллекты Дружественный искусственный интеллект Этика искусственного интеллекта Проблема контроля
Направления	Агентный подход Адаптивное управление Инженерия знаний Модель жизнеспособной системы Машинное обучение Нейронная сеть Нечёткая логика Обработка естественного языка Распознавание образов Роевой интеллект Символический ИИ Эволюционные алгоритмы Экспертная система
Применение	Голосовое управление Задача классификации Классификация документов Кластеризация документов Кластерный анализ Локальный поиск Машинный перевод Оптическое распознавание символов Распознавание речи Распознавание рукописного ввода Игровой ИИ
Исследователи	Чарлз Бэббидж Владимир Вапник Джозеф Вейценбаум Норберт Винер Виктор Глушков Владимир Городецкий Ян Лекун Алексей Ляпунов Джон Маккарти Марвин Мински Аллен Ньюэлл Сеймур Пейперт Джуда Перл Гермоген Поспелов Дмитрий Поспелов Фрэнк Розенблатт Герберт Александер Саймон Алан Тьюринг Патрик Уинстон Виктор Финн Сергей Фомин Демис Хассабис Джеффри Хинтон Ноам Хомский Клод Шеннон Эндрю Ын Элиезер Юдковский

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k-ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Random forest Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k-ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Теория Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG