Sora

У этого термина существуют и другие значения, см. Сора.

Sora
Пример работы Sora
Тип	Генеративный искусственный интеллект
Автор	OpenAI
Разработчик	OpenAI
Первый выпуск	15 февраля 2024
Сайт	openai.com/sora (англ.)
Медиафайлы на Викискладе

Sora — модель искусственного интеллекта, предназначенная для генерации Full HD-видео по короткому текстовому описанию — промпту. Разработана компанией OpenAI, ранее выпустившей такие продукты, как DALL-E и ChatGPT. Выпущена 15 февраля 2024 года и находится в стадии ограниченного тестирования^[1].

Предыстория

Первые крупные разработки в области генерации видео по текстовому описанию (text-to-video) были опубликованы в 2022 году. Тогда компаниями Meta и Google независимо друг от друга были представлены модели Make-A-Video, Phenaki и Imagen Video, позволяющие создавать короткие видеоролики по текстовому описанию и/или статичной картинке^[2]. Качество таких видео было невысоким. Так, Phenaki позволяла создавать видео с базовым разрешением 128×128 пикселей^[3], Imagen — 1280×768 и максимальной продолжительностью 5,3 секунды^[4]. В январе 2024 года Google представила модель Lumiere, позволявшую генерировать видео в разрешении 512×512 пикселей и продолжительностью также до 5 секунд^[5].

Описание

15 февраля 2024 года компания OpenAI официально представила модель Sora. Она представляет собой диффузионную модель^[en], также создающую видео по текстовому описанию. Процесс генерации начинается со случайного шума, который постепенно преобразуется в изображение. Так же как и GPT, Sora имеет архитектуру трансформера, однако для представления информации вместо токенов использует пространственно-временные патчи — фрагменты, содержащие информацию о частях кадров и их изменении во времени^[2].

Согласно заявлению производителя, Sora умеет генерировать видеоролики с максимальным разрешением 1920×1080 и максимальной продолжительностью 1 минута, что превосходит по качеству все предыдущие модели данного типа^[2]. В качестве демонстрации OpenAI представил несколько сгенерированных роликов, изображающих, в частности, гуляющих по заснеженному Токио людей, сидящего около свечи пушистого монстра и нескольких мамонтов, идущих через заснеженный луг^[6]. Помимо генерации видео по тексту, в качестве возможностей Sora заявлены дополнение уже существующих видеороликов и анимирование статичных изображений, изменение направления воспроизведения и склейка видеофрагментов между собой^[2].

При высоком качестве генерации контента Sora иногда может допускать ошибки. Так, производитель в числе проблем нейросети называет неточное воспроизведение физики в сложных сценах. Также отмечаются проблемы с пониманием причинно-следственных связей: например, отсутствие следов зубов на печенье после того, как его надкусил человек. Кроме того, иногда у модели возникает путаница с ориентацией в пространстве и с воспроизведением длительных событий^[2]^[7].

На данный момент Sora недоступна для широкого использования^[8]. С 15 февраля 2024 доступом к разработке могут воспользоваться тестировщики и специалисты по кибербезопасности для поиска уязвимостей, а также профессионалы в области визуального искусства^[7].

Реакция

Кейд Метц, обозреватель The New York Times, назвал опубликованные результаты работы Sora «потрясающими» и сравнил их с кадрами из голливудского фильма^[9]. Похожее мнение высказал и Wired, отметив также, что сгенерированные Sora видео всё же имеют свои недостатки^[6].

Одним из главных опасений, высказываемых в адрес Sora, является потенциальная возможность использования технологии в целях дезинформации. Особенно опасным сценарием NBC News назвал создание высококачественных фейков для предвыборной пропаганды или в условиях глобальных конфликтов. Федеральная торговая комиссия США предложила объявить незаконной генерацию контента с участием реальных людей при помощи искусственного интеллекта. По словам OpenAI, компания работает над созданием инструментов, которые будут специальным образом помечать и распознавать видео, созданные ИИ, для предотвращения недобросовестного использования разработки^[8]^[5].

Ещё одной проблемой, связанной с Sora, является возможное нарушение авторских прав в сгенерированных видео. По словам Билли Пиблса, одного из участников проекта, для обучения модели используется в том числе общедоступный контент. Ранее против OpenAI уже подавались судебные иски, при рассмотрении которых следует выяснить, является ли допустимым использование защищённого авторским правом общедоступного контента для обучения ИИ^[6].

Примечания

↑ OpenAI представила модель ИИ Sora по преобразованию текста в видео (рус.). ТАСС (16 февраля 2024). Дата обращения: 18 января 2024. Архивировано 16 февраля 2024 года.
↑ ¹ ² ³ ⁴ ⁵ Андрей Фокин. OpenAI представила нейросеть для генерации видео по текстовому описанию (рус.). N + 1 (19 февраля 2024). Дата обращения: 27 февраля 2024. Архивировано 22 февраля 2024 года.
↑ Phenaki (англ.). Google Research. Дата обращения: 27 февраля 2024. Архивировано 27 февраля 2024 года.
↑ Artificial Intelligence: Google Announces Imagen, Its Text-To-Video Tool (англ.). DailyAlts (6 октября 2022). Дата обращения: 27 февраля 2024. Архивировано 27 февраля 2024 года.
↑ ¹ ² Сергей Колесников. Sora неизбежна: каким может быть будущее видеотехнологий (рус.). Forbes (25 февраля 2024). Дата обращения: 27 февраля 2024. Архивировано 26 февраля 2024 года.
↑ ¹ ² ³ Steven Levy. OpenAI’s Sora Turns AI Prompts Into Photorealistic Videos (англ.). Wired (15 февраля 2024). Дата обращения: 27 февраля 2024. Архивировано 15 февраля 2024 года.
↑ ¹ ² Сергей Мингазов. OpenAl открыла доступ тестировщикам к генератору видео на основе текста Sora (рус.). Forbes (16 февраля 2024). Дата обращения: 27 февраля 2024. Архивировано 27 февраля 2024 года.
↑ ¹ ² Angela Yang. OpenAI teases ‘Sora,’ its new text-to-video AI model (англ.). NBC News (16 февраля 2024). Дата обращения: 27 февраля 2024. Архивировано 15 февраля 2024 года.
↑ Cade Metz. OpenAI Unveils A.I. That Instantly Generates Eye-Popping Videos (англ.). The New York Times (15 февраля 2024). Дата обращения: 3 марта 2024. Архивировано 15 февраля 2024 года.

Обработка естественного языка
Общие определения	Языковая модель Корпус текстов Речевой корпус Стоп-слова Мешок слов AI-полнота N-грамма Биграммный шифр Триграмма
Анализ текста	Сегментация текста^[en] Частеречная разметка Поверхностно-синтаксический анализ Обработка сложных слов^[en] Извлечение коллокаций^[en] Стемминг Лемматизация Распознавание именованных сущностей^[en] Разрешение кореферентности Анализ тональности текста Извлечение концептов^[en] Синтаксический анализ Разрешение лексической многозначности Извлечение терминологии^[en] Извлечение информации Идентификация языка Определение регистра^[en]
Реферирование	Извлечение предложений^[en] Генерация реферата Многодокументное реферирование^[en] Упрощение текста^[en]
Машинный перевод	Автоматизированный Гибридный Интерлингвальный^[en] На основе правил На основе примеров На основе словаря^[en] На основе трансформации Нейронный Статистический Синхронный
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентное размещение Дирихле Латентно-семантический анализ
Рецензирование	Автоматизированная оценка сочинений^[en] Конкордансер Предиктивный ввод текста Система проверки грамматики^[en] Система проверки правописания Угадывание синтаксиса^[en]
Интерфейс на естественном языке^[en]	Виртуальный ассистент Виртуальный собеседник Вопросно-ответная система Голосовой интерфейс Интерактивная литература

Типы искусственных нейронных сетей
Сеть прямого распространения Сеть радиально-базисных функций Однослойный перцептрон Многослойный перцептрон Розенблата Румельхарта Сеть Хопфилда Цепь Маркова Машина Больцмана Ограниченная машина Больцмана Автокодировщик Шумоподавляющий автокодировщик^[en] Разреженный автокодировщик^[en] Вариационный автокодировщик^[en] Глубокая сеть доверия Свёрточная нейронная сеть Глубинная свёрточная нейронная сеть Развёртывающая нейронная сеть Глубинная свёрточная обратная графическая сеть Генеративно-состязательная сеть Рекуррентная нейронная сеть Рекурсивные нейронные сети Долгая краткосрочная память Управляемый рекуррентный блок Нейронные машины Тьюринга^[en] Двунаправленная сеть Двунаправленная рекуррентная нейросеть^[en] Двунаправленная сеть с долгой краткосрочной памятью Двунаправленные управляемые рекуррентные нейроны Глубинная остаточная сеть Нейронная эхо-сеть^[en] Метод экстремального обучения^[en] Метод неустойчивых состояний^[en] Метод опорных векторов Сеть Кохонена Самоорганизующаяся карта Кохонена Капсульная нейронная сеть Ассоциативная память на нейронных сетях

Типы искусственных нейронных сетей

Сеть прямого распространения
Сеть радиально-базисных функций
Однослойный перцептрон
Многослойный перцептрон
- Розенблата
- Румельхарта
Сеть Хопфилда
Цепь Маркова
Машина Больцмана
Ограниченная машина Больцмана
Автокодировщик
- Шумоподавляющий автокодировщик^[en]
- Разреженный автокодировщик^[en]
- Вариационный автокодировщик^[en]
Глубокая сеть доверия
Свёрточная нейронная сеть
Глубинная свёрточная нейронная сеть
Развёртывающая нейронная сеть
Глубинная свёрточная обратная графическая сеть
Генеративно-состязательная сеть
Рекуррентная нейронная сеть
Рекурсивные нейронные сети
Долгая краткосрочная память
Управляемый рекуррентный блок
Нейронные машины Тьюринга^[en]
Двунаправленная сеть
- Двунаправленная рекуррентная нейросеть^[en]
- Двунаправленная сеть с долгой краткосрочной памятью
- Двунаправленные управляемые рекуррентные нейроны
Глубинная остаточная сеть
Нейронная эхо-сеть^[en]
Метод экстремального обучения^[en]
Метод неустойчивых состояний^[en]
Метод опорных векторов
Сеть Кохонена
Самоорганизующаяся карта Кохонена
Капсульная нейронная сеть
Ассоциативная память на нейронных сетях

Искусственный интеллект
История	История искусственного интеллекта Зима искусственного интеллекта Дартмутский семинар Регламент ЕС об искусственном интеллекте
Философия	Тест Тьюринга Китайская комната Сильный и слабый искусственные интеллекты Дружественный искусственный интеллект Этика искусственного интеллекта Проблема контроля
Направления	Агентный подход Адаптивное управление Инженерия знаний Модель жизнеспособной системы Машинное обучение Нейронная сеть Нечёткая логика Обработка естественного языка Распознавание образов Роевой интеллект Символический ИИ Эволюционные алгоритмы Экспертная система
Применение	Голосовое управление Задача классификации Классификация документов Кластеризация документов Кластерный анализ Локальный поиск Машинный перевод Оптическое распознавание символов Распознавание речи Распознавание рукописного ввода Игровой ИИ
Исследователи	Чарлз Бэббидж Владимир Вапник Джозеф Вейценбаум Норберт Винер Виктор Глушков Владимир Городецкий Ян Лекун Алексей Ляпунов Джон Маккарти Марвин Мински Аллен Ньюэлл Сеймур Пейперт Джуда Перл Гермоген Поспелов Дмитрий Поспелов Фрэнк Розенблатт Герберт Александер Саймон Алан Тьюринг Патрик Уинстон Виктор Финн Сергей Фомин Демис Хассабис Джеффри Хинтон Ноам Хомский Клод Шеннон Эндрю Ын Элиезер Юдковский

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k-ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Random forest Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k-ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Теория Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG