Теперь не только картинки! Новая нейросеть создаёт видео по текстовому описанию

Анна Борисова

Компания OpenAI представила модель искусственного интеллекта, которая может cоздавать реалистичные видео-сцены на основе текстовых конструкций. Прощай, видеокамера?

Sora —  это модель преобразования текста в видео. Sora может создавать видеоролики продолжительностью до минуты, сохраняя при этом визуальное качество и следуя указаниям пользователя.

Один из роликов (cм. ниже), представленный для демонстрации модели, был основан на таком запросе: «Трейлер фильма о приключениях 30-летнего космонавта в красном шерстяном вязаном мотоциклетном шлеме, голубое небо, соляная пустыня, кинематографический стиль, снято на 35-миллиметровую пленку, яркие цвета».

 

 

Модель названа Sora в честь японского слова «небо».

Посмотреть первые созданные ИИ ролики можно на сайте OpenAI в разделе Sora.

New York Time cообщает, что сейчас компания открыла доступ к Sora некоторым создателям видео, чтобы они протестировали модель на нарушение условий OpenAI, которые запрещают «экстремальное насилие, сексуальный контент, разжигающие ненависть изображения, образы знаменитостей или чужую интеллектуальную собственность».

Помимо возможности генерировать видео исключительно на основе текстовых инструкций, модель может брать существующее неподвижное изображение и генерировать из него видео, анимируя содержимое изображения с точностью и вниманием к мелким деталям. Модель также может взять существующее видео и расширить его или заполнить недостающие кадры.

В техническом описании на сайте Openai.com говорится: «Мы исследуем масштабное обучение генеративных моделей на видеоданных. В частности, мы совместно обучаем модели условного распространения текста на видео и изображениях различной продолжительности, разрешения и соотношения сторон. Мы используем архитектуру преобразователя, которая работает с пространственно-временными фрагментами скрытых кодов видео и изображений. Наша самая крупная модель Sora способна генерировать минутное видео высокого качества. Наши результаты показывают, что масштабирование моделей генерации видео является многообещающим путем к созданию универсальных симуляторов физического мира.»

Модель обладает глубоким пониманием языка, что позволяет ей точно интерпретировать подсказки и создавать убедительные символы, выражающие яркие эмоции. Сора также может создавать несколько кадров в одном видео, в которых точно сохраняются персонажи и визуальный стиль.

  •  
  •  
  •  
  •  
  •  

В мире

Латвия

ЧП

Бизнес

Культура

Mixer

Зеленая Лампа

Спорт