Sora, инструмент OpenAI для преобразования текста в видео

В четверг OpenAI вызвала ажиотаж, представив Sora, свой первый инструмент, который может превратить текстовую подсказку в видео продолжительностью до одной минуты, — Axios.
Почему это важно : в то время как другие, в том числе Meta , Google и Runway, имеют свои собственные движки преобразования текста в видео, реализм, показанный в примерах видеороликов, вызвал мощный спектр эмоций.

Подробности: Sora — это диффузионная модель, которая способна «генерировать сложные сцены с несколькими персонажами, определенными типами движения и точными деталями объекта и фона», согласно OpenAI.

Сора сможет понимать нюансы подсказки, а также то, как ведут себя различные объекты в физическом мире.
Сора также генерирует целое видео сразу, а не покадрово. Это помогает избежать того, что было проблемой непрерывности при других подходах — гарантировать, что объект остается неизменным, даже когда он временно исчезает из поля зрения.

Между строк: представитель OpenAI подчеркнул, что не планирует в ближайшее время делать Sora широко доступной, поскольку продолжает работать над рядом вопросов безопасности, включая усилия по сокращению дезинформации, ненавистнического контента и предвзятости, а также четко маркировать выходные данные, сгенерированные AI.

OpenAI сообщила в своем блоге, что делает Sora доступной для некоторых ранних тестировщиков, в том числе как для «красных команд», которые будут пытаться выявить потенциальные проблемы безопасности, так и для ряда художников, дизайнеров и режиссеров, чтобы получить отзывы о том, как модель может помочь им в работе.

OpenAI получила ряд отзывов, основанных как на самом объявлении, так и на решении генерального директора OpenAI Сэма Альтмана создать проекты Sora на основе нескольких подсказок , предложенных на X (ранее Twitter).
(в пересказе)