Sora (модель перетворення тексту у відео)
Тип | Перетворення тексту на відео[en] |
---|---|
Автор | OpenAI |
Розробник | OpenAI |
Перший випуск | 15 лютого, 2024 |
Платформа | OpenAI |
Вебсайт | openai.com/index/sora/ |
Sora — модель перетворення тексту у відео, створена американською дослідницькою організацією зі штучного інтелекту (ШІ) OpenAI. Вона може створювати відео на основі описових підказок, а також розширювати існуючі відео вперед або назад у часі[1][2].
До виходу Sora було створено кілька інших, менш реалістичних моделей перетворення тексту на відео, зокрема Make-A-Video від Meta, Gen-2 від Runway та Lumiere від Google, остання станом на лютий 2024 знаходиться на стадії дослідження[3][4]. OpenAI, компанія, що стоїть за Sora, випустила DALL-E 3, третю зі своїх моделей перетворення тексту в зображення DALL-E, у вересні 2023 року [5]
Команда, яка розробила Sora, назвала її на честь японського слова «небо», що означає «безмежний творчий потенціал»[1]. 15 лютого 2024 року OpenAI вперше продемонстрував Sora, випустивши кілька кліпів створених нею відео високої чіткості, включаючи позашляховик, що їде по гірській дорозі, анімацію «короткого пухнастого монстра» поруч зі свічкою, двох людей, що йдуть по снігу через Токіо, і підроблені історичні кадри каліфорнійської золотої лихоманки. Також OpenAI заявила, що модель здатна генерувати відео тривалістю до однієї хвилини[4][3]. Потім компанія поділилася технічним звітом, в якому висвітлюються методи, які використовуються для навчання моделі[6]. Генеральний директор OpenAI Сем Альтман також опублікував серію твітів, відповідаючи на підказки користувачів Твіттер за допомогою відео підказок, згенерованих Sora.
OpenAI заявила, що планує зробити Sora доступною для громадськості, але це буде нескоро; не уточнюється коли[4][7]. Компанія надала обмежений доступ невеликій «червоній команді», включаючи експертів з дезінформації та упередженості, для проведення конкурентного тестування моделі[5]. Компанія також поділилася Sora з невеликою групою творчих професіоналів, включаючи творців відео і художників, щоб отримати відгуки про її корисність у творчих сферах[6].
Технологія Sora є адаптацією технології DALL-E 3[6]. Відповідно до OpenAI, Sora — це шумопоглинаюча дифузія в латентному просторі з одним трансформатором як шумозаглушувачем. Відео генерується в латентному просторі шляхом усунення шуму в 3D-«патчах», а потім перетворюється у стандартний простір за допомогою відеодекомпресора. Повторні субтитри використовуються під час навчання, щоб створити хороші субтитри до відео, які не мають їх[2].
OpenAI навчив модель, використовуючи загальнодоступні відео, а також захищені авторським правом відео, ліцензовані для цієї мети, але не розкрив кількість або точне джерело відео[1]. Після випуску OpenAI визнав деякі недоліки Sora, включно з її труднощами з імітацією складної фізики, розумінням причинно-наслідкових зв'язків і відмінністю лівого від правого[8]. OpenAI також заявив, що, дотримуючись існуючих практик безпеки компанії, Sora обмежить текстові підказки щодо сексуальних, насильницьких, ненависті чи зображень знаменитостей, а також контенту, що містить уже існуючу інтелектуальну власність[5]. Тім Брукс, дослідник Sora, заявив, що модель зрозуміла, як створити 3D-графіку лише зі свого набору даних, а Білл Піблз, також дослідник Sora, сказав, що модель автоматично створювала різні ракурси відео без запиту[4]. Відповідно до OpenAI, відео, створені Sora, позначаються метаданими C2PA, щоб вказати, що вони були створені ШІ[1].
Вілл Дуглас Хейвен з MIT Technology Review назвав демонстраційні відео «вражаючими», але зазначив, що вони, мабуть, були відібрані заздалегідь і не є репрезентативними для типових результатів роботи Sora[6]. Американський науковець Орен Етціоні висловив занепокоєння щодо здатності технології створювати онлайн-дезінформацію для політичних кампаній[1]. Для Wired, Стівен Леві також писав, що фільм може стати «дезінформаційною катастрофою», і вважав, що його попередні ролики були «вражаючими», але «не досконалими», і що він «демонструє нове розуміння кінематографічної граматики» через несподівану зміну кадрів. Леві додав: «Пройде дуже багато часу, якщо взагалі буде, перш ніж перетворення тексту у відео загрожуватиме справжньому кіновиробництву»[4]. Ліза Лейсі з CNET назвала свої приклади відео «надзвичайно реалістичними — за винятком, можливо, коли людське обличчя з'являється зблизька або коли морські істоти плавають»[5].
- ↑ а б в г д Cade Metz (15 лютого 2024). OpenAI Unveils A.I. That Instantly Generates Eye-Popping Videos. The New York Times.
- ↑ а б Video generation models as world simulators. OpenAI. 15 лютого 2024. Процитовано 16 лютого 2024.
- ↑ а б Mauran, Cecily (15 лютого 2024). OpenAI announces Sora, a wild AI text-to-video model. See it in action. Mashable. Процитовано 16 лютого 2024.
- ↑ а б в г д Levy, Steven (15 лютого 2024). OpenAI's Sora Turns AI Prompts Into Photorealistic Videos. Wired. Процитовано 16 лютого 2024.
- ↑ а б в г Lacy, Lisa (15 лютого 2024). Meet Sora, OpenAI's Text-to-Video Generator. CNET. Процитовано 16 лютого 2024.
- ↑ а б в г Brooks, Tim; Peebles, Bill; Holmes, Connor; DePue, Will; Guo, Yufei; Jing, Li; Schnurr, David; Taylor, Joe; Luhman, Troy (15 лютого 2024). Video generation models as world simulators. Openai.com. OpenAI.
{{cite web}}
: Обслуговування CS1: Сторінки з параметром url-status, але без параметра archive-url (посилання) - ↑ Yang, Angela (15 лютого 2024). OpenAI teases 'Sora,' its new text-to-video AI model. NBC News. Процитовано 16 лютого 2024.
- ↑ Antonio Pequeño IV (15 лютого 2024). OpenAI Reveals 'Sora': AI Video Model Capable Of Realistic Text-To-Video Prompts. Forbes.