Двухминутное чудо: KLING делает то, что не под силу даже OpenAI.
Китайская технологическая компания Kuaishou представила Для просмотра ссылки Войдиили Зарегистрируйся – новую модель генерации видео, которая, судя по демонстрациям, может составить конкуренцию Sora от OpenAI.
Kuaishou заявляет, что KLING способен создавать видеоролики длительностью до двух минут в разрешении 1080p и с частотой 30 кадров в секунду. Модель также умеет моделировать сложные движения, которые выглядят физически правдоподобно.
В качестве примера возможностей KLING приводится видеоролик двухминутной поездки на поезде, созданный по запросу «Поездка на поезде с видом на различные пейзажи за окном». Для сравнения, OpenAI представила свою модель видеогенерации Sora в середине февраля, способную создавать относительно стабильные видеоролики длительностью до одной минуты.
Еще один пример демонстрирует видео, где мальчик катается на велосипеде в саду, а окружающий пейзаж меняется в зависимости от сезона. Несмотря на смену сезонов, мальчик на велосипеде остается удивительно стабильным и выглядит достаточно правдоподобно.
<style> .responsive-video { position: relative; padding-bottom: 56.25%; padding-top: 25px; height: 0; } .responsive-video iframe { position: absolute; top: 0; left: 0; width: 100%; height: 100%; }</style> <div class="responsive-video"><iframe width="560" height="315" src="Для просмотра ссылки Войдиили Зарегистрируйся" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen=""></iframe> Видео: kling.kuaishou.com
По словам разработчиков, KLING использует систему пространственно-временного внимания для лучшего моделирования движения и физического взаимодействия. Кроме того, благодаря масштабируемой архитектуре и оптимизированному выводу модель способна генерировать длинные видеоролики высокого разрешения.
Kuaishou утверждает, что модель корректно имитирует физические свойства реального мира. Например, в одном из роликов мальчик ест чизбургер в ресторане быстрого питания, и размер бургера уменьшается после первого укуса. Другие примеры включают нарезку лука ножом и человека, который ест пасту с тарелки, демонстрируя физическое взаимодействие между объектами.
<style> .responsive-video { position: relative; padding-bottom: 56.25%; padding-top: 25px; height: 0; } .responsive-video iframe { position: absolute; top: 0; left: 0; width: 100%; height: 100%; }</style> <div class="responsive-video"><iframe width="560" height="315" src="Для просмотра ссылки Войдиили Зарегистрируйся" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen=""></iframe>
Видео: kling.kuaishou.com
С помощью диффузионного трансформатора KLING также может объединять концепции и создавать вымышленные сцены, например, кота, управляющего автомобилем в оживлённом городе.
На данный момент модель KLING доступна в виде демоверсии в Китае. Kuaishou – пекинская технологическая компания, известная в Поднебесной своими приложениями для социальных сетей.
Китайская технологическая компания Kuaishou представила Для просмотра ссылки Войди
Kuaishou заявляет, что KLING способен создавать видеоролики длительностью до двух минут в разрешении 1080p и с частотой 30 кадров в секунду. Модель также умеет моделировать сложные движения, которые выглядят физически правдоподобно.
В качестве примера возможностей KLING приводится видеоролик двухминутной поездки на поезде, созданный по запросу «Поездка на поезде с видом на различные пейзажи за окном». Для сравнения, OpenAI представила свою модель видеогенерации Sora в середине февраля, способную создавать относительно стабильные видеоролики длительностью до одной минуты.
Еще один пример демонстрирует видео, где мальчик катается на велосипеде в саду, а окружающий пейзаж меняется в зависимости от сезона. Несмотря на смену сезонов, мальчик на велосипеде остается удивительно стабильным и выглядит достаточно правдоподобно.
<style> .responsive-video { position: relative; padding-bottom: 56.25%; padding-top: 25px; height: 0; } .responsive-video iframe { position: absolute; top: 0; left: 0; width: 100%; height: 100%; }</style> <div class="responsive-video"><iframe width="560" height="315" src="Для просмотра ссылки Войди
По словам разработчиков, KLING использует систему пространственно-временного внимания для лучшего моделирования движения и физического взаимодействия. Кроме того, благодаря масштабируемой архитектуре и оптимизированному выводу модель способна генерировать длинные видеоролики высокого разрешения.
Kuaishou утверждает, что модель корректно имитирует физические свойства реального мира. Например, в одном из роликов мальчик ест чизбургер в ресторане быстрого питания, и размер бургера уменьшается после первого укуса. Другие примеры включают нарезку лука ножом и человека, который ест пасту с тарелки, демонстрируя физическое взаимодействие между объектами.
<style> .responsive-video { position: relative; padding-bottom: 56.25%; padding-top: 25px; height: 0; } .responsive-video iframe { position: absolute; top: 0; left: 0; width: 100%; height: 100%; }</style> <div class="responsive-video"><iframe width="560" height="315" src="Для просмотра ссылки Войди
Видео: kling.kuaishou.com
С помощью диффузионного трансформатора KLING также может объединять концепции и создавать вымышленные сцены, например, кота, управляющего автомобилем в оживлённом городе.
На данный момент модель KLING доступна в виде демоверсии в Китае. Kuaishou – пекинская технологическая компания, известная в Поднебесной своими приложениями для социальных сетей.
- Источник новости
- www.securitylab.ru