Что ни день, в мире появляется новая генеративная нейросеть.
На этот раз представляем вам разработку OpenAI — Sora. Это модель, которая генерирует видео по текстовому запросу.
В основе Sora — трансформеры, адаптированные для видеогенерации, и механизмы, аналогичные GPT. Этот позволяет модели обрабатывать текстовые описания и генерировать визуальные образы.
Sora генерирует видео итеративно, постепенно улучшая качество картинки, пока оно не начнет соответствовать заданному сценарию. Для обучения Sora использует большой набор данных с разными визуальными и динамическими образцами из реального мира.
При иногда модель работает неидеально: она может перепутать право и лево, неточно передать физические свойства предмета. На некоторых спортсмен на беговой дорожке бежит https://vk.cc/cuGtHn не в ту сторону, баскетбольный мяч https://vk.cc/cuGtN6 взрывается, ударяясь о кольцо.
Тем не менее разработчикам удалось сделать большой шаг вперед, научив нейросеть создавать реалистичные и детализированные ролики с разрешением 1080p и продолжительностью до минуты.
Пока модель доступна только для тестирования, посмотреть больше видео и изучить промпты можно на сайте OpenAI.
https://vk.cc/cuFsMZ