Сиолошная

https://openai.com/sora OpenAI воспользовались минутой слабостью, и пока я спал, потому что болела голова, порвали мир генерации видео-по-тексту. То что вы видите выше — примеры работ, сгенерированных моделью SORA. Посмотреть больше примеров можно в других…

Тех. блог: https://openai.com/research/video-generation-models-as-world-simulators
(Model and implementation details are not included in this report)

Поехали, очень клёвое название

Main takeaway:
> We find that video models exhibit a number of interesting emergent capabilities when trained at scale. These capabilities enable Sora to simulate some aspects of people, animals and environments from the physical world. These properties emerge without any explicit inductive biases for 3D, objects, etc.—they are purely phenomena of scale.

Масштабирование и вычислительные мощности снова победили. Ну теперь ясно, куда пойдут 7 триллионов!

Openai

Video generation models as world simulators

We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that operates…

15.4K viewsedited 00:58

Ключевых деталей вроде точной архитектуры, принцнипа сборки и фильтрации датасета нет, но всё же интересности нашлись. Тезисно:

— OpenAI продолжают развивать свой путь к выучиванию большими нейронками картины мира просто из доступных данных, без лишних усложнений. Если вы смотрели лекции 1.1 и 1.2 моего курса, то для вас это не новость — я рассказывал, что ещё в 2017м году до GPT-1 топовые исследователи делали Proof-of-Concept для этого. Отсюда и название работы: модели генерации видео как СИМУЛЯТОРЫ МИРА
— Также как и для других моделей, здесь соблюдаются законы масштабирования: больше моделька, больше вычислительных мощностей = лучше результат. Боюсь представить, сколько времени это всё училось.
— Обычно модели генерации видео учатся на обрезанных до одного и того же (малого) размера кадра. Например, 256x256 пикселей. В OpenAI решили тренировать на том, что было, в разрешении вплоть до FullHD и с любым соотношением сторон. Это позволяет Sora генерировать хоть вертикальные видео, хоть горизонтальные, хоть аналоги того, что снимают на плёнку 2.35:1
— Для тренировки такой модели нужно огромное количество видео с грамотно составленным текстовым описанием. Такого контента в мире мало, поэтому делают тот же трюк, что был применён в DALL-E 3: обучают отдельную модель для написания высококачественного, но короткого описания, а затем с помощью GPT-4v расшивают его деталями. Обучение на синтетических описаниях значимо увеличивает качество генерации, отмечают исследователи
— Так как в основе лежит трансформер, который принимает вектора и выплёвывает вектора, то можно делать разную магию: можно генерировать не видео, а изображение, можно просить анимировать уже нарисованную кем-то или чем-то картинку, можно просить догенерировать видео — причём не обязательно только в будущее, можно получить и кадры из прошлого, что предшествовало куску видео. А ещё можно заставлять модель склеивать пары видео в одно (примеры скину ниже)

И теперь самое главное: навыки, которым никто модель не учил, но которые сами по себе появились из-за беспрецедентного (™) масштаба:
— согласованность 3D пространства: камера может свободно перемещаться в «виртуальном мире» (существующем в момент генерации), крутиться итд.
— постоянство объектов в кадре и долгосрочная память: в течение всего видео какие-то ключевые объекты не будут менять ни форму, ни текстуру (как это бывало почти у всех предыдущих моделей). Если какие-то объекты пропадают из кадра, то часто появляются такими же, какими были до исчезновения, и в правильном месте
— интерактивность мира: объекты могут взаимодействовать и реалистично изменяться, хоть и не идеально (см. примеры ниже)
— симуляция цифровых миров: вот это очень интересный пункт. Sora может воссоздать мир игры Minecraft (жаль какую-то динамическую стрелялку не показали!) и одновременно управлять игроком в Minecraft (вернее симулировать поведение игрока), а также отображать мир и его изменение с высокой точностью. И всё это без детального описания в промпте. Эти «навыки» модели позволяют предположить, что дальнейшее масштабирование видеомоделей является многообещающим путем к разработке высокофункциональных симуляторов физического и цифрового миров, а также объектов, животных и людей, которые «живут» в них. Звучит как фантастика, но серьёзно — а что остаётся модели делать, чтобы хорошо предсказывать часовые видео? Приходится симулировать действо в них, понимая логику всех объектов, самого физического мира и его правил

Однако у этого симулятора есть множество недостатков, которые заметны при детальнейшем рассмотрении генераций. Увеличим модельку ещё — увидим, к чему это ~~нас~~ OpenAI приведёт!

17.1K views02:17

0:10

0:04

Два примера генерации видео по входному изображению.

16.2K views02:17

Пример склейки двух первых видео в одно третье. Не до конца понятно, как в данном случае задаётся промпт: показываются ли оба видео полностью, и пишется ли какой-то текст, или же это отдельный режим смешивания, например, эмбеддингов.

(Извините что видео тяжелые)

26.2K views02:18

0:15

0:10