Сиолошная
49.6K subscribers
881 photos
157 videos
1 file
1.07K links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Download Telegram
Сиолошная
Просто посмотрите на это качество, о-ф-и-г-е-т-ь У многих txt2video стартаперов FaceId сегодня не работает
Мне кажется, нельзя найти применение этой фразе лучше:

Кому-то показываешь на GenAI и рассказываешь про будущее..одни слушают внимательно, а другие — СМОТРЯТ НА (СГЕНЕРИРОВАННЫЙ) ПАЛЕЦ.
Сиолошная
https://openai.com/sora OpenAI воспользовались минутой слабостью, и пока я спал, потому что болела голова, порвали мир генерации видео-по-тексту. То что вы видите выше — примеры работ, сгенерированных моделью SORA. Посмотреть больше примеров можно в других…
Тех. блог: https://openai.com/research/video-generation-models-as-world-simulators
(Model and implementation details are not included in this report)

Поехали, очень клёвое название

Main takeaway:
> We find that video models exhibit a number of interesting emergent capabilities when trained at scale. These capabilities enable Sora to simulate some aspects of people, animals and environments from the physical world. These properties emerge without any explicit inductive biases for 3D, objects, etc.—they are purely phenomena of scale.

Масштабирование и вычислительные мощности снова победили. Ну теперь ясно, куда пойдут 7 триллионов!
Ключевых деталей вроде точной архитектуры, принцнипа сборки и фильтрации датасета нет, но всё же интересности нашлись. Тезисно:

— OpenAI продолжают развивать свой путь к выучиванию большими нейронками картины мира просто из доступных данных, без лишних усложнений. Если вы смотрели лекции 1.1 и 1.2 моего курса, то для вас это не новость — я рассказывал, что ещё в 2017м году до GPT-1 топовые исследователи делали Proof-of-Concept для этого. Отсюда и название работы: модели генерации видео как СИМУЛЯТОРЫ МИРА
— Также как и для других моделей, здесь соблюдаются законы масштабирования: больше моделька, больше вычислительных мощностей = лучше результат. Боюсь представить, сколько времени это всё училось.
— Обычно модели генерации видео учатся на обрезанных до одного и того же (малого) размера кадра. Например, 256x256 пикселей. В OpenAI решили тренировать на том, что было, в разрешении вплоть до FullHD и с любым соотношением сторон. Это позволяет Sora генерировать хоть вертикальные видео, хоть горизонтальные, хоть аналоги того, что снимают на плёнку 2.35:1
— Для тренировки такой модели нужно огромное количество видео с грамотно составленным текстовым описанием. Такого контента в мире мало, поэтому делают тот же трюк, что был применён в DALL-E 3: обучают отдельную модель для написания высококачественного, но короткого описания, а затем с помощью GPT-4v расшивают его деталями. Обучение на синтетических описаниях значимо увеличивает качество генерации, отмечают исследователи
— Так как в основе лежит трансформер, который принимает вектора и выплёвывает вектора, то можно делать разную магию: можно генерировать не видео, а изображение, можно просить анимировать уже нарисованную кем-то или чем-то картинку, можно просить догенерировать видео — причём не обязательно только в будущее, можно получить и кадры из прошлого, что предшествовало куску видео. А ещё можно заставлять модель склеивать пары видео в одно (примеры скину ниже)

И теперь самое главное: навыки, которым никто модель не учил, но которые сами по себе появились из-за беспрецедентного () масштаба:
— согласованность 3D пространства: камера может свободно перемещаться в «виртуальном мире» (существующем в момент генерации), крутиться итд.
— постоянство объектов в кадре и долгосрочная память: в течение всего видео какие-то ключевые объекты не будут менять ни форму, ни текстуру (как это бывало почти у всех предыдущих моделей). Если какие-то объекты пропадают из кадра, то часто появляются такими же, какими были до исчезновения, и в правильном месте
— интерактивность мира: объекты могут взаимодействовать и реалистично изменяться, хоть и не идеально (см. примеры ниже)
— симуляция цифровых миров: вот это очень интересный пункт. Sora может воссоздать мир игры Minecraft (жаль какую-то динамическую стрелялку не показали!) и одновременно управлять игроком в Minecraft (вернее симулировать поведение игрока), а также отображать мир и его изменение с высокой точностью. И всё это без детального описания в промпте. Эти «навыки» модели позволяют предположить, что дальнейшее масштабирование видеомоделей является многообещающим путем к разработке высокофункциональных симуляторов физического и цифрового миров, а также объектов, животных и людей, которые «живут» в них. Звучит как фантастика, но серьёзно — а что остаётся модели делать, чтобы хорошо предсказывать часовые видео? Приходится симулировать действо в них, понимая логику всех объектов, самого физического мира и его правил

Однако у этого симулятора есть множество недостатков, которые заметны при детальнейшем рассмотрении генераций. Увеличим модельку ещё — увидим, к чему это нас OpenAI приведёт!
Два примера генерации видео по входному изображению.
Пример склейки двух первых видео в одно третье. Не до конца понятно, как в данном случае задаётся промпт: показываются ли оба видео полностью, и пишется ли какой-то текст, или же это отдельный режим смешивания, например, эмбеддингов.

(Извините что видео тяжелые)
Примеры реакции одних объектов симулируемого мира на другие:
1. Бургер становится укушенным
2. Рисунок дорисовывается в результате воздействия кисти

Как бы формально ну да, ничего такого, мы это видим каждый день, но то, что нейронка может воспроизводить результаты взаимодействий этих объектов без специфичного дообучения как раз на такую задачу — это 🤯

(снова извините что видео тяжелые)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Примеры симуляции игрового мира Minecraft. Игрок может перемещаться, у него консистентно отображается инвентарь снизу, а окружение вокруг не меняется при изменении угла взгляда.

Разве что свинья пропадает в один момент 🐷
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM