Прикольный доклад сегодня на AGI-25. В контексте свежих речей Самы про то, что AGI уже плохой концепт.
Some people who have been promising the Moon are now saying that the Moon is maybe not the best concept ever.
https://www.youtube.com/live/eCUtGU4qKVY?si=rI1Pi51riiuLAP7v&t=25917
(начало тут)
Some people who have been promising the Moon are now saying that the Moon is maybe not the best concept ever.
https://www.youtube.com/live/eCUtGU4qKVY?si=rI1Pi51riiuLAP7v&t=25917
(начало тут)
CNBC
Sam Altman now says AGI, or human-level AI, is 'not a super useful term’ — and he's not alone
Computer science experts say it's better to focus on the more specialized use cases of AI.
😁60👍4❤1😭1
Кстати, прям щас начался кейноут Йоши Баха
https://www.youtube.com/live/fdftA37yZJw?si=KDamycsVMbu7qjax
https://www.youtube.com/live/fdftA37yZJw?si=KDamycsVMbu7qjax
YouTube
AGI-25 Conference | Day 3 | Keynotes and Paper Presentations
Welcome to the final day of the 18th Annual AGI Conference taking place at Reykjavík University, Iceland.
Experience keynotes from Joscha Bach, Anna Ciaunica, Michael Levin and Hananel Hazan, a panel discussion featuring Josef Urban, Zar Goertzel, Nil Geisweiller…
Experience keynotes from Joscha Bach, Anna Ciaunica, Michael Levin and Hananel Hazan, a panel discussion featuring Josef Urban, Zar Goertzel, Nil Geisweiller…
🔥12👍6
Давайте я вам ещё чего-нибудь прекрасного субботнего дам.
Вот например Gerard 't Hooft, лауреат Нобелевской премии и Breakthrough Prize.
Давно топит за то, что квантовая механика идёт не туда и имеет на эту тему свои неортодоксальные взгляды (https://arxiv.org/abs/2104.03179). Как я понимаю, они про то, что статистические описания они от бедности, потому что мы не можем заглянуть глубоко в суть до тех уровней энергии и масштабов времени, где всё это описывается более детерминированным способом, а текущие математические конструкции (типа действительных или комплексных чисел) уводят наш взгляд от сути. К действительным числам я тоже отношусь с большим подозрением :)
У т' Хоофта есть прям фундаментальная работа про как всё может быть устроено, и она (о ля ля!) про клеточные автоматы!
The Cellular Automaton Interpretation of Quantum Mechanics
https://link.springer.com/book/10.1007/978-3-319-41285-6
Книга доступна для скачивания бесплатно. Любителям Конрада Цузе, Вольфрама и прочих может понравиться.
Нашёл вот ещё обзор у Сабины Хоссенфельдер, если вдруг она вам нравится:
https://youtu.be/2kxoq5UzAEQ
Приятного чтения :)
Вот например Gerard 't Hooft, лауреат Нобелевской премии и Breakthrough Prize.
Давно топит за то, что квантовая механика идёт не туда и имеет на эту тему свои неортодоксальные взгляды (https://arxiv.org/abs/2104.03179). Как я понимаю, они про то, что статистические описания они от бедности, потому что мы не можем заглянуть глубоко в суть до тех уровней энергии и масштабов времени, где всё это описывается более детерминированным способом, а текущие математические конструкции (типа действительных или комплексных чисел) уводят наш взгляд от сути. К действительным числам я тоже отношусь с большим подозрением :)
У т' Хоофта есть прям фундаментальная работа про как всё может быть устроено, и она (о ля ля!) про клеточные автоматы!
The Cellular Automaton Interpretation of Quantum Mechanics
https://link.springer.com/book/10.1007/978-3-319-41285-6
Книга доступна для скачивания бесплатно. Любителям Конрада Цузе, Вольфрама и прочих может понравиться.
Нашёл вот ещё обзор у Сабины Хоссенфельдер, если вдруг она вам нравится:
https://youtu.be/2kxoq5UzAEQ
Приятного чтения :)
SpringerLink
The Cellular Automaton Interpretation of Quantum Mechanics
This book presents the deterministic view of quantum mechanics developed by Nobel Laureate Gerard 't Hooft.Dissatisfied with the uncomfortable gaps in the way conventional quantum mechanics meshes with the classical world, 't Hooft has revived the old hidden…
🔥39❤15🤯7🎉4👍2👀1
Вышел огромный обзор "Speed Always Wins: A Survey on Efficient Architectures for Large Language Models": https://t.me/gonzo_ML_podcasts/699
В каком-то смысле это продолжение старой доброй “Efficient Transformers: A Survey” 2020 года (https://arxiv.org/abs/2009.06732).
В каком-то смысле это продолжение старой доброй “Efficient Transformers: A Survey” 2020 года (https://arxiv.org/abs/2009.06732).
Telegram
gonzo_ML_podcasts
Speed Always Wins: A Survey on Efficient Architectures for Large Language Models
Authors: Weigao Sun, Jiaxi Hu, Yucheng Zhou, Jusen Du, Disen Lan, Kexin Wang, Tong Zhu, Xiaoye Qu, Yu Zhang, Xiaoyu Mo, Daizong Liu, Yuxuan Liang, Wenliang Chen, Guoqi Li, Yu…
Authors: Weigao Sun, Jiaxi Hu, Yucheng Zhou, Jusen Du, Disen Lan, Kexin Wang, Tong Zhu, Xiaoye Qu, Yu Zhang, Xiaoyu Mo, Daizong Liu, Yuxuan Liang, Wenliang Chen, Guoqi Li, Yu…
👍7🔥5
В свежем IEEE Spectrum статья про термодинамические вычисления и компанию Normal Computing (писали про них тут и ранее).
Интересная цитата:
This results in the Normal Computing cofounders having a slightly different vision. They imagine a world where different kinds of physics are utilized for their own computing hardware, and every problem that needs solving is matched with the most optimal hardware implementation.
“We coined this term physics-based ASICs,” Normal Computing’s Belateche says, referring to application-specific integrated circuits. In their vision, a future computer will have access to conventional CPUs and GPUs, but also a quantum computing chip, a thermodynamic computing chip, and any other paradigm people might dream up. And each computation will be sent to an ASIC that uses the physics that’s most appropriate for the problem at hand.
Интересная цитата:
This results in the Normal Computing cofounders having a slightly different vision. They imagine a world where different kinds of physics are utilized for their own computing hardware, and every problem that needs solving is matched with the most optimal hardware implementation.
“We coined this term physics-based ASICs,” Normal Computing’s Belateche says, referring to application-specific integrated circuits. In their vision, a future computer will have access to conventional CPUs and GPUs, but also a quantum computing chip, a thermodynamic computing chip, and any other paradigm people might dream up. And each computation will be sent to an ASIC that uses the physics that’s most appropriate for the problem at hand.
IEEE Spectrum
Prototype Computer Uses Noise to Its Advantage
A new era in computing is here! Thermodynamic computing, akin to probabilistic computing, harnesses noise for efficient problem-solving. Imagine a world where physics-based ASICs tailor solutions to specific needs. Are we on the brink of a computing revolution?…
👍16❤12🔥3👏1
DeepSeek-R2 пока всё никак не подвезут, но кажется назревает V-3.1
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base/tree/main
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base/tree/main
huggingface.co
deepseek-ai/DeepSeek-V3.1-Base at main
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
❤16👍5
V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning
Mahmoud Assran, Adrien Bardes, David Fan, Quentin Garrido, Russell Howes, Mojtaba Komeili, Matthew Muckley, Ammar Rizvi, Claire Roberts, Koustuv Sinha, Artem Zholus, Sergio Arnaud, Abha Gejji, Ada Martin, Francois Robert Hogan, Daniel Dugas, Piotr Bojanowski, Vasil Khalidov, Patrick Labatut, Francisco Massa, Marc Szafraniec, Kapil Krishnakumar, Yong Li, Xiaodong Ma, Sarath Chandar, Franziska Meier, Yann LeCun, Michael Rabbat, Nicolas Ballas
Статья: https://arxiv.org/abs/2506.09985
Пост: https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/
Код: https://github.com/facebookresearch/vjepa2
Давно надо написать про V-JEPA 2, новую версию V-JEPA, варианта JEPA (https://t.me/gonzo_ML/3501), работающего с видео. Напомню, что это self-supervised подход к построению модели мира на основе видео (в случае V-JEPA). В текущей статье модель отскейлили и обучили на видео реального мира (миллион часов интернет видео), заалайнили с LLM’кой для понимания языка, и дообучили на неразмеченных взаимодействиях робота с миром (62 часа видео).
В основе V-JEPA 2 лежит поэтапная процедура обучения, которая сначала строит общую модель мира на основе наблюдений, а затем дорабатывает её для планирования, обусловленного действиями.
🌐 Этап 1: Self-supervised предобучение на большом датасете из веба
На первом этапе основное внимание уделяется выучиванию надёжного визуального представления мира. Философия JEPA в том, что модели должны учиться, предсказывая недостающую информацию в абстрактном латентном пространстве представлений, а не восстанавливая каждый пиксель (как, например, делают автоэнкодеры). Предсказывая в абстрактном пространстве признаков, JEPA учится выявлять высокоуровневые, предсказуемые концепции (например, будущее положение объекта), игнорируя при этом непредсказуемые, «шумные» детали на уровне пикселей (например, точную текстуру травы или блики света на поверхности). Это делает выученные представления более надёжными и эффективными для последующих задач, таких как планирование, поскольку модель не обременена необходимостью генерировать фотореалистичные детали. По мысли Лекуна, это ключевой шаг к моделям, обладающим своего рода здравым смыслом о том, как устроен мир.
Модель состоит из энкодера Vision Transformer (ViT, https://t.me/gonzo_ML/434) E_θ и следующего за ним предиктора P_ϕ (ViT-s, поменьше, 22M). Во время обучения на вход модели подаётся видеоклип с маскированными частями. Задача предиктора — заполнить (латентные) представления замаскированных частей. Минимизируется L1 лосс разницы между предсказанными представлениями для замаскированных токенов и их реальными энкодингами через энкодер (EMA от обучаемого энкодера). В процессе используются позиционные энкодинги 3D-RoPE (время, высота, ширина) и видео разбивается на последовательность tubelets 2 × 16 × 16 (T × H × W).
Авторы выделили четыре ключевых ингредиента скейлинга:
1. Масштабирование данных: Датасет для предобучения VideoMix22M (VM22M) объединяет несколько общедоступных источников с видео и картинками (SSv2, Kinetics, HowTo100M, ImageNet) с отобранной версией YT-Temporal-1B, общим объёмом более 1 миллиона часов видео. В терминах количества видео увеличили с 2 миллионов до 22.
2. Масштабирование модели: Архитектура энкодера была увеличена с 300 млн (ViT-L) до более чем 1 млрд параметров (ViT-g).
3. Более длительное обучение: Процесс обучения был значительно продлён с 90 тыс до 252 тыс итераций. Используется warmup-constant-decay learning rate schedule.
4. Эффективное обучение с прогрессивным разрешением: Для снижения вычислительных затрат при обучении на длинных видео высокого разрешения авторы использовали прогрессивную стратегию. Обучение начинается с коротких видео низкого разрешения (16 кадров 256×256) во время warmup и constant фаз, и длина с разрешением увеличиваются (до 64 кадров 384×384) только на заключительном этапе (decay фаза), что позволило сократить время использования GPU в 8.4 раза.
Mahmoud Assran, Adrien Bardes, David Fan, Quentin Garrido, Russell Howes, Mojtaba Komeili, Matthew Muckley, Ammar Rizvi, Claire Roberts, Koustuv Sinha, Artem Zholus, Sergio Arnaud, Abha Gejji, Ada Martin, Francois Robert Hogan, Daniel Dugas, Piotr Bojanowski, Vasil Khalidov, Patrick Labatut, Francisco Massa, Marc Szafraniec, Kapil Krishnakumar, Yong Li, Xiaodong Ma, Sarath Chandar, Franziska Meier, Yann LeCun, Michael Rabbat, Nicolas Ballas
Статья: https://arxiv.org/abs/2506.09985
Пост: https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/
Код: https://github.com/facebookresearch/vjepa2
Давно надо написать про V-JEPA 2, новую версию V-JEPA, варианта JEPA (https://t.me/gonzo_ML/3501), работающего с видео. Напомню, что это self-supervised подход к построению модели мира на основе видео (в случае V-JEPA). В текущей статье модель отскейлили и обучили на видео реального мира (миллион часов интернет видео), заалайнили с LLM’кой для понимания языка, и дообучили на неразмеченных взаимодействиях робота с миром (62 часа видео).
В основе V-JEPA 2 лежит поэтапная процедура обучения, которая сначала строит общую модель мира на основе наблюдений, а затем дорабатывает её для планирования, обусловленного действиями.
🌐 Этап 1: Self-supervised предобучение на большом датасете из веба
На первом этапе основное внимание уделяется выучиванию надёжного визуального представления мира. Философия JEPA в том, что модели должны учиться, предсказывая недостающую информацию в абстрактном латентном пространстве представлений, а не восстанавливая каждый пиксель (как, например, делают автоэнкодеры). Предсказывая в абстрактном пространстве признаков, JEPA учится выявлять высокоуровневые, предсказуемые концепции (например, будущее положение объекта), игнорируя при этом непредсказуемые, «шумные» детали на уровне пикселей (например, точную текстуру травы или блики света на поверхности). Это делает выученные представления более надёжными и эффективными для последующих задач, таких как планирование, поскольку модель не обременена необходимостью генерировать фотореалистичные детали. По мысли Лекуна, это ключевой шаг к моделям, обладающим своего рода здравым смыслом о том, как устроен мир.
Модель состоит из энкодера Vision Transformer (ViT, https://t.me/gonzo_ML/434) E_θ и следующего за ним предиктора P_ϕ (ViT-s, поменьше, 22M). Во время обучения на вход модели подаётся видеоклип с маскированными частями. Задача предиктора — заполнить (латентные) представления замаскированных частей. Минимизируется L1 лосс разницы между предсказанными представлениями для замаскированных токенов и их реальными энкодингами через энкодер (EMA от обучаемого энкодера). В процессе используются позиционные энкодинги 3D-RoPE (время, высота, ширина) и видео разбивается на последовательность tubelets 2 × 16 × 16 (T × H × W).
Авторы выделили четыре ключевых ингредиента скейлинга:
1. Масштабирование данных: Датасет для предобучения VideoMix22M (VM22M) объединяет несколько общедоступных источников с видео и картинками (SSv2, Kinetics, HowTo100M, ImageNet) с отобранной версией YT-Temporal-1B, общим объёмом более 1 миллиона часов видео. В терминах количества видео увеличили с 2 миллионов до 22.
2. Масштабирование модели: Архитектура энкодера была увеличена с 300 млн (ViT-L) до более чем 1 млрд параметров (ViT-g).
3. Более длительное обучение: Процесс обучения был значительно продлён с 90 тыс до 252 тыс итераций. Используется warmup-constant-decay learning rate schedule.
4. Эффективное обучение с прогрессивным разрешением: Для снижения вычислительных затрат при обучении на длинных видео высокого разрешения авторы использовали прогрессивную стратегию. Обучение начинается с коротких видео низкого разрешения (16 кадров 256×256) во время warmup и constant фаз, и длина с разрешением увеличиваются (до 64 кадров 384×384) только на заключительном этапе (decay фаза), что позволило сократить время использования GPU в 8.4 раза.
👍10🔥5😁4❤3
Цель этого этапа -- научить энкодер общему зрительному пониманию, поэтому качество оценивают на задачах про движение и классификацию. Для этого замораживают энкодер и поверх него обучают 4-слойную сетку для классификации. Показано, что каждый из ингредиентов добавляет качества, оно последовательно вырастает с 84.2% до 88.2% (рис. 3).
Теперь мы имеем энкодер, способный делать предсказания относительно пропущенных частей видео. Но он никак не учитывает каузальные эффекты действий, которые может делать агент.
🤖 Этап 2: Дообучение с учётом действий
После предобучения энкодер V-JEPA 2 замораживается. Затем обучается новый предиктор, обусловленный действием, — V-JEPA 2-AC (action-conditioned). Для этого используется небольшой датасет (менее 62 часов) неразмеченных траекторий робота из набора данных Droid (https://arxiv.org/abs/2403.12945). Эта модель учится предсказывать представление следующего кадра видео, основываясь на проприоцепции и действии робота (настольный робот-рука Franka Emika Panda, https://robodk.com/robot/Franka/Emika-Panda).
Чтобы улучшить способность делать многошаговые предсказания, V-JEPA 2-AC обучается с комбинированной функцией потерь, которая включает как стандартный одношаговый лосс с teacher-forcing (но одновременно для T=15 позиций), так и многошаговый лосс на основе роллаутов (для T=2). Последний помогает модели уменьшить накопление ошибки со временем. Разница в том, что при роллауте, хоть там T и короче, промежуточные результаты не оцениваются, а передаются снова на вход предиктору, так чтобы он учился предсказывать на несколько шагов вперёд (хоть и всего на два). Лоссы замешаны с одинаковыми весами.
Предиктор в этом случае является 24-слойным трансформером с 300M параметров.
Имея обученный предиктор, V-JEPA 2-AC можно использовать для планирования в цикле управления с прогнозирующей моделью (MPC). Получив текущее наблюдение x_k и целевое изображение x_g, система планирует, находя последовательность действий длины T, которая минимизирует L1-расстояние между воображаемым будущим состоянием (что напредсказывали) и целевым состоянием в выученном пространстве представлений (картинка пропущенная через энкодер). Это L1-расстояние названо здесь энергетической функцией, обусловленной целью.
Энергетическая функция оптимизируется с помощью метода кросс-энтропии, находя таким образом траекторию действий, минимизирующую эту функцию. Авторы показывают, что получаемый ландшафт энергии является гладким и локально выпуклым, что способствует эффективному планированию.
📊 Эксперименты
V-JEPA 2 была оценена на разнообразном наборе задач, и показала себя неплохо как универсальная модель мира.
В Zero-shot планировании действий робота (Franka Emika Panda с хваталкой от RobotiQ из лаб, не входивших в обучающий датасет) зрительные входные данные поступали от некалиброванной RGB камеры низкого разрешения. Сэмплируемые выходные действия ограничивались определённым радиусом.
Модель успешно выполняла задачи движения руки в определённую позицию (single-goal reaching) и хватательных манипуляций (grasp и pick-and-place) с новыми объектами, например, достигнув в среднем 80% успеха при поднятии и перемещении чашки по сравнению с 15% у video-language-action модели Octo (https://arxiv.org/abs/2405.12213). Всё без сбора данных с роботов и без каких-либо специфичных для задачи вознаграждений. По сравнению с бейзлайнами, V-JEPA 2-AC не только более успешна, но и значительно быстрее в планировании: 16 секунд на действие против 4 минут у модели Cosmos (https://arxiv.org/abs/2501.03575) на основе генерации видео. Оба бейзлайна были дополнительно зафайнтюнены. Примеры показывают способность модели выполнять многошаговые планы в загромождённых средах и демонстрируют базовое интуитивное понимание физики, например, постоянства объекта (нужно, чтобы держать его не отпуская во время перемещения) — про интуитивную физику была предыдущая работа на базе V-JEPA (https://t.me/gonzo_ML/3501).
Теперь мы имеем энкодер, способный делать предсказания относительно пропущенных частей видео. Но он никак не учитывает каузальные эффекты действий, которые может делать агент.
🤖 Этап 2: Дообучение с учётом действий
После предобучения энкодер V-JEPA 2 замораживается. Затем обучается новый предиктор, обусловленный действием, — V-JEPA 2-AC (action-conditioned). Для этого используется небольшой датасет (менее 62 часов) неразмеченных траекторий робота из набора данных Droid (https://arxiv.org/abs/2403.12945). Эта модель учится предсказывать представление следующего кадра видео, основываясь на проприоцепции и действии робота (настольный робот-рука Franka Emika Panda, https://robodk.com/robot/Franka/Emika-Panda).
Чтобы улучшить способность делать многошаговые предсказания, V-JEPA 2-AC обучается с комбинированной функцией потерь, которая включает как стандартный одношаговый лосс с teacher-forcing (но одновременно для T=15 позиций), так и многошаговый лосс на основе роллаутов (для T=2). Последний помогает модели уменьшить накопление ошибки со временем. Разница в том, что при роллауте, хоть там T и короче, промежуточные результаты не оцениваются, а передаются снова на вход предиктору, так чтобы он учился предсказывать на несколько шагов вперёд (хоть и всего на два). Лоссы замешаны с одинаковыми весами.
Предиктор в этом случае является 24-слойным трансформером с 300M параметров.
Имея обученный предиктор, V-JEPA 2-AC можно использовать для планирования в цикле управления с прогнозирующей моделью (MPC). Получив текущее наблюдение x_k и целевое изображение x_g, система планирует, находя последовательность действий длины T, которая минимизирует L1-расстояние между воображаемым будущим состоянием (что напредсказывали) и целевым состоянием в выученном пространстве представлений (картинка пропущенная через энкодер). Это L1-расстояние названо здесь энергетической функцией, обусловленной целью.
Энергетическая функция оптимизируется с помощью метода кросс-энтропии, находя таким образом траекторию действий, минимизирующую эту функцию. Авторы показывают, что получаемый ландшафт энергии является гладким и локально выпуклым, что способствует эффективному планированию.
📊 Эксперименты
V-JEPA 2 была оценена на разнообразном наборе задач, и показала себя неплохо как универсальная модель мира.
В Zero-shot планировании действий робота (Franka Emika Panda с хваталкой от RobotiQ из лаб, не входивших в обучающий датасет) зрительные входные данные поступали от некалиброванной RGB камеры низкого разрешения. Сэмплируемые выходные действия ограничивались определённым радиусом.
Модель успешно выполняла задачи движения руки в определённую позицию (single-goal reaching) и хватательных манипуляций (grasp и pick-and-place) с новыми объектами, например, достигнув в среднем 80% успеха при поднятии и перемещении чашки по сравнению с 15% у video-language-action модели Octo (https://arxiv.org/abs/2405.12213). Всё без сбора данных с роботов и без каких-либо специфичных для задачи вознаграждений. По сравнению с бейзлайнами, V-JEPA 2-AC не только более успешна, но и значительно быстрее в планировании: 16 секунд на действие против 4 минут у модели Cosmos (https://arxiv.org/abs/2501.03575) на основе генерации видео. Оба бейзлайна были дополнительно зафайнтюнены. Примеры показывают способность модели выполнять многошаговые планы в загромождённых средах и демонстрируют базовое интуитивное понимание физики, например, постоянства объекта (нужно, чтобы держать его не отпуская во время перемещения) — про интуитивную физику была предыдущая работа на базе V-JEPA (https://t.me/gonzo_ML/3501).
1👍11❤1
Модель протестировали на понимание (в смысле understanding) через классификацию на основе проб, то есть обучая классификаторы поверх эмбеддингов разных энкодеров и сравнивая результаты. Обучались четырёхслойные сети поверх замороженных энкодеров. Были задачи про appearance understanding, когда можно классифицировать по одному кадру, а были и motion understanding, где нужно учитывать несколько кадров. Сравнивались с бейзлайнами в виде DINOv2 with registers (вроде как текущая self-supervised картиночная SoTA), SigLIP2 и Perception Encoder (эти SoTA на контрастном предобучении). Также сравнили с видео энкодерами V-JEPA и InternVideo2. V-JEPA 2 ViT-g очень хороша на motion understanding и в среднем у неё лучший результат по шести задачам.
В предсказании (Probe-based Action Anticipation) на бенчмарке Epic-Kitchens-100 надо предсказать следующее действие по видео приготовления еды на кухне. Всего существует 3,568 уникальных меток действий, каждое включает именную и глагольную категории, 300 и 97 соответственно. Надо предсказать существительное, глагол и действие. Проба обучалась поверх замороженных энкодера и предиктора (он предсказывал будущий замаскированный кадр). В пробу отправлялся конкатенированный выход энкодера и предиктора. Модель побила предыдущую SoTA, получив 39.7 recall-at-5 для действий — улучшение на 44% по сравнению с предыдущей сотой.
В ответах на вопросы по видео обучили мультимодальную LLM (MLLM) в стиле LLaVA с V-JEPA 2 в качестве видео-энкодера и LLM Qwen2-7B-Instruct. По сравнению с другими картиночными энкодерами (те же DINOv2, SigLIP2, PE) V-JEPA 2 лучше. Эксперимент по скейлингу показывает, что с ростом размера модели результат улучшается (и с размороженным энкодером он ещё лучше). А если ещё и данных добавить, то модель даёт новую SoTA в классе моделей до 8B параметров с результатом, например, 84.0 на Perception Test (здесь уже в качестве LLM Llama 3.1 8B). Это особенно примечательно, поскольку визуальный энкодер изначально был предобучен без каких-либо языковых данных.
У модели при этом есть свои проблемы. Производительность модели чувствительна к положению камеры, поскольку она неявно выводит координаты действий из визуального входа. Планирование на очень длинных горизонтах остаётся сложной задачей из-за накопления ошибки при авторегрессионных предсказаниях. Наконец, система в настоящее время полагается на цели в виде изображений, в то время как инструкции на естественном языке были бы более удобны для многих приложений.
В будущем авторы планируют сфокусироваться на задачах, требующих предсказания в будущее вплоть до 16 секунд с помощью иерархических моделей, добавить постановку целей на естественном языке, ну и отскейлить далее 1B параметров, например, до 20B.
Интересные результаты в целом, особенно для self-supervised. Любопытно, если бы в эту модель вбухали столько же данных и компьюта, как в топовые LLM, какой результат был бы. Вижу, что подход JEPA всё чаще используется в разных задачах (недавно вот было для временных рядов https://t.me/gonzo_ML_podcasts/513), хороший знак.
В предсказании (Probe-based Action Anticipation) на бенчмарке Epic-Kitchens-100 надо предсказать следующее действие по видео приготовления еды на кухне. Всего существует 3,568 уникальных меток действий, каждое включает именную и глагольную категории, 300 и 97 соответственно. Надо предсказать существительное, глагол и действие. Проба обучалась поверх замороженных энкодера и предиктора (он предсказывал будущий замаскированный кадр). В пробу отправлялся конкатенированный выход энкодера и предиктора. Модель побила предыдущую SoTA, получив 39.7 recall-at-5 для действий — улучшение на 44% по сравнению с предыдущей сотой.
В ответах на вопросы по видео обучили мультимодальную LLM (MLLM) в стиле LLaVA с V-JEPA 2 в качестве видео-энкодера и LLM Qwen2-7B-Instruct. По сравнению с другими картиночными энкодерами (те же DINOv2, SigLIP2, PE) V-JEPA 2 лучше. Эксперимент по скейлингу показывает, что с ростом размера модели результат улучшается (и с размороженным энкодером он ещё лучше). А если ещё и данных добавить, то модель даёт новую SoTA в классе моделей до 8B параметров с результатом, например, 84.0 на Perception Test (здесь уже в качестве LLM Llama 3.1 8B). Это особенно примечательно, поскольку визуальный энкодер изначально был предобучен без каких-либо языковых данных.
У модели при этом есть свои проблемы. Производительность модели чувствительна к положению камеры, поскольку она неявно выводит координаты действий из визуального входа. Планирование на очень длинных горизонтах остаётся сложной задачей из-за накопления ошибки при авторегрессионных предсказаниях. Наконец, система в настоящее время полагается на цели в виде изображений, в то время как инструкции на естественном языке были бы более удобны для многих приложений.
В будущем авторы планируют сфокусироваться на задачах, требующих предсказания в будущее вплоть до 16 секунд с помощью иерархических моделей, добавить постановку целей на естественном языке, ну и отскейлить далее 1B параметров, например, до 20B.
Интересные результаты в целом, особенно для self-supervised. Любопытно, если бы в эту модель вбухали столько же данных и компьюта, как в топовые LLM, какой результат был бы. Вижу, что подход JEPA всё чаще используется в разных задачах (недавно вот было для временных рядов https://t.me/gonzo_ML_podcasts/513), хороший знак.
arXiv.org
V-JEPA 2: Self-Supervised Video Models Enable Understanding,...
A major challenge for modern AI is to learn to understand the world and learn to act largely by observation. This paper explores a self-supervised approach that combines internet-scale video data...
👍24❤3