rizzearch
1.01K subscribers
988 photos
11 videos
320 links
Кайфули на каждый день

Авторы:
@zzmtsvv
@maxnygma (AI4Science посты)
Download Telegram
The Platonic Representation Hypothesis

репрезентации-репрезентации, эмбеддинги-эмбеддинги, мультимодальные эмбеддинги-эмбеддинги

все больше работ появляется на тот счет, что происходит совместное обучение на данных разной природы/модальности и получается прирост. и мы даже успели упомянуть некоторые такие работы (в основном про рл)
- https://t.me/rizzearch/217
- https://t.me/rizzearch/201
- https://t.me/rizzearch/95

и авторы решили глубже изучить этот вопрос на стыке картинок и текста - ставят вполне естественные гипотезы, которые свойственны человеческой способности к нахождениям все более общих абстракций

- чем больше задач мы одновременно желаем решать на оптимальном уровне, тем меньше осмысленных репрезентаций подходят под это ( The Multitask Scaling Hypothesis)
- большие модели натрененные на очень больших мульти-таск данных вероятнее сходятся к общим репрезентациям, чем маленькие и узконаправленные ( The Capacity Hypothesis )
- с увеличением размера модели пространство осмысленных эмбеддингов становится все “проще” ( The Simplicity Bias Hypothesis, который мы упоминали здесь)

еще мне понравилось, как авторы приводят аналогию с Principe d'Anna Karénine

Все репрезентативные эмбеддинги похожи друг на друга, каждый нерепрезентативный эмбед нерепрезентативен по-своему


so, авторы стараются измерить такое явление через “близость близостей” - для мультимодальных и не только пар получают эмбеддинги по разным моделям, берут от них другие ближайшие пары по кнн и считают пересечение. довольно просто и при том информативно

к каким выводам смогли прийти? репрезентации разных моделей действительно хорошо накладываются друг на друга с таким способом измерения, при маленьком количестве соседей, что интуитивно понятно - ближайшие эмбеддинги очень похоже, чем дальше в скрытом пространстве, тем дальше по *иерархии абстрактных паттернов Бытия* 🌌 

однако вопросы остаются. максимальная метрика по таким соседям = 1, в то время как при максимальном наложении метрика принимает 0.16, что все равно довольно много. влияние шума, архитектуры моделей или Длань Господня?👁👁👁

А что насчет тех понятий, которые даже человек явно не переведет в другую модальность? какая картинка у свободы воли? а как полностью описать солнечное затмение текстом? тем не менее накладка остается. можно предположить, что модели начинают синестезировать, либо просто мы еще не знаем как это нормально проевалить

👀LINK
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
432
This media is not supported in your browser
VIEW IN TELEGRAM
Слепой ревьюер: ставит 1/10, не вникнув в суть

Как он видит себя со стороны:
13👍3
Deep Autoregressive Models for The Efficient Variational Simulation of Many-Body Quantum System

Окунемся в квантовую механику 😭. Моделирование систем многих частиц (many-body system) является важнейшей задачей в физике конденсированного состояния, химии и других областях. Ключ к этой задаче кроется в решении уравнения Шредингера, размер Гамильтониана в котором скейлится экспоненциально количеству тел😭

Классические подходы с нейронками называются neural quantum states (NQS) и завязаны на использовании сеток и методов Монте-Карло для вариационного расчета волновой функции системы (см variational MC) с семплированием новых структур системы. Однако, там где есть MCMC🔗, там и есть вычислительные сложности связанные с ресурсами и нестабильности самого алгоритма. Тут нам и burn-in период может нужен (или нет), чтобы цепочка норм сходилась и правильно данные подобрать - сложно и не хочется конечно

Что делают?

Авторы статьи предложили забить на MCMC семплирование и использовать авторегрессионный подход - NAQS, позволяющий напрямую семплировать конфигурацию системы. Также как и в привычных нам картинках, авторы моделируют волновую функцию как произведение нормализованных conditional волновых функций

Архитектурно вдохновляются PixelCNN и применяют 1D маскированные свертки на набор спинов + l2-нормализацию (она нужна, чтобы из суммы лог-пси-функций получилось итоговая волновая нормализованная (!!!) функция). Делают симметризацию и агрегацию по симметриям конфигурации спинов, так у нас получается более эффективный search space для параметров модели

А как учат и какие экспы?

Оптимизация конечно тут не обычная. Обычно NQS применяются для поиска основного состояния системы (ground state). Мы хотим найти такие веса модели, которые минимизируют энергию системы. Энергию можно получить из Гамильтониана и волновой функции или же, эквивалентно, оценив матожидание по локальной энергии для каждого спина по батчу

Для экспов берут квантовый вариант модели Изинга (описывает магнитизм решетки). NAQS показывает хорошую точность в оценке энергии и магнетизации. Также интересно, что обычный MCMC разваливается на сильном феррамагнитном сетапе, а метод статьи успешно семплирует конфигурацию обоих ориентаций. Еще смотрят более сложную модель Хайзенберга. Хотя сравнение только с одним методом - не круто😦

👀 LINK
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍2🔥1
Reducing Transformer Key-Value Cache Size with Cross-Layer Attention

KV Cache поистине прекрасная идея, которая уже успела повлиять на нашу область. однако сколько же по памяти занимает это чудо?

сколько же нужно элемент на один токен для каждого слоя? эмбеддинг размерность х количество голов как для К так и для V ⇒ получаем 2 * num_heads * embedding_dim на *каждый* слой.

но уже относительно давно известны методы по группировке модулей (Grouped-Query Attention, GQA), которые обрабатывают запросы. и каждый из модулей внутри этой группы разделяет общие модули но ключам/значениям ⇒ получаем снижение 2 * num_groups * embedding_dim на *каждый* слой

авторы из MIT решили пойти дальше и уже снизить потребление по памяти не внутри одного слоя, а объединив модули между слоями. потому и называется статься cross-layer KV Cache

что же придумали? да все просто - давайте группировать слои так, чтобы между ними были KV значения только из одного слоя внутри этой группы: и группы составлять через каждые 2, 3… N слоев. просто? - просто. сокращает память и работает! ( в силу тех ресурсов которые были у ресерчеров ) + оставляет возможность для совместимости с другими модификациями как GQA & не ставит никаких преград для параллелизации

правда есть вопросы по тому поводу, что на разных слоях происходят проекции по разным семантическим пространствам, что может не очень хорошо сказываться, когда запросы одной “природы”, а ключи/значения на инференсе другой “природы”

энивей, на скейле моделек 1В и 3В видится заметное снижение по памяти с приемлемым снижением качества (смотря какая задача). но я бы спекулировал, что на моделях большей размерности из-за гетерогенности Q vs KV перформанс будет заметно хуже

👀LINK
611
Surgical Robot Transformer (SRT): Imitation Learning for Surgical Tasks

заимплементить трансформер под хирургического робота так, чтобы он мог зашивать раны и не только? да!

авторы из стенфорда решили такое сделать, и получилось очень даже круто. при том они не используют никакие данные из кинематики, а только картиночные инпуты (которые даже сильно даунсемплят до 224х224х3, но результат все равно очень даже крутой). и это довольно нетривиально для такого рода работ

реализуют на основе имитейшн лернинга и Action-Chunking Transformer, который группирует небольшой чанк действий в одну группу и третирует их как один юнит. сделано это для того, чтобы нивелировать момент накопления ошибок (который довольно часто случается во время инференса при сетапе имитейшн лернинга)

еще есть залипательные видосы с демонстрацией работы трансформера

ждем теперь, когда такое будет возможно делать в более-менее сносном темпе

👀LINK
3🔥21
Efficient World Models with Context-Aware Tokenization

какое-то время назад понятие “модель мира” начало всплывать в контексте ЛЛМ, в то время как свои корни оно имеет из рл. так вот с ней в рл тоже часто не всегда все понятно

что же такое модель мира в сетапе рл? есть ответвление, как model-based алгоритмы, которые помимо основной модели полиси (которая притворяет действия по данным ею состояниям) учат еще и модель среды, или же динамику среды, которая ловит паттерны по истории и предиктит, а что же произойдет на следующем таймстепе. зачем это нужно? при достаточно качественной модели динамики, можно получать данные при помощи нее, не действуя в среде ⇒ экономия времени, ресурсов, да и безопасность повышается, если ошибки на реальной задаче очень как критичны

так же такую штуку называют learning in imagination. так вот авторы берут один из сота методов, iris, который работает через дискретный автоэнкодер + каузальный трансформер для предикта динамики по заданному контексту. и улучшают его! а иначе никак

а что можно улучшить? ирис перед этапом энкодинга разбивает историю на отдельные токены, которые затем подаются в трансформер. а такая отдельность не всегда оптимальна, поскольку, как говорят авторы и что интуитивно понятно, независимое разбиение на токены не всегда оптимально, когда не берется контекст прошлого, ибо выгоднее порой обращать внимание не на само состояние, сколько на *разницу,* которая успела произойти за это время

вот авторы такое и имплементят, просто вставляя на этапе энкодинга и декодинга кусок предыдущей истории. дальше над этим оперирует трансформер, который является моделью мира для актор-критика. в остальном сетап довольно классичен. и происходит норм такой буст по результатам

правда проевалили пока только на атари и крафтере, а что в том же майнкрафте происходит непонятно (где очень крут DreamerV3) - там наверняка надо брать горизонт побольше из-за специфики движений и состояний стива, что уже будет вызывать трудности у метода имхо.

👀LINK

UPD: надо еще учитывать что майнкрафт сильно упрощен на дримере, так что все может быть ок с дельта-ирис
🔥4111
Diffusion for World Modeling: Visual Details Matter in Atari

в продолжение темы про модели мира

в основном используют дискретные автоэнкодеры, ибо с дискретными латентами снижается проблема накопительной ошибки при процессинге данных. но в более сложных задачах дискретизация может быть чревата слишком сильной потерей инфрмации, отчего все плоховато. в принципе можно тогда увеличивать количество дискретных эмбеддингов, но и повышаются требования на компьют. а какая есть альтернатива - диффузия🤑🤑🤑

и в качестве решения используют score-based diffusion, а именно EDM (есть так же сравнение результатов с обычным DDPM), где таргет адаптивно миксует signal-to-noise ratio в соотношении с нойз шедулингом. в качестве чистого таргета выступает фиксированная последовательность из предыдущих интеракций. а интуитивно такие трюки с адаптивным таргетом нужны для того, чтобы аутпуты модели оставались вариативными (в силу сложности задачи) когда шума мало.

правда авторы так же указывают, что для предикта реварда и флага терминации используются отдельные модели → диффузия не оч хороша в моделировании таких скаляров вместе с динамикой по состояниям, либо авторы не смогли нормально это прикрутить

по mean human normalized score обыгрываем все методы, на одну сотую только проигрывает по interquantile mean методу выше

👀LINK
👍51🔥11