ChAda-ViT : Channel Adaptive Attention for Joint Representation Learning of Heterogeneous Microscopy Images
CVPR 2024
🔬🦠🧬
В биологии есть большое количество различных данных и они отличаются своей структурой. Одна из важных задач - создания эффективных унифицированных репрезентация для биологических данных для последующего использование в тюнинге на различные задачи
Очевидно, есть серьезная проблема - данные сильно отличаются в количестве каналов. Основные и базовые подходы делают фокус на интра-канальных пространственных фичах и часто игнорируют связь между каналами
Авторы предлагают Channel Adaptive Vision Transformer, который способен кодировать данные с вариативным количеством каналов. Делается это с помощью создания патчей по каналам, маскирования и паддинга как в SSL для ViT. При обучении добавляют позиционные и канальные эмбеддинги. Первые используются для обработки spatial информации между каналами, а вторые для обучаются на связях патчей внутри каждого конкретного канала. Такой подход позволяет модели различать между патчами на одной позиции, но в разных каналах
В экспериментах показано, что ChAda-ViT имеет качественные аттеншен мапы на последнем слое, что подтверждает хайп
👀 LINK
CVPR 2024
🔬🦠🧬
В биологии есть большое количество различных данных и они отличаются своей структурой. Одна из важных задач - создания эффективных унифицированных репрезентация для биологических данных для последующего использование в тюнинге на различные задачи
Очевидно, есть серьезная проблема - данные сильно отличаются в количестве каналов. Основные и базовые подходы делают фокус на интра-канальных пространственных фичах и часто игнорируют связь между каналами
Авторы предлагают Channel Adaptive Vision Transformer, который способен кодировать данные с вариативным количеством каналов. Делается это с помощью создания патчей по каналам, маскирования и паддинга как в SSL для ViT. При обучении добавляют позиционные и канальные эмбеддинги. Первые используются для обработки spatial информации между каналами, а вторые для обучаются на связях патчей внутри каждого конкретного канала. Такой подход позволяет модели различать между патчами на одной позиции, но в разных каналах
В экспериментах показано, что ChAda-ViT имеет качественные аттеншен мапы на последнем слое, что подтверждает хайп
👀 LINK
❤2👍2
In-Context Exploration-Exploitation for Reinforcement Learning
О том, как не надо писать статьи(несмотря на то, что приняли на ICLR 24)
Уже очень много мы успели упомянуть об ин-контекст рл - и везде для достижения такого надо много данных как во время обучения, так и во время инференса для накопления контекста, поскольку исследование новых сред происходит не так быстро. Было бы неплохо такое нивелировать. А как?
Авторы встраивают в инференс доп модель, которая производит явный трейд-офф между exploration/exploitation, при этом они не делают байесовский инференс явно, встраивая свой алгоритм в трансформер ⇒ скорость сходимости к оптимальной награде меняется с сотни эпизодов до десятка.
А в чем тогда проблема? Да вообще непонятно, как в коде устроена эта их модификация. Есть псевдокод, но он выдает больше вопросов, чем ответов, а авторы никакой код и не прикладывают
Вот так и получаем - по идее новая СОТА, но по ней мало что понятно
👀LINK
О том, как не надо писать статьи
Уже очень много мы успели упомянуть об ин-контекст рл - и везде для достижения такого надо много данных как во время обучения, так и во время инференса для накопления контекста, поскольку исследование новых сред происходит не так быстро. Было бы неплохо такое нивелировать. А как?
Авторы встраивают в инференс доп модель, которая производит явный трейд-офф между exploration/exploitation, при этом они не делают байесовский инференс явно, встраивая свой алгоритм в трансформер ⇒ скорость сходимости к оптимальной награде меняется с сотни эпизодов до десятка.
А в чем тогда проблема? Да вообще непонятно, как в коде устроена эта их модификация. Есть псевдокод, но он выдает больше вопросов, чем ответов, а авторы никакой код и не прикладывают
Вот так и получаем - по идее новая СОТА, но по ней мало что понятно
👀LINK
❤3
XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX
Вспоминая феномен JAX сред, наши замечательные авторы решили расширить его и на понятие ин-контекст рля, да при том сделать это мега круто!
А почему круто?
- вдохновлены сложностью XLand’a и минималистичностью MiniGrid’a
- древовидная система правил, которая определяет конкретную таску (а значит может легко варировать сложность и разнообразность)
- возможность обучения сингл-таск и мета-агентов
- триллион шагов за 2 дня обучения!!!
А как такая библиотека помогает продвинуться области? Даже самые легкие задачи из бенчмарков вызывают затруднение как для обычных, так и для мета алгосов. На определенных задачах только после 1 миллиарда/триллиона шагов один агент начинает хоть что-то выучивать. Такой долгий разгон означает, что потолок в сложности тасок пробит, и теперь есть удобный и невероятно быстрый фреймворк, на котором можно улучшаться
👀LINK
Вспоминая феномен JAX сред, наши замечательные авторы решили расширить его и на понятие ин-контекст рля, да при том сделать это мега круто!
А почему круто?
- вдохновлены сложностью XLand’a и минималистичностью MiniGrid’a
- древовидная система правил, которая определяет конкретную таску (а значит может легко варировать сложность и разнообразность)
- возможность обучения сингл-таск и мета-агентов
- триллион шагов за 2 дня обучения!!!
А как такая библиотека помогает продвинуться области? Даже самые легкие задачи из бенчмарков вызывают затруднение как для обычных, так и для мета алгосов. На определенных задачах только после 1 миллиарда/триллиона шагов один агент начинает хоть что-то выучивать. Такой долгий разгон означает, что потолок в сложности тасок пробит, и теперь есть удобный и невероятно быстрый фреймворк, на котором можно улучшаться
👀LINK
❤🔥7👍1
AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents
Another cool paper на узкую и сложную, но тем не менее потенциально хайповую тему
В основном в ин-контекст рл обучают агентов, завязанных на концепции памяти и обрабатывают последовательности в том или ином виде (рнн, трансформер, ссм) ⇒ результат, как и во всем рл, очень жестко зависит от технических деталей при имплементации, к тому же пока еще нет полной связи с устоявшимися концепциями рл
амаго делает боооольшой такой шаг на пути к тому, чтобы скомбинировать sequential модели и goal-conditioned Q-learning + оптимизирует код, чтобы сделать метод масштабируемым и максимально емким во всех смыслах
- адекватно кодирует данные относительно длины последовательности чтобы не засорять память
- закручен офф-полиси актор-критик с общим бекбоном
- они не просто улучшают существующие ин-контекст результаты, но и расширяют задачи с условными целями
В общем конфетка
👀LINK
Another cool paper на узкую и сложную, но тем не менее потенциально хайповую тему
В основном в ин-контекст рл обучают агентов, завязанных на концепции памяти и обрабатывают последовательности в том или ином виде (рнн, трансформер, ссм) ⇒ результат, как и во всем рл, очень жестко зависит от технических деталей при имплементации, к тому же пока еще нет полной связи с устоявшимися концепциями рл
амаго делает боооольшой такой шаг на пути к тому, чтобы скомбинировать sequential модели и goal-conditioned Q-learning + оптимизирует код, чтобы сделать метод масштабируемым и максимально емким во всех смыслах
- адекватно кодирует данные относительно длины последовательности чтобы не засорять память
- закручен офф-полиси актор-критик с общим бекбоном
- они не просто улучшают существующие ин-контекст результаты, но и расширяют задачи с условными целями
В общем конфетка
👀LINK
🎉4
Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models
дипмаинды представили интересный гибрид - что-то между трансформером, ссм и рнн, но ни одно из них, но поближе все-таки к трансформеру🤓
Идея довольно нужная и в некотором смысле даже вечная - трансформер медленный в инференсе и ограничен длиной последовательности, в остальном просто чудо, хотим получить идеал.
Авторы в известном трансформер блоке меняют аттеншн на то, что они называют gated linear reccurence + локальный аттеншн ⇒ быстрее трансформера на инференсе, на трейне так же эффективно. Еще показывают, что экстраполируется на бОльшую длину последовательности чем во время обучения
И еще есть код что тоже круто🥸
👀LINK
дипмаинды представили интересный гибрид - что-то между трансформером, ссм и рнн, но ни одно из них, но поближе все-таки к трансформеру
Идея довольно нужная и в некотором смысле даже вечная - трансформер медленный в инференсе и ограничен длиной последовательности, в остальном просто чудо, хотим получить идеал.
Авторы в известном трансформер блоке меняют аттеншн на то, что они называют gated linear reccurence + локальный аттеншн ⇒ быстрее трансформера на инференсе, на трейне так же эффективно. Еще показывают, что экстраполируется на бОльшую длину последовательности чем во время обучения
И еще есть код что тоже круто🥸
👀LINK
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9
A Brief Look at Generalization in Visual Meta-Reinforcement Learning
Мы уже говорили о проблемах генерализации ин-контекст рл агентов, а что насчет классичных мета-рл алгоритмов - есть ли у них проблемы с этим? Авторы решили протестить на средах с визуальными обсервейшнами (данными, которые содержат не всю информацию, чтобы можно было ее решить в рамках МДП - получаем ПОМДП)
И, к удивлению, у мета-рл алгоритмов наблюдается оверфит с сохранением генерализации! То есть, качество на трейновых тасках достигается выше, чем на трейновых - даже на простом сеттинге Мета-Ворлда (графики прикрепленные по другим средам)
Так же наблюдаются проблемы со скейлом - чем больше тасок алгоритмы видят во время трейна (а в постановке и возможно такое, что на трейне нужны тысячи тасок, чтобы во время инференса хорошо перформить на тысяче других), тем сложнее норм обучаться модели, исключение разве что составляет RL^2
В общем, не рл, а целое непаханное поле😇
👀LINK
Мы уже говорили о проблемах генерализации ин-контекст рл агентов, а что насчет классичных мета-рл алгоритмов - есть ли у них проблемы с этим? Авторы решили протестить на средах с визуальными обсервейшнами (данными, которые содержат не всю информацию, чтобы можно было ее решить в рамках МДП - получаем ПОМДП)
И, к удивлению, у мета-рл алгоритмов наблюдается оверфит с сохранением генерализации! То есть, качество на трейновых тасках достигается выше, чем на трейновых - даже на простом сеттинге Мета-Ворлда (графики прикрепленные по другим средам)
Так же наблюдаются проблемы со скейлом - чем больше тасок алгоритмы видят во время трейна (а в постановке и возможно такое, что на трейне нужны тысячи тасок, чтобы во время инференса хорошо перформить на тысяче других), тем сложнее норм обучаться модели, исключение разве что составляет RL^2
В общем, не рл, а целое непаханное поле
👀LINK
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👀1
Time-Efficient Reinforcement Learning with Stochastic Stateful Policies
Проблема взрыва или затухания градиентов в обучении рнн является проблемой в том числе и в рл, а точнее в задачах, где надо принимать действия в соответствии с предыдущей историей из-за неполноты выдаваемых данных для достижения оптимальности
Да и в целом присутствует проблема не только с градиентами, а со всем Truncated Backpropagation Through Time (Truncated BPPT), потому что он смещает обновление модели из-за ограниченной длины
Авторы смогли нивелировать эту проблему в рл путем введения stochastic internal state - штукой, которую дополнительно будет моделировать наш алгоритм рл на каждом шаге, пытаясь вместить в себя релевантную информацию о среде. Таким образом модель не привязана к длине контекста по сравнению с BPTT
Главная заслуга авторов в том, что они смогли аккуратно это ввести в существующие методы, модификаций в коде немного, вычисление градиентов происходит так, как и задумано, по теории получается unbiased решение, а на практике быстрее обучатся и награды больше
👀LINK
Проблема взрыва или затухания градиентов в обучении рнн является проблемой в том числе и в рл, а точнее в задачах, где надо принимать действия в соответствии с предыдущей историей из-за неполноты выдаваемых данных для достижения оптимальности
Да и в целом присутствует проблема не только с градиентами, а со всем Truncated Backpropagation Through Time (Truncated BPPT), потому что он смещает обновление модели из-за ограниченной длины
Авторы смогли нивелировать эту проблему в рл путем введения stochastic internal state - штукой, которую дополнительно будет моделировать наш алгоритм рл на каждом шаге, пытаясь вместить в себя релевантную информацию о среде. Таким образом модель не привязана к длине контекста по сравнению с BPTT
Главная заслуга авторов в том, что они смогли аккуратно это ввести в существующие методы, модификаций в коде немного, вычисление градиентов происходит так, как и задумано, по теории получается unbiased решение, а на практике быстрее обучатся и награды больше
👀LINK
🍾5
Наш первый Дайджест по In-context Reinforcement Learning!
1. In-context Reinforcement Learning with Algorithm Distillation - гениально простая идея, которую запатентовал гугл (кажется, началось…)
2. Structured State Space Models for In-Context Reinforcement Learning - расширяем границы ассоциативного скана
3. Supervised Pretraining Can Learn In-Context Reinforcement Learning - нетривиальная теория в рл/трансформерах, которая все разносит
(почти)
4. зарезервировано под https://arxiv.org/abs/2312.12275
5. Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining - область не считается отдельной, если для нее не пытаются сделать свою теорию meow
6. Generalization to New Sequential Decision Making Tasks with In-Context Learning - любая прорывная идея должна выстоять усложнение задачи, что и происходит тута
7. In-Context Exploration-Exploitation for Reinforcement Learning - вроде очередной breakthrough, но пощупать нелья
8. XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX - to the moon в усложнении и количестве задач при помощи джакса
9. AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents - критически анализируем прошлые технические детали, оптимизируем их ⇒ профит
10. Transformers Learn Temporal Difference Methods for In-Context Reinforcement Learning - узнаем глубже, что происходит внутри трансформера при помощи ин-контекст рл
11. Towards General-Purpose In-Context Learning Agents - попытка лабы шмидхубера не отставать от тренда
12. In-Context Reinforcement Learning for Variable Action Spaces
- вводим в область проблему произвольного количества действий и (частично) решаем ее
13. Artificial Generational Intelligence: Cultural Accumulation in Reinforcement Learning - попытка сблизить человеческое социальное обучение и ин-контекст рл
14. зарезервировано под https://arxiv.org/abs/2406.08973
15. In-context learning agents are asymmetric belief updaters - связь инконтекст лернинга с человеческими паттернами
16. In-Context Imitation Learning
via Next-Token Prediction - переносим концепцию на имитейшн лернинг и получаем профит
17. Retrieval-Augmented Decision Transformer: External for In-Context RL - добавляем faiss с индексированной базой к алгоритмам => улучшаем результат и снижаем размер контекста
18. LLMs Are In-Context Reinforcement Learners - ллмки тоже могут в ин-контекст рл, и при том даже лучше чем при классическом ин-контекст сетапе
19. ReLIC: A Recipe for 64k Steps of In-Context Reinforcement Learning for Embodied AI - эмбодиед сетап + увеличение контекста
Feel free to enjoy the papers with us!
1. In-context Reinforcement Learning with Algorithm Distillation - гениально простая идея, которую запатентовал гугл (кажется, началось…)
2. Structured State Space Models for In-Context Reinforcement Learning - расширяем границы ассоциативного скана
3. Supervised Pretraining Can Learn In-Context Reinforcement Learning - нетривиальная теория в рл/трансформерах, которая все разносит
(почти)
4. зарезервировано под https://arxiv.org/abs/2312.12275
5. Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining - область не считается отдельной, если для нее не пытаются сделать свою теорию meow
6. Generalization to New Sequential Decision Making Tasks with In-Context Learning - любая прорывная идея должна выстоять усложнение задачи, что и происходит тута
7. In-Context Exploration-Exploitation for Reinforcement Learning - вроде очередной breakthrough, но пощупать нелья
8. XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX - to the moon в усложнении и количестве задач при помощи джакса
9. AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents - критически анализируем прошлые технические детали, оптимизируем их ⇒ профит
10. Transformers Learn Temporal Difference Methods for In-Context Reinforcement Learning - узнаем глубже, что происходит внутри трансформера при помощи ин-контекст рл
11. Towards General-Purpose In-Context Learning Agents - попытка лабы шмидхубера не отставать от тренда
12. In-Context Reinforcement Learning for Variable Action Spaces
- вводим в область проблему произвольного количества действий и (частично) решаем ее
13. Artificial Generational Intelligence: Cultural Accumulation in Reinforcement Learning - попытка сблизить человеческое социальное обучение и ин-контекст рл
14. зарезервировано под https://arxiv.org/abs/2406.08973
15. In-context learning agents are asymmetric belief updaters - связь инконтекст лернинга с человеческими паттернами
16. In-Context Imitation Learning
via Next-Token Prediction - переносим концепцию на имитейшн лернинг и получаем профит
17. Retrieval-Augmented Decision Transformer: External for In-Context RL - добавляем faiss с индексированной базой к алгоритмам => улучшаем результат и снижаем размер контекста
18. LLMs Are In-Context Reinforcement Learners - ллмки тоже могут в ин-контекст рл, и при том даже лучше чем при классическом ин-контекст сетапе
19. ReLIC: A Recipe for 64k Steps of In-Context Reinforcement Learning for Embodied AI - эмбодиед сетап + увеличение контекста
Feel free to enjoy the papers with us!
❤6🔥6👍3
Коллеги, поделитесь, на какие темы/статьи вы хотели бы увидеть дайджесты/посты в ближайшем будущем в нашем канале 🤩
Please open Telegram to view this post
VIEW IN TELEGRAM
Policy graphs in action: explaining single- and multi-agent behaviour using predicates
Небольшой папир о библиотеке, которая находится в разработке. Цель ее благая и очень крутая - привнести “объяснимость” в действия, которые предпринимает один или много агентов
А что значит эта самая объяснимость в плане обучения с подкреплением? Когда мы можем построить алгоритм, похожий по поведению на агента, и ответить с помощью него на вопросы по поводу процесса принятия решений:
- Что ты сделаешь, оказавшись в состоянии X?
- Когда ты совершишь действие А?
- Почему ты не совершил действие А в состоянии Х?
Достигают этого авторы, выстраивая граф по пути принятия решений, конвертируют состояния-действия в предикаты и далее с ними оперируют для достижения Explainability
Profound работа, поскольку она продвигает коммьюнити к бОльшему доверию к рл моделям и их последующей интеграции в социо-технические системы (что бы это ни значило🥸)
👀LINK
Небольшой папир о библиотеке, которая находится в разработке. Цель ее благая и очень крутая - привнести “объяснимость” в действия, которые предпринимает один или много агентов
А что значит эта самая объяснимость в плане обучения с подкреплением? Когда мы можем построить алгоритм, похожий по поведению на агента, и ответить с помощью него на вопросы по поводу процесса принятия решений:
- Что ты сделаешь, оказавшись в состоянии X?
- Когда ты совершишь действие А?
- Почему ты не совершил действие А в состоянии Х?
Достигают этого авторы, выстраивая граф по пути принятия решений, конвертируют состояния-действия в предикаты и далее с ними оперируют для достижения Explainability
Profound работа, поскольку она продвигает коммьюнити к бОльшему доверию к рл моделям и их последующей интеграции в социо-технические системы (что бы это ни значило🥸)
👀LINK
👍3
Is Cosine-Similarity of Embeddings Really About Similarity?
Чего греха таить, у нас у всех в голове есть установка, что cosine similarity показывает сходство между эмбеддингами, а потому это супер удобный метод для привнесения нужной семантики в модель
Невероятно, но не факт!)
Авторы из нетфликс провели анализ линейных автоэнкодеров (если говорить не по диплерновски, то они анализировали модели матричной факторизации) с регуляризацией. Оказывается, можно так попасть в просак с этой регуляризацией, что она будет отвечать за значение dot-product’a, что (почти) есть cosine similarity. А что именно выучила модель - да хрен его знает
Также авторы спекулируют, что подобное может встречаться и в дип лернинге, с чем можно согласиться - на каждом слое применяется своя регуляризация и нет-нет да и да ⇒ где-то такая же неприязнь может быть
Но нивелируется (по их словам) это довольно легко - не забывайте добавлять леернорму + побольше задумываться о том, куда именно вы применяете этот косинус (в каком именно пространстве, почему оно вам надо именно там, не происходит ли какой-то очевидной утечки во время обучения как, например, неправильно подобранного семплинга к дисбаланс датасету и все такое).
Общий вывод таков - не тыкайте свой пестик в любую тычинку, чтобы получить желаемые результаты по метрик лернингу.
The devil’s in the details 😈
👀LINK
Чего греха таить, у нас у всех в голове есть установка, что cosine similarity показывает сходство между эмбеддингами, а потому это супер удобный метод для привнесения нужной семантики в модель
Невероятно, но не факт!)
Авторы из нетфликс провели анализ линейных автоэнкодеров (если говорить не по диплерновски, то они анализировали модели матричной факторизации) с регуляризацией. Оказывается, можно так попасть в просак с этой регуляризацией, что она будет отвечать за значение dot-product’a, что (почти) есть cosine similarity. А что именно выучила модель - да хрен его знает
Также авторы спекулируют, что подобное может встречаться и в дип лернинге, с чем можно согласиться - на каждом слое применяется своя регуляризация и нет-нет да и да ⇒ где-то такая же неприязнь может быть
Но нивелируется (по их словам) это довольно легко - не забывайте добавлять леернорму + побольше задумываться о том, куда именно вы применяете этот косинус (в каком именно пространстве, почему оно вам надо именно там, не происходит ли какой-то очевидной утечки во время обучения как, например, неправильно подобранного семплинга к дисбаланс датасету и все такое).
Общий вывод таков - не тыкайте свой пестик в любую тычинку, чтобы получить желаемые результаты по метрик лернингу.
The devil’s in the details 😈
👀LINK
😁6❤2👀1