Explaining RL Decisions with Trajectories
Довольно простой и работающий пайплайн, как выявить значимость траекторий принятий решений при обучении алгоритма: appropriate encoding + clustering, затем обучаем много-много политик, в каждой исключая по определенному кластеру, разница в перформансе указывает на значимость соответствующих кластеров траекторий
Можно ли применить не только к рл? Конечно, замените в тексте выше «траекторию» на «последовательность», «политику» на «модель» и получите простой метод интерпретации чего-то там для séquence data
👀LINK
#rl #decisionmaking #sequence #interpretability #representationlearning
Довольно простой и работающий пайплайн, как выявить значимость траекторий принятий решений при обучении алгоритма: appropriate encoding + clustering, затем обучаем много-много политик, в каждой исключая по определенному кластеру, разница в перформансе указывает на значимость соответствующих кластеров траекторий
Можно ли применить не только к рл? Конечно, замените в тексте выше «траекторию» на «последовательность», «политику» на «модель» и получите простой метод интерпретации чего-то там для séquence data
👀LINK
#rl #decisionmaking #sequence #interpretability #representationlearning
👍2
Understanding, Predicting and Better Resolving Q-Value Divergence in Offline-RL
Момент, когда специфичная теория на стыке областей работает. Применяют теорию диффуров для linear iteration dynamics + neural tangent kernel, чтобы получить метрику под названием Self-Excite Eigenvalue Measure (SEEM), которая показывает в начале обучения, разойдется ли метод оффлайн рл или нет. Если воспроизводить код - (вроде) работает + дает повод логгировать хоть что-то во время обучения, не относящееся к евалу ( с этим в рл туго, потому что зачастую тот же самый лосс практически никогда не говорит о том, какой результат будет на тесте )
Теперь и думай, как это соотносится со статьей про инстинкт выживания
👀LINK
#r #offlinerl #differentialequations #neuraltangentkernel #stability
Момент, когда специфичная теория на стыке областей работает. Применяют теорию диффуров для linear iteration dynamics + neural tangent kernel, чтобы получить метрику под названием Self-Excite Eigenvalue Measure (SEEM), которая показывает в начале обучения, разойдется ли метод оффлайн рл или нет. Если воспроизводить код - (вроде) работает + дает повод логгировать хоть что-то во время обучения, не относящееся к евалу ( с этим в рл туго, потому что зачастую тот же самый лосс практически никогда не говорит о том, какой результат будет на тесте )
Теперь и думай, как это соотносится со статьей про инстинкт выживания
👀LINK
#r #offlinerl #differentialequations #neuraltangentkernel #stability
🤔2
Generative Models as Distributions of Functions (AISTATS 2022)
А вы когда-нибудь задумывались о представлении картинок не с помощью решетки пикселей, а с помощью функций?
Авторы этой статьи задумались и предложили моделировать картинки именно таким способом. Достигается это с помощью неявного представления функции преобразования координат в RGB значения. В такие представления добавляют random Fourier feature encoding, чтобы выучивать сигнал разной частоты. Нейронка состоит из генератора hypernetwork, веса которой и представляют функцию преобразования, и дискриминатора PointConv, который расценивает выход нашей функции как набор точек с мерой дистанции, т.е это point cloud. Модель учится как GAN с minimax игрой
А спросите, нафиг это нужно? Тема в том, что тут размер сети скейлится линейно от размера данных + мы можем юзать одну сеть для разных модельностей типо картинок, вокселей или даже данных на сфере
Забавная идейка в общем, что сказать 🤑
👀 LINK
#generative #hypernetwork #functionrepresentation
А вы когда-нибудь задумывались о представлении картинок не с помощью решетки пикселей, а с помощью функций?
Авторы этой статьи задумались и предложили моделировать картинки именно таким способом. Достигается это с помощью неявного представления функции преобразования координат в RGB значения. В такие представления добавляют random Fourier feature encoding, чтобы выучивать сигнал разной частоты. Нейронка состоит из генератора hypernetwork, веса которой и представляют функцию преобразования, и дискриминатора PointConv, который расценивает выход нашей функции как набор точек с мерой дистанции, т.е это point cloud. Модель учится как GAN с minimax игрой
А спросите, нафиг это нужно? Тема в том, что тут размер сети скейлится линейно от размера данных + мы можем юзать одну сеть для разных модельностей типо картинок, вокселей или даже данных на сфере
Забавная идейка в общем, что сказать 🤑
👀 LINK
#generative #hypernetwork #functionrepresentation
❤1
Large Language Models as General Pattern Machines
Really profound paper, который еще больше раскрывает способности инконтекста ллмок. Обученная выполнять языковые задачи, ллм способна принимать на вход закодированные состояния среды и производить адекватные низкоуровневые действия, то есть решать задачу планирования, не говоря уже о том, что в целом решает задачки Abstraction and Reasoning, поданные в виде ascii art
Conclusion: «LLMs can serve as general sequence modelers, driven by in-context learning.»
👀LINK
#nlp #llm #patternrecognition #incontextlearning
Really profound paper, который еще больше раскрывает способности инконтекста ллмок. Обученная выполнять языковые задачи, ллм способна принимать на вход закодированные состояния среды и производить адекватные низкоуровневые действия, то есть решать задачу планирования, не говоря уже о том, что в целом решает задачки Abstraction and Reasoning, поданные в виде ascii art
Conclusion: «LLMs can serve as general sequence modelers, driven by in-context learning.»
👀LINK
#nlp #llm #patternrecognition #incontextlearning
❤2🔥2
The Difficulty of Passive Learning in Deep Reinforcement Learning
Вспомним базу рл: агент учится правильным действиям, исправляя свои ошибки, которые он сделал в среде. Тем не менее, учиться только на онлайн данных ооочень долго, практически все время нейронка на цпу (можно даже не переключаться на гпу, так чуть быстрее будет). К тому же, в реальных ситуациях такой открытый доступ к среде почти невозможен
поэтому уже очень долго разрабатывали всякие методы, где учатся и на заранее сохраненных примерах состояния-действия-награды, при том не факт, что они были собраны этим самым агентом. Самый простой пример - хранить в памяти довольно большой буффер данных с произведенными ранее действиями агента и прочим, обучаться на них и постепенно его обновлять. Даже после одного обновления весов по факту модель уже не та - веса другие, поэтому тут агент тоже обучается не совсем на своих же данных (своем поведении)
Гугловские ребята еще давно нашли в этом слабость на глубинном уровне, связанном с понятием пассивного обучения из эксперимента 20-ого века, где котенок не понимает последствия своих действий, потому что он напрямую и не влияет на ситуацию (логично)🐱 🐱
К сожалению, эта проблема остается (и видимо останется) открытой, ведь аналогично человек тоже хуже вычленяет каузальные паттерны, которые улучшают его жизнь в каком-то смысле, не на своих собственных примерах поведения
👀LINK
#rl #passivelearning
Вспомним базу рл: агент учится правильным действиям, исправляя свои ошибки, которые он сделал в среде. Тем не менее, учиться только на онлайн данных ооочень долго, практически все время нейронка на цпу (можно даже не переключаться на гпу, так чуть быстрее будет). К тому же, в реальных ситуациях такой открытый доступ к среде почти невозможен
поэтому уже очень долго разрабатывали всякие методы, где учатся и на заранее сохраненных примерах состояния-действия-награды, при том не факт, что они были собраны этим самым агентом. Самый простой пример - хранить в памяти довольно большой буффер данных с произведенными ранее действиями агента и прочим, обучаться на них и постепенно его обновлять. Даже после одного обновления весов по факту модель уже не та - веса другие, поэтому тут агент тоже обучается не совсем на своих же данных (своем поведении)
Гугловские ребята еще давно нашли в этом слабость на глубинном уровне, связанном с понятием пассивного обучения из эксперимента 20-ого века, где котенок не понимает последствия своих действий, потому что он напрямую и не влияет на ситуацию (логично)
К сожалению, эта проблема остается (и видимо останется) открытой, ведь аналогично человек тоже хуже вычленяет каузальные паттерны, которые улучшают его жизнь в каком-то смысле, не на своих собственных примерах поведения
👀LINK
#rl #passivelearning
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1🔥1
Training Diffusion Models with Reinforcement Learning
Беркли и MIT показывают, что процесс денойзинга в диффузиях можно переформулировать в Марковский Процесс принятия решений (MDP), а значит и использовать функцию награды. А еще лучше использовать ее там, где промптом или определенным лоссом нужды извне так просто не выразишь (эстетичность, компрессибилити, соответствие промпту, подсчет объектов и так далее)
Вопросом остается, как все-таки сделать эту ревард функцию и как именно файнтюнить модель с ее учетом - авторы формулируют ревард функции при помощи других моделек, сохраняя ту семантику, которую они встраивают + используют простой метод reinforce для дообучения
Результаты прикольные, особенно учитывая то, что методы в рл используются относительно примитивные и здесь еще много непаханного поля по улучшению результата (+ генеративные модели здесь так же относительно старые, скорее всего из-за сложностей во времени обучения)
👀LINK
#rl #diffusion #text2img #promptalignment #mdp
Беркли и MIT показывают, что процесс денойзинга в диффузиях можно переформулировать в Марковский Процесс принятия решений (MDP), а значит и использовать функцию награды. А еще лучше использовать ее там, где промптом или определенным лоссом нужды извне так просто не выразишь (эстетичность, компрессибилити, соответствие промпту, подсчет объектов и так далее)
Вопросом остается, как все-таки сделать эту ревард функцию и как именно файнтюнить модель с ее учетом - авторы формулируют ревард функции при помощи других моделек, сохраняя ту семантику, которую они встраивают + используют простой метод reinforce для дообучения
Результаты прикольные, особенно учитывая то, что методы в рл используются относительно примитивные и здесь еще много непаханного поля по улучшению результата (+ генеративные модели здесь так же относительно старые, скорее всего из-за сложностей во времени обучения)
👀LINK
#rl #diffusion #text2img #promptalignment #mdp
🔥3❤1
Layer-wise linear mode connectivity
Прикольная статья, которая теоретически и эмпирически показывает, почему прямое усреднение параметров моделей с одинаковой архитектурой улучшает результат, а точнее усреднение параметров конкретных слоев
Позволяет выйти в поверхности функции потерь на место с отсутствием linear barrier => parameters averaging снижает лосс, что далеко нетривиально для невыпуклых лоссов глубоких сетей
👀LINK
#representationlearning #parametersaveraging #losssurface
Прикольная статья, которая теоретически и эмпирически показывает, почему прямое усреднение параметров моделей с одинаковой архитектурой улучшает результат, а точнее усреднение параметров конкретных слоев
Позволяет выйти в поверхности функции потерь на место с отсутствием linear barrier => parameters averaging снижает лосс, что далеко нетривиально для невыпуклых лоссов глубоких сетей
👀LINK
#representationlearning #parametersaveraging #losssurface
🔥2
Data Distributional Properties Drive Emergent In-Context Learning in Transformers (NeurIPS 2022)
Интересная статейка с нипса 22 года про причины in-context learning (ICL). Тут авторы приводят несколько наблюдений
1) Есть свойства данных, которые коррелируют с возможностью модели в ICL. Это "burstiness" (насколько классы в последовательности собираются в кластера), число и частота классов, различность в значениях одного класса и внутреклассовые вариации семплов. Эти выводы можно использовать для анализа различных ICL сетапов
2) In-context learning зачастую идет в трейд-офф с in-weights learning (IWL), а свойства в данных для двух сетапов разнятся
3) Трансформеры более способны в ICL, чем рннки, что в целом не сюрприз
4) Существуют сетапы, где модель все может показать и ICL и IWL, например, если данные семплируются из распределения Ципфа, которое несет важную информацию о распредлении частотности слова в языке
👀 LINK
#nlp #incontextlearning #inweightslearning
Интересная статейка с нипса 22 года про причины in-context learning (ICL). Тут авторы приводят несколько наблюдений
1) Есть свойства данных, которые коррелируют с возможностью модели в ICL. Это "burstiness" (насколько классы в последовательности собираются в кластера), число и частота классов, различность в значениях одного класса и внутреклассовые вариации семплов. Эти выводы можно использовать для анализа различных ICL сетапов
2) In-context learning зачастую идет в трейд-офф с in-weights learning (IWL), а свойства в данных для двух сетапов разнятся
3) Трансформеры более способны в ICL, чем рннки, что в целом не сюрприз
4) Существуют сетапы, где модель все может показать и ICL и IWL, например, если данные семплируются из распределения Ципфа, которое несет важную информацию о распредлении частотности слова в языке
#nlp #incontextlearning #inweightslearning
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🤔1
Foundation Policies with Hilbert Representations
фаундейшн модели остаются открытым вопросом в области рл, поскольку зачастую эти методы требуют большого разнообразия и высокой экспертности данных для того, чтобы хоть что-то завелось. Беркли, а именно Seohong Park, решают эту проблему через латентное представление в Гильбертовом пространстве (звучит умно, а на самом деле в этом пространстве просто достаточно, чтобы inner product соответствовал метрике), которое сохраняет временные зависимости между состояниями в пространственных между эмбеддингами.
Политика же обучается после этого с формулированием подобного же intrinsic reward'a
Что это дает? возможность решать много разных goal-conditioned и zero-shot rl задач, обгоняя алгоритмы, которые затюнены специально под каждую конкретную таску
👀LINK
#rl #zeroshot #goalconditioning #hilbert #offlinerl
фаундейшн модели остаются открытым вопросом в области рл, поскольку зачастую эти методы требуют большого разнообразия и высокой экспертности данных для того, чтобы хоть что-то завелось. Беркли, а именно Seohong Park, решают эту проблему через латентное представление в Гильбертовом пространстве (звучит умно, а на самом деле в этом пространстве просто достаточно, чтобы inner product соответствовал метрике), которое сохраняет временные зависимости между состояниями в пространственных между эмбеддингами.
Политика же обучается после этого с формулированием подобного же intrinsic reward'a
Что это дает? возможность решать много разных goal-conditioned и zero-shot rl задач, обгоняя алгоритмы, которые затюнены специально под каждую конкретную таску
👀LINK
#rl #zeroshot #goalconditioning #hilbert #offlinerl
👀2
Identifying Policy Gradient Subspaces
В оптимизации супервайзд лернинга есть находка относительно градиентов - они лежат в каком-то подпространстве параметров, при этом это подпространство меняет свою форму относительно медленно
Авторы решили поискать то же самое и в полиси градиент методах рл - и выяснили то же самое!
А что ето значит? А то, что любые методы по ускорению обучения супервайзд лернинга, которые используют факт low-dimensional gradient subspace coverage, можно без зазрения совести использовать и в классичных алгоритмах рл, задумываясь о других аспектах методов
👀LINK
#rl #optimization #subspace #policygradient
В оптимизации супервайзд лернинга есть находка относительно градиентов - они лежат в каком-то подпространстве параметров, при этом это подпространство меняет свою форму относительно медленно
Авторы решили поискать то же самое и в полиси градиент методах рл - и выяснили то же самое!
А что ето значит? А то, что любые методы по ускорению обучения супервайзд лернинга, которые используют факт low-dimensional gradient subspace coverage, можно без зазрения совести использовать и в классичных алгоритмах рл, задумываясь о других аспектах методов
👀LINK
#rl #optimization #subspace #policygradient
❤2👍2
GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection
А вот и невероятно крутой пример, как использовать факт из поста выше
Сложно найти человека, который ни разу не слышал про ЛоРУ и многие ее производные, которые оч сильно помогают файнтюнить большие модельки при непосредственном обучении отдельного относительно небольшого количества параметров
А вот можно лучше, как оказывается!😼
Авторы показывают, что оптимизацию в низкоранговом пространстве можно сделать эффективно относительно памяти для всех параметров модели. А как? Да просто проецировать градиенты в подпространство, делать там апдейт, и возвращаться в исходное пространство
А как найти это подпространство? Через сингулярное разложение, оф корс😎 😎 😎
👀LINK
#llm #optimization #lowrank #memory #lora
А вот и невероятно крутой пример, как использовать факт из поста выше
Сложно найти человека, который ни разу не слышал про ЛоРУ и многие ее производные, которые оч сильно помогают файнтюнить большие модельки при непосредственном обучении отдельного относительно небольшого количества параметров
А вот можно лучше, как оказывается!
Авторы показывают, что оптимизацию в низкоранговом пространстве можно сделать эффективно относительно памяти для всех параметров модели. А как? Да просто проецировать градиенты в подпространство, делать там апдейт, и возвращаться в исходное пространство
А как найти это подпространство? Через сингулярное разложение, оф корс
👀LINK
#llm #optimization #lowrank #memory #lora
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍1
Massively Scalable Inverse Reinforcement Learning in Google Maps
Что насчет применения инверс рейнфорсмент лернинга, задачки где надо восстановить ревард функцию, на графах, где граф - маршруты на нашей земле. А ревард функция зачем? - чтобы научить алгоритм находить кратчайшие маршруты, конечно
А такое возможно🤔 ?
А что насчет компрессии графов, пространственной параллелизации и увеличения производительности? - ну тоже есть, вот Гугл раскрыл как применяет рл и нормально так времени на маршрут сбавляет по всему миру
👀LINK
#rl #graph #mdp #inverserl
Что насчет применения инверс рейнфорсмент лернинга, задачки где надо восстановить ревард функцию, на графах, где граф - маршруты на нашей земле. А ревард функция зачем? - чтобы научить алгоритм находить кратчайшие маршруты, конечно
А такое возможно
А что насчет компрессии графов, пространственной параллелизации и увеличения производительности? - ну тоже есть, вот Гугл раскрыл как применяет рл и нормально так времени на маршрут сбавляет по всему миру
👀LINK
#rl #graph #mdp #inverserl
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
To the Max: Reinventing Reward in Reinforcement Learning
Все обучение с подкреплением зиждится на максимизации функции награды, а точнее на ее максимизации в долгосрочной перспективе, в основном - это (дисконтированная) сумма наград
Но что делать в ситуациях, когда сумма наград не подходит под решение задачи? Например, награды, сделанные в лоб для того, чтобы заставить агента делать то, что человек хочет, зачастую разреженные, а такое оптимизируется ой как непросто и в классическом дип лернинге, не то что в рл
Авторы предлагают в таком случае переформулировать постановку оптимизации не суммы наград, а максимума из наград, что поможет в таких случаях
А как такое сделоть? Через доп переменную, которая интуитивно является аккумулируемой переменной максимума, а остальные детали не отличаются от классических имплементаций
👀LINK
#rl #reward
Все обучение с подкреплением зиждится на максимизации функции награды, а точнее на ее максимизации в долгосрочной перспективе, в основном - это (дисконтированная) сумма наград
Но что делать в ситуациях, когда сумма наград не подходит под решение задачи? Например, награды, сделанные в лоб для того, чтобы заставить агента делать то, что человек хочет, зачастую разреженные, а такое оптимизируется ой как непросто и в классическом дип лернинге, не то что в рл
Авторы предлагают в таком случае переформулировать постановку оптимизации не суммы наград, а максимума из наград, что поможет в таких случаях
А как такое сделоть? Через доп переменную, которая интуитивно является аккумулируемой переменной максимума, а остальные детали не отличаются от классических имплементаций
👀LINK
#rl #reward
Forwarded from Complete AI (Andrey Kuznetsov)
🕯️Друзья, вчера случилась большая трагедия!
Нападение террористов на Крокус привело к большому числу жертв и пострадавших.
Сбер не остался в стороне и вместе с Российским красным крестом запустил благотворительный фонд. Прошу не оставаться в стороне, помощь каждого из вас безмерно важна🙏
➡️По ссылке сразу перейдёте в Сбербанк Онлайн и сможете внести пожертвование.
Берегите себя🙏
Нападение террористов на Крокус привело к большому числу жертв и пострадавших.
Сбер не остался в стороне и вместе с Российским красным крестом запустил благотворительный фонд. Прошу не оставаться в стороне, помощь каждого из вас безмерно важна🙏
➡️По ссылке сразу перейдёте в Сбербанк Онлайн и сможете внести пожертвование.
Берегите себя🙏
Sberbank
СберБанк Онлайн
🙏5
CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster Image Generation
⚡️ CVPR 2024 ⚡️
Новый метод дистилляции unconditional диффузии для conditional данных в один этап. Напоминание - дистилляция в consistency models работает в два шага, если мы хотим иметь какое-то условие для генерации. Сначала мы дистиллируем, а потом тюним с каким-нибудь адаптером, ну или наоборот. Так вот CoDi позволяет это делать в один шаг
Модель учится на подобие ControlNet, что позволяет принимать conditioning. Лосс же (уже conditional модели) состоит из двух частей для self-consistency: дистанция по предиктам шума и дистанция по предикту сигнала изображения. Вторая часть приближает предсказанный conditional сигнал к изначальной картинке, что помогает бороться с over-saturated генерациями
Модель отлично себя показывает в 1-4-step генерациях против LDM, ControlNet, CM, Instruct-Pix2Pix и разных видов дистилляций
👀 LINK
#diffusion #diffusiondistillation #consistency #controlnet
Новый метод дистилляции unconditional диффузии для conditional данных в один этап. Напоминание - дистилляция в consistency models работает в два шага, если мы хотим иметь какое-то условие для генерации. Сначала мы дистиллируем, а потом тюним с каким-нибудь адаптером, ну или наоборот. Так вот CoDi позволяет это делать в один шаг
Модель учится на подобие ControlNet, что позволяет принимать conditioning. Лосс же (уже conditional модели) состоит из двух частей для self-consistency: дистанция по предиктам шума и дистанция по предикту сигнала изображения. Вторая часть приближает предсказанный conditional сигнал к изначальной картинке, что помогает бороться с over-saturated генерациями
Модель отлично себя показывает в 1-4-step генерациях против LDM, ControlNet, CM, Instruct-Pix2Pix и разных видов дистилляций
#diffusion #diffusiondistillation #consistency #controlnet
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍1
Simple and Principled Uncertainty Estimation with Deterministic Deep Learning via Distance Awareness
А вот вам немного OOD с приколами🥶
Авторы формулируют задачу подсчета неуверенности модели через minimax проблему, где нам интересно минимизировать worst-case риск по всем тренировочнм распределениям. Такая формулировка в стандартном сетапе ведет к предсказаниям с максимальной энтропией для OOD данных. Но для того, чтобы оценить вероятность домена данных нам нужна мера расстояния конкретного семпла до тренировочной выборки (звучит логично💯 )
Логиты нейронных сетей не несут в себе меры расстояния от in-domain данных, в отличие от гауссовских процессов с радиальной базисной функцией (RBF). В них дисперсия постериора растет по мере удаления тестового семпла от in-domain выборки
Для того, чтобы получить distance-aware нейронку, авторы вставляют вместо последнего слоя гауссовский процесс. Однако просто так это сделать нельзя из-за вычислительных сложностей. Давайте аппроксимировать гауссовский процесс с помощью случайных признаков Фурье, получая байесовскую линейную модель. Для таких сетапов есть много вариантов аппроксимации постериора, и авторы выбирают аппроксимацию Лапласа. В итоге получается дешевый distance-aware метод для uncertainty estimation
Последний штрих - спектральная нормализация для гарантии на ограниченность фичей по Липшицу. Это нам нужно опять же для полной уверенности в связи наших предиктов и меры расстояния
👀 LINK
#uncertainty #laplaceapproximation #gaussianprocess #bayesian #ood
А вот вам немного OOD с приколами
Авторы формулируют задачу подсчета неуверенности модели через minimax проблему, где нам интересно минимизировать worst-case риск по всем тренировочнм распределениям. Такая формулировка в стандартном сетапе ведет к предсказаниям с максимальной энтропией для OOD данных. Но для того, чтобы оценить вероятность домена данных нам нужна мера расстояния конкретного семпла до тренировочной выборки (звучит логично
Логиты нейронных сетей не несут в себе меры расстояния от in-domain данных, в отличие от гауссовских процессов с радиальной базисной функцией (RBF). В них дисперсия постериора растет по мере удаления тестового семпла от in-domain выборки
Для того, чтобы получить distance-aware нейронку, авторы вставляют вместо последнего слоя гауссовский процесс. Однако просто так это сделать нельзя из-за вычислительных сложностей. Давайте аппроксимировать гауссовский процесс с помощью случайных признаков Фурье, получая байесовскую линейную модель. Для таких сетапов есть много вариантов аппроксимации постериора, и авторы выбирают аппроксимацию Лапласа. В итоге получается дешевый distance-aware метод для uncertainty estimation
Последний штрих - спектральная нормализация для гарантии на ограниченность фичей по Липшицу. Это нам нужно опять же для полной уверенности в связи наших предиктов и меры расстояния
#uncertainty #laplaceapproximation #gaussianprocess #bayesian #ood
Please open Telegram to view this post
VIEW IN TELEGRAM
👀6👍2🔥2
Inference via Interpolation:
Contrastive Representations Provably Enable Planning and Inference
Работать с временными рядами сложно, особенно когда эти ряды еще и многомерны. Но можно ли снизить размерность -> облегчить инференс, который интуитивно отвечает на вопрос "а что произойдет в будущем?"
Ну можно перевести в какие-то эмбеддинги, а лучше не просто, а применить метрик или контрастив лернинг
А как именно применить контрастив лернинг? - перевести ряды в такие эмбеддинги, чтобы временная разность между рядами сохранялась в пространственной между эмбеддингами
Авторы делают такой процесс при помощи классического InfoNCE, да и теоретически показывают, что такие репрезентации следуют процессу Гаусса-Маркова, а значит и инференс благодаря этому получается analytically tractable, да и еще можно интерполяцию делать между дискретными таймстепами
👀LINK
#timeseries #representationlearning #contrastivelearning #decisionmaking
Contrastive Representations Provably Enable Planning and Inference
Работать с временными рядами сложно, особенно когда эти ряды еще и многомерны. Но можно ли снизить размерность -> облегчить инференс, который интуитивно отвечает на вопрос "а что произойдет в будущем?"
Ну можно перевести в какие-то эмбеддинги, а лучше не просто, а применить метрик или контрастив лернинг
А как именно применить контрастив лернинг? - перевести ряды в такие эмбеддинги, чтобы временная разность между рядами сохранялась в пространственной между эмбеддингами
Авторы делают такой процесс при помощи классического InfoNCE, да и теоретически показывают, что такие репрезентации следуют процессу Гаусса-Маркова, а значит и инференс благодаря этому получается analytically tractable, да и еще можно интерполяцию делать между дискретными таймстепами
👀LINK
#timeseries #representationlearning #contrastivelearning #decisionmaking
❤1👍1🔥1
Reset & Distill: A Recipe for Overcoming Negative Transfer in Continual Reinforcement Learning
Мы привыкли, что трансфер лернинг - полезная вещь, потому что дает отфайнтюнить крутую модель на более узкую задачу (в основном). На самом деле это не совсем так, ведь если домен претрена и домен для файнтюна сильно не совпадают, то трансфер лернинг только ухудшит перформанс, чем если обучать модель с нуля с рандом инитом
Это более глубокая проблема, потому что она происходит как в continual learning, так и в continual rl, где с течением времени домен (таска) тем или иным Образом обновляется и надо показывать хороший результат как на нем, так и на всех предыдущих доменах (тасках)
Загвоздка в том, что по отдельности эти таски хорошо выучиваются, но вот если файнтюнить агента на новой таске, то все ломается, а нам бы хотелось не много-много агентов, каждый из которых хорошо работает на отдельных тасках, а одного мультитаск гигачада
Авторы в континуал рл решают эту проблему тем, что на каждую таску тренят отдельного агента (онлайн агента), собирают его экспертный датасет, и уже потом дистиллят этот датасет в основного агента (оффлайн), который старается сохранять мультитаскность по истории тасок, онлайн агент ресетится и все повторяется
(Костыльная) Простота - сестра таланта😎
👀LINK
#rl #continuallearning #continualrl #reset #distillation #behaviorcloning #plasticity #stability
Мы привыкли, что трансфер лернинг - полезная вещь, потому что дает отфайнтюнить крутую модель на более узкую задачу (в основном). На самом деле это не совсем так, ведь если домен претрена и домен для файнтюна сильно не совпадают, то трансфер лернинг только ухудшит перформанс, чем если обучать модель с нуля с рандом инитом
Это более глубокая проблема, потому что она происходит как в continual learning, так и в continual rl, где с течением времени домен (таска) тем или иным Образом обновляется и надо показывать хороший результат как на нем, так и на всех предыдущих доменах (тасках)
Загвоздка в том, что по отдельности эти таски хорошо выучиваются, но вот если файнтюнить агента на новой таске, то все ломается, а нам бы хотелось не много-много агентов, каждый из которых хорошо работает на отдельных тасках, а одного мультитаск гигачада
Авторы в континуал рл решают эту проблему тем, что на каждую таску тренят отдельного агента (онлайн агента), собирают его экспертный датасет, и уже потом дистиллят этот датасет в основного агента (оффлайн), который старается сохранять мультитаскность по истории тасок, онлайн агент ресетится и все повторяется
(Костыльная) Простота - сестра таланта
👀LINK
#rl #continuallearning #continualrl #reset #distillation #behaviorcloning #plasticity #stability
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1🔥1