Forwarded from Жёлтый AI
ICML День #1: Спонсоры, спонсоры, спонсоры
Привет, это @vkurenkov. Так вышло, что я второй год подряд катаюсь на ICML рассказывать про наши новые статьи. А в этот раз я, кажется, еще созрел рассказать как проходит сама конференция. В течение недели будет много постов и фоточек, где буду подсвечивать прикольные вещи. Stay tuned.
Первый день — это всегда про спонсоров конференции: Google, Citadel, Amazon, DeepMind, Microsoft и весь другой BigTech рассказывают про то какие крутые вещи они у себя делают и почему нужно идти работать именно к ним (прим. редакции – вы-то знаете, что идти нужно к нам). Cамый движ потом происходит в Expo Hall, где каждый может подлететь к ним пообщаться. В довесок вам еще отгрузят пачку стикеров или футболку.
Из интересного, что увидел в первый день (а интересное для меня RL, sorry):
1. Sony показывали демку того как они с помощью RL решили Grand Turismo. Из любопытного — у них есть отдельная группа, которая нарешивает разные игры и может утаскивать к себе в команду инженеров, которые делали эти игры — well, it’s Sony. Из приятного, оказалось, что создатель d3rlpy работает в этой группе и любит наш CORL. Молодец, уважаю. 🤙
2. Microsoft в очередной раз (2 или 3 год подряд?) рассказывали про свою библиотеку для бандитов Vowpal Wabbit: этот раз они умудрились сделать интеграцию с LLM, для оптимизации переменных в промптах, что выглядит любопытно и позволяет нативным образом накрутить RL поверх LLM для переменных частей, добиваясь персонализации через промпты 🤔
Привет, это @vkurenkov. Так вышло, что я второй год подряд катаюсь на ICML рассказывать про наши новые статьи. А в этот раз я, кажется, еще созрел рассказать как проходит сама конференция. В течение недели будет много постов и фоточек, где буду подсвечивать прикольные вещи. Stay tuned.
Первый день — это всегда про спонсоров конференции: Google, Citadel, Amazon, DeepMind, Microsoft и весь другой BigTech рассказывают про то какие крутые вещи они у себя делают и почему нужно идти работать именно к ним (прим. редакции – вы-то знаете, что идти нужно к нам). Cамый движ потом происходит в Expo Hall, где каждый может подлететь к ним пообщаться. В довесок вам еще отгрузят пачку стикеров или футболку.
Из интересного, что увидел в первый день (а интересное для меня RL, sorry):
1. Sony показывали демку того как они с помощью RL решили Grand Turismo. Из любопытного — у них есть отдельная группа, которая нарешивает разные игры и может утаскивать к себе в команду инженеров, которые делали эти игры — well, it’s Sony. Из приятного, оказалось, что создатель d3rlpy работает в этой группе и любит наш CORL. Молодец, уважаю. 🤙
2. Microsoft в очередной раз (2 или 3 год подряд?) рассказывали про свою библиотеку для бандитов Vowpal Wabbit: этот раз они умудрились сделать интеграцию с LLM, для оптимизации переменных в промптах, что выглядит любопытно и позволяет нативным образом накрутить RL поверх LLM для переменных частей, добиваясь персонализации через промпты 🤔
🤯3❤1
Forwarded from Жёлтый AI
ICML День #5: Рассказали про нашу работу
Сегодня мы выступали с постером про SAC-RND. Организаторы немного провафлили рассылку с локальной печатью плакатов и большинство людей тащили тубусы со своими огромными постерами на Гавайи сами (мы — не исключение), либо отправляли FedEx’ом. Ворчания по этому поводу от соседей по постерной сессии было много, да.
В целом всё прошло очень прикольно, вместо запланированных полутора часов я простоял почти два с половиной обясняя какие-то детали работы и отвечая на вопросы, в общей сложности активно вовлеклись человек 20-30 – это хорошие числа.
Для тех кто еще не знаком с нашей работой, вот три вещи которые надо для себя вынести:
🤙️️️️ Random Network Distillation (RND) может быть успешно использован не только для Online RL, но и для Offline RL
😎 RND может заменить ансамбль критиков: это в некоторых случаях ускоряет тренировочный процесс до 20 раз. При этом награда либо остается на уровне, либо даже становится лучше☝️
👉 Оптимизация RND может быть нестабильной, поэтому следует внимательно подобрать механизм слияния состояний и действий в RND. Мы описали разные варианты в нашей работе, так что check it out.
P.S. Если вы вдруг собираетесь когда-то поехать с постером, то всегда готовьтесь к тому, что подойдут как люди, которые вообще ничего не знают про вашу область, так и люди, которые уже прочитали вашу работу и у них есть миллион и один детальный вопрос. К нам подошли авторы работы, чьи результаты мы опровергли, чтобы уточнить, как у нас это получилось (было неловко, учитывая, что там надо было подкрутить глубину сети).
Сегодня мы выступали с постером про SAC-RND. Организаторы немного провафлили рассылку с локальной печатью плакатов и большинство людей тащили тубусы со своими огромными постерами на Гавайи сами (мы — не исключение), либо отправляли FedEx’ом. Ворчания по этому поводу от соседей по постерной сессии было много, да.
В целом всё прошло очень прикольно, вместо запланированных полутора часов я простоял почти два с половиной обясняя какие-то детали работы и отвечая на вопросы, в общей сложности активно вовлеклись человек 20-30 – это хорошие числа.
Для тех кто еще не знаком с нашей работой, вот три вещи которые надо для себя вынести:
🤙️️️️ Random Network Distillation (RND) может быть успешно использован не только для Online RL, но и для Offline RL
😎 RND может заменить ансамбль критиков: это в некоторых случаях ускоряет тренировочный процесс до 20 раз. При этом награда либо остается на уровне, либо даже становится лучше☝️
👉 Оптимизация RND может быть нестабильной, поэтому следует внимательно подобрать механизм слияния состояний и действий в RND. Мы описали разные варианты в нашей работе, так что check it out.
P.S. Если вы вдруг собираетесь когда-то поехать с постером, то всегда готовьтесь к тому, что подойдут как люди, которые вообще ничего не знают про вашу область, так и люди, которые уже прочитали вашу работу и у них есть миллион и один детальный вопрос. К нам подошли авторы работы, чьи результаты мы опровергли, чтобы уточнить, как у нас это получилось (было неловко, учитывая, что там надо было подкрутить глубину сети).
❤2🔥1
Forwarded from Жёлтый AI
Тинькофф X NeurIPS 2023
На нашем ивенте в июле, Saint Reinforcenburg, мы рассказывали про новые статьи, которые мы отправляем на какую-то конференцию. Так вот, все три наши статьи были приняты на NeurIPS 2023.
Если вы занимаетесь Reinforcement Learning, то у нас по этому случаю несколько подгонов: новый Offline/Offline-to-Online метод, обновленная документация для CORL’a, и записи наших выступлений.
🛠️ Revisiting the Minimalist Approach to Offline Reinforcement Learning [arXiv, видео, код]
🤖 CORL: Research-oriented Deep Offline Reinforcement Learning Library [arXiv, видео, код]
🧙 Katakomba: Tools and Benchmarks for Data-Driven NetHack [arXiv, видео, код]
На нашем ивенте в июле, Saint Reinforcenburg, мы рассказывали про новые статьи, которые мы отправляем на какую-то конференцию. Так вот, все три наши статьи были приняты на NeurIPS 2023.
Если вы занимаетесь Reinforcement Learning, то у нас по этому случаю несколько подгонов: новый Offline/Offline-to-Online метод, обновленная документация для CORL’a, и записи наших выступлений.
🛠️ Revisiting the Minimalist Approach to Offline Reinforcement Learning [arXiv, видео, код]
🤖 CORL: Research-oriented Deep Offline Reinforcement Learning Library [arXiv, видео, код]
🧙 Katakomba: Tools and Benchmarks for Data-Driven NetHack [arXiv, видео, код]
🔥3❤1👍1
https://hai.stanford.edu/news/introducing-foundation-model-transparency-index
> transparency index
> openai = 47% vs llama = 57%
…
The indicators are designed to circumvent some of the traditional tradeoffs between transparency and other values, such as privacy, security, competitive advantage, or concerns about misuse by bad actors, Bommasani says.
okay, transparency then
> transparency index
> openai = 47% vs llama = 57%
…
The indicators are designed to circumvent some of the traditional tradeoffs between transparency and other values, such as privacy, security, competitive advantage, or concerns about misuse by bad actors, Bommasani says.
okay, transparency then
hai.stanford.edu
Introducing The Foundation Model Transparency Index | Stanford HAI
A new index rates the transparency of 10 foundation model companies and finds them lacking.
❤1
скатался на нипс, душевно поболтал с Даней, сейчас в казани кальян курю
https://www.youtube.com/watch?v=7A51Ol7wo7o
https://www.youtube.com/watch?v=7A51Ol7wo7o
YouTube
Желтый Club Talks — Про NeurIPS 2023 и Новый Орлеан
Завершаем этот год приятными новостями. Запускаем новый формат — «Желтый Club Talks», в котором будем делиться разными впечатлениями, новостями, мыслями.
Ведущий этого выпуска — Даня Гаврилов, лид направления NLP в Tinkoff Research. В гостях — Влад Куренков…
Ведущий этого выпуска — Даня Гаврилов, лид направления NLP в Tinkoff Research. В гостях — Влад Куренков…
❤6
Forwarded from мужское одиночество
привет, ваша группа недавно мою статью процитировала) хочешь сходить куда-нибудь? может заколабимся)
❤6