Does RL work yet? – Telegram

Does RL work yet?

430 subscribers

53 photos

9 videos

1 file

65 links

rl research by @howuhh

howuhh.github.io | dunnolab.ai

Download Telegram

About

Blog

Apps

Platform

Does RL work yet?

430 subscribers

Does RL work yet?

Советую. Как никак PPO его работа. Гений.

http://joschu.net/blog/opinionated-guide-ml-research.html

❤18

1K views21:07

Does RL work yet?

by @suessmann

я выбираю бесконечное (3 тонны) счастье.

❤18

616 views21:57

Does RL work yet?

Forwarded from ду́но

Открыли набор на практику по направлениям RL / VLA / IL.

У нашей группы большой опыт в области RL: имеем публикации на самых топовых конференциях [см. Наши статьи]. Если вы хотите писать научные статьи, сдвигать соты, и развиваться как исследователь в области Reinforcement Learning (RL) и вокруг — то вам к нам!

Resident Research Scientist — RL / VLA / IL

Вы будете заниматься написанием статей на top-tier конференции (NeurIPS, ICLR, ICML), проводить эксперименты и предлагать новые исследовательские идеи.

Требования:
- Наличие исследовательских идей.
- Начитанность, знание и умение рассказать о последних заинтересовавших статьях с A* конференций.
- Cамостоятельный опыт с чем-то из RL, Imitation Learning, Vision-Language-Action models и всем вокруг.

Подробное описание позиции и тестовое задание можно найти по ссылке выше, дедлайн подачи заявки — 10-го ноября.

- - —
@dunnolab

dunnolab on Notion

Resident Research Scientist — RL / VLA / IL | Notion

Про практику

🔥5

315 views13:37

Does RL work yet?

Понравилась аналогия:

Since most of the success of large language models arise from making the underlying transformer model bigger, and training it on more text (trillions of tokens), and training it using more compute for longer duration, transformer-based language model offers an intriguing possibility just like the balloons did in early 1900’s: Without having to figure out the principles behind human intelligence, we could build machines that solve more cognitive and human-like tasks simply by building them bigger, and training them with more data, compute, and human feedback.

….

Once the basic principles behind dirigibles were figured out, they had a favorable scaling law going for them — to go further distances, and to carry heavier payloads you simply had to make them bigger, and give them more powerful engines. This was purely an engineering task.

https://blog.dileeplearning.com/p/welcome-to-the-exciting-dirigibles-500

Welcome to the exciting dirigibles era of AI

Notes for navigating large language models and beyond...

❤6🤔1

683 views12:59

Does RL work yet?

👍1

749 views13:00

Does RL work yet?

Our implementation achieves speedups of up to 665x over naive sequential application, allowing training nonlinear RNNs at unprecedented scales. To showcase this, we apply ParaRNN to adaptations of LSTM and GRU architectures, successfully training models of 7B parameters that attain perplexity comparable to similarly-sized Transformers and Mamba2 architectures.

https://arxiv.org/abs/2510.21450

ParaRNN: Unlocking Parallel Training of Nonlinear RNNs for Large...

Recurrent Neural Networks (RNNs) laid the foundation for sequence modeling, but their intrinsic sequential nature restricts parallel computation, creating a fundamental barrier to scaling. This...

🤯5🥴1

695 viewsedited 20:22

Does RL work yet?

мем сделанный мной еще в далеком 2023 году...

❤10

834 views20:23

Does RL work yet?

🔥10🥴3👏1

590 views10:01

Does RL work yet?

Forwarded from Ivan Oseledets’ Channel

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Вчера завершилась наша традиционная четырёхдневная научная отчётная сессия AIRI. Это важное событие, где все — от младших сотрудников до руководителей лабораторий — поделились итогами года и планами на будущее. За это время прошло 53 устных доклада и представлено 198 постеров.

Отмечу, что уровень подготовки у ребят заметно вырос — узнал много нового и интересного. Тим-лиды и их команды подошли к сессии очень серьёзно и подготовились на высоком уровне.

Это не просто отчёт — это внутренняя площадка для обмена идеями и опытом, для создания новых связей между командами. Именно такой формат помогает расти, развиваться и двигаться вперёд.

Главная цель сессии — не только показать достижения, но и открыто говорить о сложностях и вызовах, с которыми сталкиваемся. Только честный диалог и тесное взаимодействие позволяют находить лучшие решения.

Спасибо всем за активное участие и вклад в общее дело!

❤9

476 views08:52

Does RL work yet?

While NetHack is complex in comparison to other RL benchmarks, it still contains only a tiny fraction of the complexity of the real world (its source code is 4.2MB, which provides an upper bound on its Kolmogorov complexity). As long as we can’t reliably solve this game for which we can easily collect lifetimes worth of data, have access to detailed textual resources (and even the underlying source code), and large-scale datasets of human gameplay, I think AGI remains a ways off.

https://substack.com/@mikaelhenaff/p-165417996

First NetHack ascension, and insights into the AI capabilities it requires

A deep dive into the challenges of NetHack, and how they correspond to essential RL capabilities.

391 views08:19

Does RL work yet?

🤔🤔🤔🤔

🤔10

436 views08:19

Does RL work yet?

Forwarded from ду́но

🎄Новогодние вакансии в дуно 🎄

Вы часто спрашивали, как попасть к нам в команду. И мы вас услышали! В этот раз у нас настоящий новогодний апдейт: мы открываем набор в основную команду 🎁

Открыты две вакансии — выбирайте, что ближе: хотите заниматься рисерчем и растить хирш или прикладными проектами и растить метрики? Теперь можно и то, и другое.

🪖 Research Engineer в области RL

Вы будете работать над практическими R&D-проектами, от робототехники и управления беспилотным транспортом до рекомендательных систем и макроэкономического моделирования.

🧪Research Scientist в области RL

Вы будете заниматься написанием статей на top-tier конференции (NeurIPS, ICLR, ICML), проводить эксперименты и предлагать новые исследовательские идеи.

Узнать подробности и податься можно по ссылкам выше.

- - —
@dunnolab

Инженер-исследователь (Research-Engineer) в области RL

В Институте работает более 90 научных сотрудников, которые занимаются фундаментальными и прикладными исследованиями в области искусственного интеллекта.

🔥3❤1🤝1

584 views15:36

Does RL work yet?

Видимо пора оживлять канал в этом году, а то меня заменят на claude code... Есть о чем рассказать, на самом деле.

https://x.com/ft/status/2009530152707874991

❤18

661 views08:11

Does RL work yet?

ICLR area chair last words перед там как реджекнуть мою статью

✍17🤯7🤔1🥴1

754 views13:12