ИИ-агенты смогут учиться не на датасетах, а на ваших правках
OpenClaw-RL предлагает очень важный сдвиг: модель больше не ждёт, пока люди вручную соберут, разметят и оценят огромный датасет.
Она учится прямо во время обычной работы.
Пользователь поправил ассистента? Это сигнал.
Тест упал? Это сигнал.
Человек задал тот же вопрос ещё раз? Возможно, ответ был плохим.
Лог ошибки показал, где агент сломался? Это тоже обучающий пример.
Главная идея простая: современные RL-системы часто смотрят только на финальный результат - получилось или нет. Но они игнорируют самое ценное: объяснение, почему не получилось и что надо было сделать иначе.
OpenClaw-RL вытаскивает из каждого взаимодействия два типа сигналов:
1. Оценочный сигнал
Система понимает, сработало действие или нет. Например:
- тест прошёл - хорошо;
- пользователь повторил вопрос - вероятно, недоволен;
- задача завершилась ошибкой - агент сделал что-то не так.
2. Направляющий сигнал
Система смотрит, как именно надо было исправить поведение:
- правки пользователя;
- error logs;
- терминальные команды;
- клики в интерфейсе;
- исправления в коде;
- реакции в обычном чате.
Дальше агент учится в фоне и не останавливает работу. Он просто превращает реальные реакции пользователя в постоянный поток обучения.
Это уже не классическое «собрали датасет - обучили модель - выкатили новую версию».
Это ближе к живому агенту, который становится лучше от каждого рабочего контакта с человеком, тестами, терминалом и интерфейсом.
Если подход взлетит, будущие AI Agents будут не просто выполнять задачи, а постепенно подстраиваться под стиль конкретного пользователя, команду и рабочую среду.
Paper: OpenClaw-RL: Train Any Agent Simply by Talking
arxiv.org/abs/2603.10165
OpenClaw-RL предлагает очень важный сдвиг: модель больше не ждёт, пока люди вручную соберут, разметят и оценят огромный датасет.
Она учится прямо во время обычной работы.
Пользователь поправил ассистента? Это сигнал.
Тест упал? Это сигнал.
Человек задал тот же вопрос ещё раз? Возможно, ответ был плохим.
Лог ошибки показал, где агент сломался? Это тоже обучающий пример.
Главная идея простая: современные RL-системы часто смотрят только на финальный результат - получилось или нет. Но они игнорируют самое ценное: объяснение, почему не получилось и что надо было сделать иначе.
OpenClaw-RL вытаскивает из каждого взаимодействия два типа сигналов:
1. Оценочный сигнал
Система понимает, сработало действие или нет. Например:
- тест прошёл - хорошо;
- пользователь повторил вопрос - вероятно, недоволен;
- задача завершилась ошибкой - агент сделал что-то не так.
2. Направляющий сигнал
Система смотрит, как именно надо было исправить поведение:
- правки пользователя;
- error logs;
- терминальные команды;
- клики в интерфейсе;
- исправления в коде;
- реакции в обычном чате.
Дальше агент учится в фоне и не останавливает работу. Он просто превращает реальные реакции пользователя в постоянный поток обучения.
Это уже не классическое «собрали датасет - обучили модель - выкатили новую версию».
Это ближе к живому агенту, который становится лучше от каждого рабочего контакта с человеком, тестами, терминалом и интерфейсом.
Если подход взлетит, будущие AI Agents будут не просто выполнять задачи, а постепенно подстраиваться под стиль конкретного пользователя, команду и рабочую среду.
Paper: OpenClaw-RL: Train Any Agent Simply by Talking
arxiv.org/abs/2603.10165
👍7❤4🔥3👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic запустили свой круглосуточный Lo-Fi стрим.
Только вместо лоуфай-девочки там сидит клаудбот и бесконечно что-то вайбкодит. Название текущего трека аккуратно висит сверху.
youtube.com/live/AUQKjgKQF7w?si=aWm-PezgBem9rOlp
Только вместо лоуфай-девочки там сидит клаудбот и бесконечно что-то вайбкодит. Название текущего трека аккуратно висит сверху.
youtube.com/live/AUQKjgKQF7w?si=aWm-PezgBem9rOlp
❤8👍7👎3🔥2🤔1
🎨 Создавайте с Open CoDesign!
Open CoDesign — это открытое решение для генерации дизайна на основе ваших запросов. Приложение работает локально, позволяя использовать модели, которые вы уже используете, без привязки к облачным сервисам. Идеально подходит для создания прототипов, презентаций и маркетинговых материалов.
🚀 Основные моменты:
- Локальная работа без облачных зависимостей
- Поддержка множества моделей (Claude, GPT и др.)
- Экспорт в форматы HTML, PDF, PPTX и другие
- Интерактивный процесс с возможностью комментирования и доработки
📌 GitHub: https://github.com/OpenCoworkAI/open-codesign
#javascript
Open CoDesign — это открытое решение для генерации дизайна на основе ваших запросов. Приложение работает локально, позволяя использовать модели, которые вы уже используете, без привязки к облачным сервисам. Идеально подходит для создания прототипов, презентаций и маркетинговых материалов.
🚀 Основные моменты:
- Локальная работа без облачных зависимостей
- Поддержка множества моделей (Claude, GPT и др.)
- Экспорт в форматы HTML, PDF, PPTX и другие
- Интерактивный процесс с возможностью комментирования и доработки
📌 GitHub: https://github.com/OpenCoworkAI/open-codesign
#javascript
👍3🤔1
У AI-агентов есть старая проблема: каждый новый запуск начинается почти с нуля. Чтобы агент «помнил» контекст, приходится снова скармливать ему историю, правила, предпочтения и детали проекта. Это быстро сжигает токены и замедляет работу.
GrayMatter решает это как легкий слой persistent memory для агентов.Идея простая: агент сохраняет важные факты в локальное хранилище, а перед новой задачей достает только релевантный контекст.
Не всю историю подряд, а именно то, что нужно сейчас.
Не нужен Docker, база данных, облако или отдельный аккаунт. Один бинарник, локальное хранение, офлайн-режим.
Можно использовать и как обычную Go-библиотеку:
Remember сохраняет факт, Recall достает нужную память по запросу.Есть TUI-дашборд, где видно, сколько фактов сохранено, как часто они используются, сколько памяти занимает store и как работает recall.
https://github.com/angelnicolasc/graymatter
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍3👎2
В CUDA появился экспериментальный проект cuda-oxide. Это компилятор, который позволяет писать GPU-кернелы на Rust и получать на выходе PTX для NVIDIA GPU.
Без отдельного DSL. Без прослойки на C++. Без схемы «Rust только управляет, а настоящая работа всё равно в CUDA C++».
Пока это ранняя alpha, так что ждать production-ready инструмента рано. API будет ломаться, баги будут, часть возможностей ещё не закрыта. Но сам ход показательный.
CUDA много лет была территорией C и C++. Rust рядом с ней обычно жил как host-код, биндинги или инфраструктура вокруг вычислений. cuda-oxide пробует другое: дать Rust зайти прямо внутрь GPU-кернелов.
Почему это интересно:
- можно писать SIMT-код на Rust
- компиляция идёт напрямую в PTX
- не нужно тащить C++-обвязку для каждого критичного участка
- появляется шанс использовать Rust-эргономику в низкоуровневом GPU-коде
- у NVIDIA, похоже, появился серьёзный интерес к Rust-разработчикам
Сейчас это не «убийца CUDA C++» и не повод срочно переписывать ML-инфру.
Но если проект доживёт до стабильной версии, он может сильно упростить жизнь тем, кто пишет HPC, симуляции, ML-runtime и системный GPU-код.
Rust всё дальше уходит из роли «безопасной замены C для серверов» и залезает в зоны, где раньше почти безраздельно сидел C++.
https://github.com/NVlabs/cuda-oxide/releases/tag/v0.1.0
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍1🔥1