SAPO: новый алгоритм RL-обучения от Qwen
SAPO — это новый алгоритм policy optimization, представленный Qwen, который заменяет жёсткий clipping на плавный, температурно-контролируемый gating для более стабильного RL-обучения LLM (особенно для MoE-моделей).
→ Token-level importance ratios в RL имеют высокую дисперсию, которая ещё больше возрастает в MoE-моделях из-за routing heterogeneity. GRPO и GSPO используют жёсткий clipping для решения этой проблемы, но это создаёт хрупкий баланс: слишком жёстко — теряется learning signal, слишком мягко — градиенты становятся шумными.
→ SAPO использует sigmoid-образный soft gate, центрированный в on-policy точке. Вблизи on-policy градиенты текут нормально; по мере роста отклонения они плавно затухают, вместо того чтобы обрезаться до нуля. Это сохраняет полезный сигнал от умеренно off-policy токенов.
→ SAPO использует асимметричные температуры для положительных и отрицательных токенов, причём отрицательные токены получают более быстрое затухание. Логика: отрицательные градиенты повышают logits для множества несэмплированных токенов в огромном vocabulary, распространяя нестабильность, тогда как положительные градиенты усиливают только один токен.
→ В типичных условиях (небольшие on-policy шаги, низкая дисперсия в token ratios) token-level gates SAPO усредняются до sequence-level gate, поэтому алгоритм ведёт себя как GSPO. Но когда появляются outlier-токены, SAPO селективно понижает вес только их, вместо того чтобы обнулять градиент всей последовательности.
→ Эксперименты на Qwen3-30B-A3B показывают, что SAPO тренируется дольше до появления нестабильности и достигает более высоких Pass@1 на math бенчмарках (AIME25, HMMT25, BeyondAIME). Также не требуется хак “Routing Replay”, который необходим GRPO для стабильности MoE.
Крутой вклад от Qwen, на мой взгляд. Soft gating — элегантная золотая середина между агрессивным token clipping в GRPO и подходом GSPO. Правда SAPO хоть и задерживает нестабильность, но не устраняет её полностью, ну и набор бенчмарков весьма ограниченный.
Статья: https://arxiv.org/abs/2511.20347
@toshoseti
SAPO — это новый алгоритм policy optimization, представленный Qwen, который заменяет жёсткий clipping на плавный, температурно-контролируемый gating для более стабильного RL-обучения LLM (особенно для MoE-моделей).
→ Token-level importance ratios в RL имеют высокую дисперсию, которая ещё больше возрастает в MoE-моделях из-за routing heterogeneity. GRPO и GSPO используют жёсткий clipping для решения этой проблемы, но это создаёт хрупкий баланс: слишком жёстко — теряется learning signal, слишком мягко — градиенты становятся шумными.
→ SAPO использует sigmoid-образный soft gate, центрированный в on-policy точке. Вблизи on-policy градиенты текут нормально; по мере роста отклонения они плавно затухают, вместо того чтобы обрезаться до нуля. Это сохраняет полезный сигнал от умеренно off-policy токенов.
→ SAPO использует асимметричные температуры для положительных и отрицательных токенов, причём отрицательные токены получают более быстрое затухание. Логика: отрицательные градиенты повышают logits для множества несэмплированных токенов в огромном vocabulary, распространяя нестабильность, тогда как положительные градиенты усиливают только один токен.
→ В типичных условиях (небольшие on-policy шаги, низкая дисперсия в token ratios) token-level gates SAPO усредняются до sequence-level gate, поэтому алгоритм ведёт себя как GSPO. Но когда появляются outlier-токены, SAPO селективно понижает вес только их, вместо того чтобы обнулять градиент всей последовательности.
→ Эксперименты на Qwen3-30B-A3B показывают, что SAPO тренируется дольше до появления нестабильности и достигает более высоких Pass@1 на math бенчмарках (AIME25, HMMT25, BeyondAIME). Также не требуется хак “Routing Replay”, который необходим GRPO для стабильности MoE.
Крутой вклад от Qwen, на мой взгляд. Soft gating — элегантная золотая середина между агрессивным token clipping в GRPO и подходом GSPO. Правда SAPO хоть и задерживает нестабильность, но не устраняет её полностью, ну и набор бенчмарков весьма ограниченный.
Статья: https://arxiv.org/abs/2511.20347
@toshoseti
❤3
Клод сделал подборку бенефитов для стартапов, актуальных на данный момент.
https://claude.ai/public/artifacts/fad9ca70-0fed-41ce-9060-cb4afde144fd
@toshoseti
https://claude.ai/public/artifacts/fad9ca70-0fed-41ce-9060-cb4afde144fd
@toshoseti
Claude
Startup Benefits Guide 2025: $2M+ in Cloud Credits & Grants
Complete guide to startup benefits: $1.5-2M+ savings from AWS, Google Cloud, grants, Serbia's 3% IP tax rate, and 200+ programs with deadlines and requirements.
Кто-нибудь ему расскажет про catastrophic forgetting и domain drift? :)
https://youtu.be/YA3hAGtfMs4
@toshoseti
https://youtu.be/YA3hAGtfMs4
@toshoseti
YouTube
I Gave an LLM Infinite Memory With Zero Context
Watch until the end to see some really weird bugs.
Click this link https://boot.dev/?promo=GAL and use my code GAL to get 25% off your first payment for boot.dev.
Video About Attention:
https://www.youtube.com/watch?v=RNF0FvRjGZk
Voice type with Peach…
Click this link https://boot.dev/?promo=GAL and use my code GAL to get 25% off your first payment for boot.dev.
Video About Attention:
https://www.youtube.com/watch?v=RNF0FvRjGZk
Voice type with Peach…
Обзор по CyberMonday deals на софт и железо, еще можно успеть )
https://claude.ai/public/artifacts/86b4cd90-baa0-4030-ba75-3c80372d5d11
@toshoseti
https://claude.ai/public/artifacts/86b4cd90-baa0-4030-ba75-3c80372d5d11
@toshoseti
Claude
Cyber Monday 2025 Serbia Deals: Software, Games & Hardware
Best Cyber Monday 2025 deals for Serbia buyers: 98% off software bundles, 50% off Adobe Creative Cloud, RTX 5070 GPUs below MSRP, plus international shipping tips.
❤2
Вышел technical report по семейству моделей Liquid Foundation Models 2 с разными модальностями от Liquid AI.
Папир: https://arxiv.org/abs/2511.23404
@toshoseti
Папир: https://arxiv.org/abs/2511.23404
@toshoseti
arXiv.org
LFM2 Technical Report
We present LFM2, a family of Liquid Foundation Models designed for efficient on-device deployment and strong task capabilities. Using hardware-in-the-loop architecture search under edge latency...
👍2🔥1
Forwarded from Open Doručak Srbije (pleskavica)
следующий Data Brunch
Ждем вас
Please open Telegram to view this post
VIEW IN TELEGRAM
Google Disco
Браузер с генеративными табами-приложениями под конкретный случай пользователя.
Информация веб-страниц перерабатывается в интерактивный опыт, который меняется по ходу разговора. Любопытная концепция, очень круто ложится на задачи изучения и планирования.
YouTube
@toshoseti
Браузер с генеративными табами-приложениями под конкретный случай пользователя.
Информация веб-страниц перерабатывается в интерактивный опыт, который меняется по ходу разговора. Любопытная концепция, очень круто ложится на задачи изучения и планирования.
YouTube
@toshoseti
labs.google
Disco
Take the web for a fresh spin
❤3
https://www.youtube.com/watch?v=1BDYSxsVMAE
ИИ агент - тридцатиглазый гипершар с восемью тессерактовыми лапами - собирает рассыпанные по четырехмерному уровню M&M&Ms (ну выпоняли, типа M&Ms но на одно измерение больше).
@toshoseti
ИИ агент - тридцатиглазый гипершар с восемью тессерактовыми лапами - собирает рассыпанные по четырехмерному уровню M&M&Ms (ну выпоняли, типа M&Ms но на одно измерение больше).
@toshoseti
YouTube
I Forced AI To Learn 4D Movement
it's kind of terrifying how quickly AI can learn how to move in higher dimensions...
visit https://brilliant.org/b2studios/ for 20% off an annual subscription!
DISCORD LINK
------------------------------
https://discord.gg/KgMgeQ7EMP
Buy 4D Golf: http…
visit https://brilliant.org/b2studios/ for 20% off an annual subscription!
DISCORD LINK
------------------------------
https://discord.gg/KgMgeQ7EMP
Buy 4D Golf: http…
🔥3😁1😱1
Компания Resemble AI открыла исходный код своей самой быстрой и лучшей на сегодняшний день модели синтеза речи.
Компания утверждает, что превосходит ElevenLabs и Cartesia. 350 миллионов параметров. В 6 раз быстрее, чем в реальном времени, со встроенным водяным знаком AI.
Встроенные эмоции: [смех], [вздох], [вздох] и другие.
🔗 GitHub: https://github.com/resemble-ai/chatterbox
🤗 HuggingFace: https://lnkd.in/guhVrFp8
🎧 Живые демоверсии: https://huggingface.co/spaces/ResembleAI/chatterbox-turbo-demo
📊Оценка от Podonos:
Chatterbox Turbo против Elevenlabs Turbo v2.5:
https://www.podonos.com/resembleai/chatterbox-turbo-vs-elevenlabs-turbo?t=a
Chatterbox Turbo против Cartesia Sonic 3:
https://www.podonos.com/resembleai/chatterbox-turbo-vs-cartesia-sonic3?t=a
Chatterbox Turbo против Vibevoice 7B:
https://www.podonos.com/resembleai/chatterbox-turbo-vs-vibevoice7b?t=a
@toshoseti
Компания утверждает, что превосходит ElevenLabs и Cartesia. 350 миллионов параметров. В 6 раз быстрее, чем в реальном времени, со встроенным водяным знаком AI.
Встроенные эмоции: [смех], [вздох], [вздох] и другие.
🔗 GitHub: https://github.com/resemble-ai/chatterbox
🤗 HuggingFace: https://lnkd.in/guhVrFp8
🎧 Живые демоверсии: https://huggingface.co/spaces/ResembleAI/chatterbox-turbo-demo
📊Оценка от Podonos:
Chatterbox Turbo против Elevenlabs Turbo v2.5:
https://www.podonos.com/resembleai/chatterbox-turbo-vs-elevenlabs-turbo?t=a
Chatterbox Turbo против Cartesia Sonic 3:
https://www.podonos.com/resembleai/chatterbox-turbo-vs-cartesia-sonic3?t=a
Chatterbox Turbo против Vibevoice 7B:
https://www.podonos.com/resembleai/chatterbox-turbo-vs-vibevoice7b?t=a
@toshoseti
GitHub
GitHub - resemble-ai/chatterbox: SoTA open-source TTS
SoTA open-source TTS. Contribute to resemble-ai/chatterbox development by creating an account on GitHub.
❤6🔥3👍1
Forwarded from Kirill Rybachuk
Всем привет!
Data Breakfast номер 193 в Нови Саде
- Пьём кофе, завтракаем, знакомимся😮
- Рассказываем кулстори из своей жизни😮
- Обсуждаем новости AI🧠
- Отвечаем на вопросы❓
Пятница 19.12 с 9:30
Zmaj Jovina 7, Doza
Data Breakfast номер 193 в Нови Саде
- Пьём кофе, завтракаем, знакомимся
- Рассказываем кулстори из своей жизни
- Обсуждаем новости AI
- Отвечаем на вопросы
Пятница 19.12 с 9:30
Zmaj Jovina 7, Doza
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Forwarded from Just links
Weird Generalization and Inductive Backdoors: New Ways to Corrupt LLMs https://arxiv.org/abs/2512.09742
arXiv.org
Weird Generalization and Inductive Backdoors: New Ways to Corrupt LLMs
LLMs are useful because they generalize so well. But can you have too much of a good thing? We show that a small amount of finetuning in narrow contexts can dramatically shift behavior outside...
Пока ищу работу, сделал скринсейвер. Заодно познакомился с Rust, Bevy и попрактиковал ECS.
Суть: Пираньи пожирают файлы из %TEMP% папки. Прям реально удаляют. При нынешних ценах на SSD и память самое оно.
👾 Itch.io: https://gamergent.itch.io/byte-prianhas
Проверялось под Windows 11, но должно работать и на Windows 10.
@toshoseti
Суть: Пираньи пожирают файлы из %TEMP% папки. Прям реально удаляют. При нынешних ценах на SSD и память самое оно.
Проверялось под Windows 11, но должно работать и на Windows 10.
@toshoseti
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9