То шо нейросети
1.17K subscribers
538 photos
162 videos
9 files
827 links
На пальцах, местами с матом, местами с претензией на юмор, но познавательно.
Download Telegram
SAPO: новый алгоритм RL-обучения от Qwen

SAPO — это новый алгоритм policy optimization, представленный Qwen, который заменяет жёсткий clipping на плавный, температурно-контролируемый gating для более стабильного RL-обучения LLM (особенно для MoE-моделей).

→ Token-level importance ratios в RL имеют высокую дисперсию, которая ещё больше возрастает в MoE-моделях из-за routing heterogeneity. GRPO и GSPO используют жёсткий clipping для решения этой проблемы, но это создаёт хрупкий баланс: слишком жёстко — теряется learning signal, слишком мягко — градиенты становятся шумными.

→ SAPO использует sigmoid-образный soft gate, центрированный в on-policy точке. Вблизи on-policy градиенты текут нормально; по мере роста отклонения они плавно затухают, вместо того чтобы обрезаться до нуля. Это сохраняет полезный сигнал от умеренно off-policy токенов.

→ SAPO использует асимметричные температуры для положительных и отрицательных токенов, причём отрицательные токены получают более быстрое затухание. Логика: отрицательные градиенты повышают logits для множества несэмплированных токенов в огромном vocabulary, распространяя нестабильность, тогда как положительные градиенты усиливают только один токен.

→ В типичных условиях (небольшие on-policy шаги, низкая дисперсия в token ratios) token-level gates SAPO усредняются до sequence-level gate, поэтому алгоритм ведёт себя как GSPO. Но когда появляются outlier-токены, SAPO селективно понижает вес только их, вместо того чтобы обнулять градиент всей последовательности.

→ Эксперименты на Qwen3-30B-A3B показывают, что SAPO тренируется дольше до появления нестабильности и достигает более высоких Pass@1 на math бенчмарках (AIME25, HMMT25, BeyondAIME). Также не требуется хак “Routing Replay”, который необходим GRPO для стабильности MoE.

Крутой вклад от Qwen, на мой взгляд. Soft gating — элегантная золотая середина между агрессивным token clipping в GRPO и подходом GSPO. Правда SAPO хоть и задерживает нестабильность, но не устраняет её полностью, ну и набор бенчмарков весьма ограниченный.

Статья: https://arxiv.org/abs/2511.20347

@toshoseti
3
Вкратце о моей ленте, LinkedIn
😁7
Прилетело спасибо от LiquidAI за туториалы по жидким нейросетям.
Ойтанушовэ... 😏

@toshoseti
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8😱1
😁12🤯2
Forwarded from Open Doručak Srbije (pleskavica)
👀 спасибо за терпение

следующий Data Brunch 😶

🙂Когда: воскресенье, 07.12 с 11:00 до 12:30

👩‍❤️‍👨Где: кафе Auditoria (https://yandex.com/maps/-/CLW8ULK3 )

🤗Для кого: для всех желающих провести время в чудесной компании

😏Тема: живые кейсы и живое общение. обменяемся опытом и полезно проведем время

Ждем вас 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
Google Disco

Браузер с генеративными табами-приложениями под конкретный случай пользователя.

Информация веб-страниц перерабатывается в интерактивный опыт, который меняется по ходу разговора. Любопытная концепция, очень круто ложится на задачи изучения и планирования.

YouTube

@toshoseti
3
https://www.youtube.com/watch?v=1BDYSxsVMAE

ИИ агент - тридцатиглазый гипершар с восемью тессерактовыми лапами - собирает рассыпанные по четырехмерному уровню M&M&Ms (ну выпоняли, типа M&Ms но на одно измерение больше).

@toshoseti
🔥3😁1😱1
Компания Resemble AI открыла исходный код своей самой быстрой и лучшей на сегодняшний день модели синтеза речи.

Компания утверждает, что превосходит ElevenLabs и Cartesia. 350 миллионов параметров. В 6 раз быстрее, чем в реальном времени, со встроенным водяным знаком AI.

Встроенные эмоции: [смех], [вздох], [вздох] и другие.

🔗 GitHub: https://github.com/resemble-ai/chatterbox
🤗 HuggingFace: https://lnkd.in/guhVrFp8
🎧 Живые демоверсии: https://huggingface.co/spaces/ResembleAI/chatterbox-turbo-demo
📊Оценка от Podonos:
Chatterbox Turbo против Elevenlabs Turbo v2.5:
https://www.podonos.com/resembleai/chatterbox-turbo-vs-elevenlabs-turbo?t=a
Chatterbox Turbo против Cartesia Sonic 3:
https://www.podonos.com/resembleai/chatterbox-turbo-vs-cartesia-sonic3?t=a
Chatterbox Turbo против Vibevoice 7B:
https://www.podonos.com/resembleai/chatterbox-turbo-vs-vibevoice7b?t=a

@toshoseti
6🔥3👍1
Forwarded from Kirill Rybachuk
Всем привет!
Data Breakfast номер 193 в Нови Саде
- Пьём кофе, завтракаем, знакомимся 😮
- Рассказываем кулстори из своей жизни 😮
- Обсуждаем новости AI 🧠
- Отвечаем на вопросы
Пятница 19.12 с 9:30
Zmaj Jovina 7, Doza
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Cursor Sloperator.
😁6
Пока ищу работу, сделал скринсейвер. Заодно познакомился с Rust, Bevy и попрактиковал ECS.

Суть: Пираньи пожирают файлы из %TEMP% папки. Прям реально удаляют. При нынешних ценах на SSD и память самое оно.

👾Itch.io: https://gamergent.itch.io/byte-prianhas

Проверялось под Windows 11, но должно работать и на Windows 10.

@toshoseti
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9