Machine learning Interview

⚡️ Фотореализм в диффузионных моделях за 10 минут? Новый метод от Hunyuan - SRPO (Semantic Relative Preference Optimization) показывает, что это реально.

SRPO — это онлайн-фреймворк обучения с подкреплением для моделей text-image, созданный как более эффективная альтернатива GRPO-подходам. Он делает генерацию стабильнее, быстрее и дешевле.

Как это работает:
- Direct-Align: оптимизация даже на самых «шумных» шагах, без сбоев и сэкономленной памятью.
- Promptable Rewards: награды превращаются в условные сигналы. Добавьте ключевые слова к промпту — и модель сразу усиливает реализм без дополнительного обучения.
- Эффективность: 75-кратный прирост производительности, результаты за 10 минут на 32 GPU (обгоняет DanceGRPO).
- Качество: повышенный уровень реализма и эстетики для FLUX.1-dev без новых данных.
- Надёжность: отсутствие reward hacking, работа с готовыми reward-моделями и устранение пересыщения изображений.

Подробнее:

🟢

Проект: https://tencent.github.io/srpo-project-page/

🟢

Статья: https://arxiv.org/abs/2509.06942

🟢

Модель: https://huggingface.co/tencent/SRPO

🟢

Код: https://github.com/Tencent-Hunyuan/SRPO

@machinelearning_interview

#SRPO #DiffusionModels #AI #ReinforcementLearning #TextToImage

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM