𝑇𝑒𝑙𝑒𝑔𝑟𝑎𝑚&𝐶ℎ𝑖𝑛𝑎 𝑆𝑉𝐼𝑃 TCS
1.81K subscribers
303 photos
30 videos
33 files
271 links
Hi~TGxChina SVIP (TCS~) 在此!

不带来源转载 转载者死全家被车撞没唧唧

《免责声明》: 订阅者订阅本频道即同意本条款
1. 本频道内容仅限学术研究或娱乐 请勿违法
2. 本频道频道主(TCS)不承担任何法律责任及其连带责任以及其民事责任和刑事责任 所有责任由本频道订阅者共同承担
3. 本频道所有发言您均需在阅读后12小时内删除
4. 您关注订阅本频道时 便同意实行并支持本《免责声明》的实行
5. 本条款所有解释权归属本频道频道主(TCS)
Download Telegram
Forwarded from AI一线|ShareCentre
QwQ-32B 震撼发布:强化学习助力模型性能超越极限

2025年3月6日,Qwen 团队正式发布 QwQ-32B,一款基于强化学习(RL)的 320 亿参数语言模型,在多个关键评测中展现出卓越表现。QwQ-32B 在数学推理、代码生成及通用推理能力上,成功挑战了 DeepSeek-R1(6710 亿参数)等业界顶尖模型,充分验证了强化学习在大模型推理能力提升中的巨大潜力。

强化学习加持,推理能力跃升

QwQ-32B 采用多阶段强化学习策略,从冷启动训练开始,首先针对数学和编程任务优化,通过准确性验证器和代码执行服务器,确保生成结果的正确性。在此基础上,进一步扩展至通用推理任务,提高了指令遵循能力、人类偏好对齐度及智能体推理能力,而不损失数学与编程任务的表现。

强势对比:挑战 DeepSeek-R1 及多款竞品

在 AIME24、LiveCodeBench、LiveBench、IFEval、BFCL 等主流基准测试中,QwQ-32B 取得了接近甚至超越 DeepSeek-R1 的成绩,展现出高效的计算资源利用率。尤其值得注意的是,相较于 DeepSeek-R1(活跃参数 370 亿),QwQ-32B 以更小的规模达成相似的推理能力,进一步证明了强化学习对模型训练的增益作用。

开源开放,推动 AI 生态发展

QwQ-32B 现已在 Hugging Face 和 ModelScope 开放下载,采用 Apache 2.0 许可协议,开发者可自由使用、研究和优化。此外,QwQ-32B 还集成至 Qwen Chat,可直接在线体验其强大推理能力。

迈向通用人工智能(AGI)的新征程

Qwen 团队表示,QwQ-32B 只是强化学习规模化应用的第一步,未来将结合更强大的基础模型和更大规模的计算资源,持续优化推理能力,并探索智能体结合 RL 进行长时推理的可能性,为通用人工智能(AGI)的实现奠定坚实基础。

QwQ-32B 现已开放下载,立即体验这一强化学习驱动的前沿 AI 模型!


官方Blog: https://qwenlm.github.io/blog/qwq-32b/
在线体验: qwen.ai
HF: https://huggingface.co/Qwen/QwQ-32B
2
还认为tg安全么?只是你不值得被查🤣
🤔3