Forwarded from AI一线|ShareCentre
QwQ-32B 震撼发布:强化学习助力模型性能超越极限
2025年3月6日,Qwen 团队正式发布 QwQ-32B,一款基于强化学习(RL)的 320 亿参数语言模型,在多个关键评测中展现出卓越表现。QwQ-32B 在数学推理、代码生成及通用推理能力上,成功挑战了 DeepSeek-R1(6710 亿参数)等业界顶尖模型,充分验证了强化学习在大模型推理能力提升中的巨大潜力。
官方Blog: https://qwenlm.github.io/blog/qwq-32b/
在线体验: qwen.ai
HF: https://huggingface.co/Qwen/QwQ-32B
2025年3月6日,Qwen 团队正式发布 QwQ-32B,一款基于强化学习(RL)的 320 亿参数语言模型,在多个关键评测中展现出卓越表现。QwQ-32B 在数学推理、代码生成及通用推理能力上,成功挑战了 DeepSeek-R1(6710 亿参数)等业界顶尖模型,充分验证了强化学习在大模型推理能力提升中的巨大潜力。
强化学习加持,推理能力跃升
QwQ-32B 采用多阶段强化学习策略,从冷启动训练开始,首先针对数学和编程任务优化,通过准确性验证器和代码执行服务器,确保生成结果的正确性。在此基础上,进一步扩展至通用推理任务,提高了指令遵循能力、人类偏好对齐度及智能体推理能力,而不损失数学与编程任务的表现。
强势对比:挑战 DeepSeek-R1 及多款竞品
在 AIME24、LiveCodeBench、LiveBench、IFEval、BFCL 等主流基准测试中,QwQ-32B 取得了接近甚至超越 DeepSeek-R1 的成绩,展现出高效的计算资源利用率。尤其值得注意的是,相较于 DeepSeek-R1(活跃参数 370 亿),QwQ-32B 以更小的规模达成相似的推理能力,进一步证明了强化学习对模型训练的增益作用。
开源开放,推动 AI 生态发展
QwQ-32B 现已在 Hugging Face 和 ModelScope 开放下载,采用 Apache 2.0 许可协议,开发者可自由使用、研究和优化。此外,QwQ-32B 还集成至 Qwen Chat,可直接在线体验其强大推理能力。
迈向通用人工智能(AGI)的新征程
Qwen 团队表示,QwQ-32B 只是强化学习规模化应用的第一步,未来将结合更强大的基础模型和更大规模的计算资源,持续优化推理能力,并探索智能体结合 RL 进行长时推理的可能性,为通用人工智能(AGI)的实现奠定坚实基础。
QwQ-32B 现已开放下载,立即体验这一强化学习驱动的前沿 AI 模型!
官方Blog: https://qwenlm.github.io/blog/qwq-32b/
在线体验: qwen.ai
HF: https://huggingface.co/Qwen/QwQ-32B
❤2