Levix 空间站
922 subscribers
219 photos
11 videos
20 files
1.39K links
主要分享前端、AI 以及前沿科技资讯。

🚫 禁止人身攻击:请在评论区保持尊重和友好,避免不当言论和负面互动。

🚫 禁止违规内容:请勿发布任何黄赌毒、宗教极端、政治敏感或其他违反社区规定的内容。
主要分享前端以及业界科技资讯。

🚫 禁止广告与刷屏:为了维护良好的交流环境,请不要进行任何形式的广告推广、黑产活动、刷屏行为及发布不适内容。

🔒 保护个人信息:请注意个人隐私和网络安全,不要在评论区泄露个人信息或点击不明链接。
Download Telegram
Meta Llama 4 系列发布,标志着原生多模态人工智能创新新时代的开始。

该系列包含 Llama 4 Scout(17B 参数、16 个专家)和 Llama 4 Maverick(17B 参数、128 个专家)两个高效模型,采用混合专家(MoE)架构和早期融合技术,支持多语言文本和图像输入,以及多语言文本和代码输出,知识截止日期为 2024 年 8 月。

Llama 4 Scout 是一款拥有 17B 活跃参数和 16 个专家的模型,能够在单个 NVIDIA H100 GPU 上运行。它在同类多模态模型中表现卓越,超越了 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1 等模型。该模型还具备行业领先的 1000 万字的上下文窗口,能够处理更长的文本输入,适用于多文档总结、个性化任务处理和大规模代码推理等场景。

Llama 4 Maverick 同样拥有 17B 活跃参数,但配备了 128 个专家,其性能在多模态模型中处于顶尖水平,超越了 GPT-4o 和 Gemini 2.0 Flash 等模型,并在推理和编码方面与 DeepSeek v3 相当,但参数量不到后者的一半。该模型在成本效益方面表现出色,其实验性聊天版本在 LMArena 的评分达到了 1417 分。

这些模型的强大能力得益于 Llama 4 Behemoth 的知识蒸馏。Llama 4 Behemoth 是一款拥有 288B 活跃参数和 16 个专家的模型,其总参数量接近 2 万亿,是目前世界上最强大的语言模型之一。它在多项 STEM 基准测试中超越了 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro 等模型。

Llama 4 系列模型采用了混合专家(MoE)架构,这种架构通过仅激活部分参数来提高计算效率。例如,Llama 4 Maverick 的总参数量为 4000 亿,但每次推理时仅激活 170 亿参数。此外,Llama 4 系列还支持原生多模态,能够将文本和视觉信息无缝融合到一个模型框架中,支持对大量无标签文本、图像和视频数据的联合预训练。

Meta 还强调了对模型安全性和可靠性的重视。Llama 4 系列在开发过程中集成了多种安全机制,包括数据过滤、系统级防护工具(如 Llama Guard、Prompt Guard 和 CyberSecEval)以及针对偏见问题的改进。Llama 4 在处理有争议的政治和社会问题时表现出更少的偏见,拒绝回答的比例从 Llama 3.3 的 7% 降低到不到 2%,并且在回应不同观点时更加平衡。

#Meta #Llama #LLM

https://ai.meta.com/blog/llama-4-multimodal-intelligence/