Google Antigravity 2.2.1版:集成系统密钥环并修复多智能体死锁
Google Antigravity 发布 2.2.1 版本更新。针对开发人员频繁面临授权失效的问题,新版本支持自动将刷新后的 OAuth 凭证自动写入操作系统安全密钥环(如 Apple Keychain 或 Windows 凭证管理器),免去重复网页授权弹窗。同时,工作区检索升级为子串匹配模式,修复了因前缀检索引起的路径不存在报错,并解决了子智能体运行中的死锁问题。
多媒体与环境兼容性也得到优化。新版本在侧边栏与交付物窗口中新增了 .mp3 和 .wav 等音频格式直接播放能力,并在 Markdown 中加入 C++、Python 和 Protobuf 语法高亮。针对 Windows 平台用户,更新修复了反复触发 UAC 权限控制和系统环境变量 PATH 目录的访问错误。系统还内置了专属指南(Antigravity Guide)技能以解答平台使用疑问。
不过,部分开发者在升级和体验中遇到了阻碍。社区反馈显示,升级通道异常导致部分用户卡在 2.1.4 旧版本并显示无可用更新。同时,客户端每次启动强制固定在 1400x900 像素,且新版移除了原本由 Ctrl+I 触发的内联命令编辑功能,遭到不少用户抱怨。
信源:https://x.com/antigravity/status/2070578618154045448
Google Antigravity 发布 2.2.1 版本更新。针对开发人员频繁面临授权失效的问题,新版本支持自动将刷新后的 OAuth 凭证自动写入操作系统安全密钥环(如 Apple Keychain 或 Windows 凭证管理器),免去重复网页授权弹窗。同时,工作区检索升级为子串匹配模式,修复了因前缀检索引起的路径不存在报错,并解决了子智能体运行中的死锁问题。
多媒体与环境兼容性也得到优化。新版本在侧边栏与交付物窗口中新增了 .mp3 和 .wav 等音频格式直接播放能力,并在 Markdown 中加入 C++、Python 和 Protobuf 语法高亮。针对 Windows 平台用户,更新修复了反复触发 UAC 权限控制和系统环境变量 PATH 目录的访问错误。系统还内置了专属指南(Antigravity Guide)技能以解答平台使用疑问。
不过,部分开发者在升级和体验中遇到了阻碍。社区反馈显示,升级通道异常导致部分用户卡在 2.1.4 旧版本并显示无可用更新。同时,客户端每次启动强制固定在 1400x900 像素,且新版移除了原本由 Ctrl+I 触发的内联命令编辑功能,遭到不少用户抱怨。
信源:https://x.com/antigravity/status/2070578618154045448
X (formerly Twitter)
Google Antigravity (@antigravity) on X
The latest Antigravity 2.0 update includes a new built-in Antigravity Guide skill, audio file rendering, and improved substring file search.
Check the changelog for all the updates https://t.co/zcWx92BPr6
Check the changelog for all the updates https://t.co/zcWx92BPr6
Hermes Agent上线MoA功能:多模型协同跑分超越单模型
开源智能体平台 Hermes Agent 正式支持混合智能体(Mixture of Agents,简称 MoA)预设。
MoA 目前已转为虚拟模型提供商,不再作为传统的底层工具(Tools)列出。用户能够通过
在 MoA 运行机制中,用户选定的预设中包含参考模型与聚合模型。系统会首先调用参考模型,输入不含系统提示词与工具调用历史的简化对话文本,让参考模型生成分析意见。参考模型的分析意见随后被追加到最新一轮用户输入的末尾。作为行动主体的聚合模型接收到分析意见后,在完整的工具 schema 与系统提示词下生成最终答复并执行工具调用。
在即将发布的 HermesBench 基准测试中,使用 Claude-Opus-4.8 作为聚合模型、GPT-5.5 作为参考模型的 MoA 预设取得了 82.02% 的成绩,相比单独运行 Claude-Opus-4.8 提升了 6 个百分点(约 8%),相比单独运行 GPT-5.5 提升了 11%。为保证提示词缓存(Prompt Cache)效率,参考模型的对话输入被简化以保持稳定缓存;聚合模型则将参考意见置于 prompt 最尾部,确保历史对话前缀的字节稳定性,从而避免破坏已缓存的上下文。
用户可以通过运行
目前 MoA 机制已在 CLI、网关、桌面端及 TUI 界面同步启用。
信源:https://x.com/NousResearch/status/2070610321278988385
开源智能体平台 Hermes Agent 正式支持混合智能体(Mixture of Agents,简称 MoA)预设。
MoA 目前已转为虚拟模型提供商,不再作为传统的底层工具(Tools)列出。用户能够通过
/model 命令或桌面应用的模型下拉菜单直接选用。除了 /model 切换,用户还可使用 /moa [prompt] 语法实现单次快捷调用。系统在单轮对话中临时启用默认 MoA 预设,完成回答后自动恢复先前的模型。在 MoA 运行机制中,用户选定的预设中包含参考模型与聚合模型。系统会首先调用参考模型,输入不含系统提示词与工具调用历史的简化对话文本,让参考模型生成分析意见。参考模型的分析意见随后被追加到最新一轮用户输入的末尾。作为行动主体的聚合模型接收到分析意见后,在完整的工具 schema 与系统提示词下生成最终答复并执行工具调用。
在即将发布的 HermesBench 基准测试中,使用 Claude-Opus-4.8 作为聚合模型、GPT-5.5 作为参考模型的 MoA 预设取得了 82.02% 的成绩,相比单独运行 Claude-Opus-4.8 提升了 6 个百分点(约 8%),相比单独运行 GPT-5.5 提升了 11%。为保证提示词缓存(Prompt Cache)效率,参考模型的对话输入被简化以保持稳定缓存;聚合模型则将参考意见置于 prompt 最尾部,确保历史对话前缀的字节稳定性,从而避免破坏已缓存的上下文。
用户可以通过运行
hermes moa list 查看预设,或使用 hermes moa configure [name] 新增和修改预设。在预设配置中,系统严禁递归嵌套,MoA 预设的聚合模型不能指向另一个 MoA 预设。当参考模型出现凭证失效等错误时,Hermes Agent 不会中断任务,而是将错误信息一并传入聚合模型的上下文并继续执行。目前 MoA 机制已在 CLI、网关、桌面端及 TUI 界面同步启用。
信源:https://x.com/NousResearch/status/2070610321278988385
X (formerly Twitter)
Nous Research (@NousResearch) on X
The strongest models are gated and access is granted only to a select few.
Hermes Agent now exposes MoA presets as virtual models, giving you capabilities beyond the publicly available frontier: 8% higher than Opus 4.8 and 11% higher than GPT 5.5 on our…
Hermes Agent now exposes MoA presets as virtual models, giving you capabilities beyond the publicly available frontier: 8% higher than Opus 4.8 and 11% higher than GPT 5.5 on our…
Polymarket收购开源智能体工作区Craft Agents,加码AI交易生态
Polymarket 宣布收购开源智能体客户端项目 Craft Agents。项目创始人 Bálint Orosz 将携部分团队成员加入 Polymarket,负责建设产品与设计工程团队。
Craft Agents 是一款基于 Apache 2.0 协议开源的文档化 AI 智能体工作区,支持 Model Context Protocol(MCP)协议,可跨 GitHub、Slack 等工具协同,并内置 Chromium 浏览器支持智能体自主网页交互。
交易完成后,Craft 笔记软件买断了所有外部投资人股份,重回完全独立和团队持股状态。联合创始人 Viktor Páli 将接任 Craft 的 CEO 并继续维护原有笔记产品。
Polymarket 正在通过一系列并购加码 AI 交易生态。Polymarket 先后于 2026 年 2 月和 3 月收购了预测市场统一 API 提供商 Dome,以及 DeFi 智能账户自动化执行平台 Brahma。配合官方开源的 Polymarket/agents 智能体框架,Polymarket 正在构建起从 API 接口、底层自动化执行到前端智能体客户端的完整自动化交易版图。
信源:https://x.com/balintorosz/status/2070572407702650999
Polymarket 宣布收购开源智能体客户端项目 Craft Agents。项目创始人 Bálint Orosz 将携部分团队成员加入 Polymarket,负责建设产品与设计工程团队。
Craft Agents 是一款基于 Apache 2.0 协议开源的文档化 AI 智能体工作区,支持 Model Context Protocol(MCP)协议,可跨 GitHub、Slack 等工具协同,并内置 Chromium 浏览器支持智能体自主网页交互。
交易完成后,Craft 笔记软件买断了所有外部投资人股份,重回完全独立和团队持股状态。联合创始人 Viktor Páli 将接任 Craft 的 CEO 并继续维护原有笔记产品。
Polymarket 正在通过一系列并购加码 AI 交易生态。Polymarket 先后于 2026 年 2 月和 3 月收购了预测市场统一 API 提供商 Dome,以及 DeFi 智能账户自动化执行平台 Brahma。配合官方开源的 Polymarket/agents 智能体框架,Polymarket 正在构建起从 API 接口、底层自动化执行到前端智能体客户端的完整自动化交易版图。
信源:https://x.com/balintorosz/status/2070572407702650999
X (formerly Twitter)
Balint Orosz (@balintorosz) on X
Some personal news - Polymarket has acquired Craft Agents, and part of the Craft team is joining Polymarket.
I'll be leading Product Engineering, with the goal of building one of the best product and design engineering teams in the world.
I'm incredibly excited…
I'll be leading Product Engineering, with the goal of building one of the best product and design engineering teams in the world.
I'm incredibly excited…
DeepSeek开源推理加速框架DeepSpec,上线DSpark让V4模型速度提升最高85%
DeepSeek 联合北京大学发布投机采样加速框架 DSpark 的技术报告,并开源了全栈代码库 DeepSpec。目前 DSpark 已部署于 DeepSeek-V4 线上业务。在保证输出无损的前提下,DSpark 将 Flash 版单用户生成速度提升 60% 至 85%,Pro 版速度提升 57% 至 78%。DSpark 表现超越了原有的单 Token 多分支预测(MTP-1)基线,在严格时延约束下显著拉高了系统整体吞吐量。
此前,多 Token 投机采样难以在线上生产环境落地。自回归草稿模型生成太慢,而并行草稿模型由于各位置独立预测,导致长序列的后半截接受率极低。若在高并发下盲目验证多 Token 草稿,大模型会浪费大量算力去验证注定被拒绝的错字,导致系统整体吞吐量严重崩溃,因此业界在线上多局限于单 Token 预测(MTP-1)。
DSpark 克服了高并发下的吞吐退化瓶颈。DSpark 首先采用 DFlash 并行主干网生成隐藏状态,再追加极其轻量的马尔可夫头。马尔可夫头通过查表与一次矩阵乘法,以极低成本串行注入相邻词的关联。同时,系统集成置信度预测头与后验校准算法。为了完美兼容生产环境的零开销调度并防止未来信息泄漏,调度器采用异步机制,利用两步前的历史预测来动态决定候选词裁剪长度,彻底防止大模型在重负载下验证高风险的尾部错字。
除了 DSpark,DeepSeek 这次开源的 DeepSpec 代码库内置支持 Qwen3 与 Gemma 等开源大模型。DeepSpec 提供了从下载提示词、重建大模型缓存、训练草稿模型到基准评估的完整 Python 工具链。开发者可以直接利用开源脚本,在本地为不同的开源大模型定制并部署专属的加速模块。
信源:https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf
DeepSeek 联合北京大学发布投机采样加速框架 DSpark 的技术报告,并开源了全栈代码库 DeepSpec。目前 DSpark 已部署于 DeepSeek-V4 线上业务。在保证输出无损的前提下,DSpark 将 Flash 版单用户生成速度提升 60% 至 85%,Pro 版速度提升 57% 至 78%。DSpark 表现超越了原有的单 Token 多分支预测(MTP-1)基线,在严格时延约束下显著拉高了系统整体吞吐量。
此前,多 Token 投机采样难以在线上生产环境落地。自回归草稿模型生成太慢,而并行草稿模型由于各位置独立预测,导致长序列的后半截接受率极低。若在高并发下盲目验证多 Token 草稿,大模型会浪费大量算力去验证注定被拒绝的错字,导致系统整体吞吐量严重崩溃,因此业界在线上多局限于单 Token 预测(MTP-1)。
DSpark 克服了高并发下的吞吐退化瓶颈。DSpark 首先采用 DFlash 并行主干网生成隐藏状态,再追加极其轻量的马尔可夫头。马尔可夫头通过查表与一次矩阵乘法,以极低成本串行注入相邻词的关联。同时,系统集成置信度预测头与后验校准算法。为了完美兼容生产环境的零开销调度并防止未来信息泄漏,调度器采用异步机制,利用两步前的历史预测来动态决定候选词裁剪长度,彻底防止大模型在重负载下验证高风险的尾部错字。
除了 DSpark,DeepSeek 这次开源的 DeepSpec 代码库内置支持 Qwen3 与 Gemma 等开源大模型。DeepSpec 提供了从下载提示词、重建大模型缓存、训练草稿模型到基准评估的完整 Python 工具链。开发者可以直接利用开源脚本,在本地为不同的开源大模型定制并部署专属的加速模块。
信源:https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf
GitHub
DeepSpec/DSpark_paper.pdf at main · deepseek-ai/DeepSpec
DeepSpec: a full-stack codebase for training and evaluating speculative decoding algorithms - deepseek-ai/DeepSpec
苹果Vision Pro兼智能眼镜主管Paul Meade将加盟OpenAI
知情人士透露,苹果公司负责 Vision Pro 头显及智能眼镜硬件工程的副总裁 Paul Meade 将于下周离职,随后加入 OpenAI 硬件部门,负责研发未来的一系列 AI 硬件设备。Meade 在苹果工作了 16 年,曾是 iPad 和 iPhone 项目的核心工程管理负责人,于 2017 年加入负责头显研发的视觉产品集团(Vision Products Group,简称 VPG),并自 2019 年起全面主管硬件工程。
随着 Vision Pro 销售表现低迷,苹果近期大幅调整了硬件路线图,将研发重心从封闭式头显转向类似 Meta 的智能眼镜。曾任 VPG 负责人的 Mike Rockwell 已调往 Siri 团队,导致 VPG 被拆分为独立的硬件和软件组织。Meade 离职的另一大背景是苹果硬件工程部门近期的大规模重组。在 John Ternus 确定于 9 月 1 日接替 Tim Cook 出任首席执行官后,新任首席硬件官 Johny Srouji 启动了重组,使得 Meade 在内的多位副总裁汇报层级被推至新任副总裁 Tom Marieb 之下,实际上降了一级。
Meade 加入 OpenAI 后,将与 Jony Ive、Tang Tan 及 Evans Hankey 等苹果前设计高管再度共事。三名高管创办的 AI 硬件初创公司已于去年被 OpenAI 以 65 亿美元收购。
信源:https://www.bloomberg.com/news/articles/2026-06-26/apple-s-vision-pro-and-smart-glasses-chief-paul-meade-is-leaving-for-openai
知情人士透露,苹果公司负责 Vision Pro 头显及智能眼镜硬件工程的副总裁 Paul Meade 将于下周离职,随后加入 OpenAI 硬件部门,负责研发未来的一系列 AI 硬件设备。Meade 在苹果工作了 16 年,曾是 iPad 和 iPhone 项目的核心工程管理负责人,于 2017 年加入负责头显研发的视觉产品集团(Vision Products Group,简称 VPG),并自 2019 年起全面主管硬件工程。
随着 Vision Pro 销售表现低迷,苹果近期大幅调整了硬件路线图,将研发重心从封闭式头显转向类似 Meta 的智能眼镜。曾任 VPG 负责人的 Mike Rockwell 已调往 Siri 团队,导致 VPG 被拆分为独立的硬件和软件组织。Meade 离职的另一大背景是苹果硬件工程部门近期的大规模重组。在 John Ternus 确定于 9 月 1 日接替 Tim Cook 出任首席执行官后,新任首席硬件官 Johny Srouji 启动了重组,使得 Meade 在内的多位副总裁汇报层级被推至新任副总裁 Tom Marieb 之下,实际上降了一级。
Meade 加入 OpenAI 后,将与 Jony Ive、Tang Tan 及 Evans Hankey 等苹果前设计高管再度共事。三名高管创办的 AI 硬件初创公司已于去年被 OpenAI 以 65 亿美元收购。
信源:https://www.bloomberg.com/news/articles/2026-06-26/apple-s-vision-pro-and-smart-glasses-chief-paul-meade-is-leaving-for-openai
Bloomberg.com
Apple’s Vision Pro and Smart Glasses Chief Is Leaving for OpenAI
Apple Inc.’s top executive in charge of the Vision Pro headset and the company’s smart glasses efforts is leaving for OpenAI, continuing a streak of high-profile defections to rivals in the artificial intelligence and hardware sectors.
Token实际成本降至0.99美元,SemiAnalysis披露大模型消费已占薪酬30%
在企业端广泛落地的智能体 AI 正在颠覆专业服务业的单元经济。研究机构 SemiAnalysis 披露,内部大模型 Token 支出已占员工总薪资的 30%,人均月消费近 50 亿个 Token,核心贡献者月消耗更超 1000 亿个。原本需要分析师耗时数小时的 Excel 模型转换与财报图表制作,如今可在几分钟内以数美元的代币成本完成。
实际使用成本的骤降是重塑专业服务业单元经济的关键。虽然 Opus 4.7 官方标价高达每百万 Token 5 美元输入与 25 美元输出,但由于智能体任务高达 300 对 1 的输入输出比,以及 90% 以上的提示词缓存命中率,使得实际混合 Token 成本仅为 0.99 美元/百万。
软件与硬件的共同加速正在进一步压缩生成成本。在 B300 运行 DeepSeek R1 时,通过 wideEP、disagg 与 MTP 软件优化,单 GPU 吞吐量能从 baseline 的 1000 tokens/秒飙升至 14000 tokens/秒,实现 14 倍的纯软件吞吐量提升。而在硬件层面,最优化配置的 GB300 NVL72 吞吐量是 H100 的 17 倍(FP4 下达 32 倍),从而为大模型开发商毛利率的增长提供了结构性保障,并预示 2027 年 Token 价格将远低于当前水平。
信源:https://x.com/SemiAnalysis_/status/2070915305858007345
在企业端广泛落地的智能体 AI 正在颠覆专业服务业的单元经济。研究机构 SemiAnalysis 披露,内部大模型 Token 支出已占员工总薪资的 30%,人均月消费近 50 亿个 Token,核心贡献者月消耗更超 1000 亿个。原本需要分析师耗时数小时的 Excel 模型转换与财报图表制作,如今可在几分钟内以数美元的代币成本完成。
实际使用成本的骤降是重塑专业服务业单元经济的关键。虽然 Opus 4.7 官方标价高达每百万 Token 5 美元输入与 25 美元输出,但由于智能体任务高达 300 对 1 的输入输出比,以及 90% 以上的提示词缓存命中率,使得实际混合 Token 成本仅为 0.99 美元/百万。
软件与硬件的共同加速正在进一步压缩生成成本。在 B300 运行 DeepSeek R1 时,通过 wideEP、disagg 与 MTP 软件优化,单 GPU 吞吐量能从 baseline 的 1000 tokens/秒飙升至 14000 tokens/秒,实现 14 倍的纯软件吞吐量提升。而在硬件层面,最优化配置的 GB300 NVL72 吞吐量是 H100 的 17 倍(FP4 下达 32 倍),从而为大模型开发商毛利率的增长提供了结构性保障,并预示 2027 年 Token 价格将远低于当前水平。
信源:https://x.com/SemiAnalysis_/status/2070915305858007345
X (formerly Twitter)
SemiAnalysis (@SemiAnalysis_) on X
If you are an operator trying to write down what tokens will cost in 2027, the answer is materially lower than today, and the firms that have already adopted are the ones setting the pace. The full math, plus a value capture breakdown across labs, hyperscalers…
OpenAI升级Codex体验:支持长对话悬停跳转与缩放对齐
Codex 本周发布更新,解决了长对话导航不便与界面元素缩放错位问题。针对长对话场景, Codex 引入了导航轨,用户将光标悬停在槽位边缘即可预览并直接跳转至临近的对话轮次。同时,线程滚动表现得到平滑,在长对话中切换时可自动保持浏览位置。
界面在缩放时增加了对齐防护,确保 Tooltips 提示、菜单、对话框、选择气泡、拖拽预览和自动补全等元素不发生错位。设置搜索范围已得到扩展,包含更丰富的外观控制、主机过滤和自定义 Provider 设置等控制项,并新增了宠物专属面板。归档管理操作得到简化,并同步了 Dock 栏和侧边栏的未读徽标。
在底层性能与协作上,更新减少了线程切换的后台工作量,支持分段加载更深层的本地历史记录。在跨平台交互上,从 Codex 复制文本至 Slack 现可保留 Markdown 格式,并修复了粘贴大文本块时界面卡死的问题。同时,草稿文本在线程交接时不会丢失,粘贴的图片预览也支持使用方向键导航。
信源:https://x.com/OpenAIDevs/status/2070922791529091376
Codex 本周发布更新,解决了长对话导航不便与界面元素缩放错位问题。针对长对话场景, Codex 引入了导航轨,用户将光标悬停在槽位边缘即可预览并直接跳转至临近的对话轮次。同时,线程滚动表现得到平滑,在长对话中切换时可自动保持浏览位置。
界面在缩放时增加了对齐防护,确保 Tooltips 提示、菜单、对话框、选择气泡、拖拽预览和自动补全等元素不发生错位。设置搜索范围已得到扩展,包含更丰富的外观控制、主机过滤和自定义 Provider 设置等控制项,并新增了宠物专属面板。归档管理操作得到简化,并同步了 Dock 栏和侧边栏的未读徽标。
在底层性能与协作上,更新减少了线程切换的后台工作量,支持分段加载更深层的本地历史记录。在跨平台交互上,从 Codex 复制文本至 Slack 现可保留 Markdown 格式,并修复了粘贴大文本块时界面卡死的问题。同时,草稿文本在线程交接时不会丢失,粘贴的图片预览也支持使用方向键导航。
信源:https://x.com/OpenAIDevs/status/2070922791529091376
X (formerly Twitter)
OpenAI Developers (@OpenAIDevs) on X
🆕 Codex quality-of-life updates landed this week
Starting with long threads: scrolling is smoother now, and your place stays put as you move through the conversation.
Starting with long threads: scrolling is smoother now, and your place stays put as you move through the conversation.
OpenRouter:中美开源大模型与闭源前沿差距仅剩3至6个月,极低成本加速全球平替潮
聚合服务商 OpenRouter 披露,开源模型与闭源前沿模型的性能差距已稳定在 3 至 6 个月。在过去 18 个月中,前沿闭源实验室未能如预期般拉开身位,而以中美新玩家为代表的开源力量正凭借极高的性价比加速平替闭源模型。
DeepSeek V4 Flash 发布仅两个月就成为平替首选。拥有 2840 亿参数的 DeepSeek V4 Flash 在 SWE-bench Verified 评测中取得 79.0% 的成绩,表现逼近 GPT-5.5 级别。官方第一方输入/输出定价仅为 0.14/0.28 美元/百万 token,输出成本比 GPT-5.5 便宜约 150 倍。即使加上不保留数据训练的西方云托管溢价,实际成本也仅在闭源前沿模型的 1.3% 左右。
除了价格优势,智谱 2026 年 6 月发布的 GLM 5.2 在 Artificial Analysis 开源权重智能指数中排名第一,并在真实智能体评测中比肩 GPT-5.5 级别,成为长程编程规划的替换方案。不过,GLM 5.2 在深度思考时较为消耗 token,企业部署时需平衡输出成本。多模态开源模型 MiniMax M3 则凭借创新的 MSA 稀疏注意力架构,以较低的 token 价格提供了原生图像与视频的长上下文处理能力,成为 Gemini Flash 的强劲开源对手。
同时,基于 Mamba-2 混合架构的英伟达 Nemotron 3 Ultra 成为最强的美国本土开源力量,旨在通过开放生态拉动英伟达硬件与微服务生态的市场需求。
OpenRouter 强调,虽然前沿闭源模型最终仍会向前推进,但固定智能水平的 token 成本将持续走低,为企业提供了重大的成本优化空间。
信源:https://openrouter.ai/blog/insights/the-open-weight-models-that-matter-june-2026/
聚合服务商 OpenRouter 披露,开源模型与闭源前沿模型的性能差距已稳定在 3 至 6 个月。在过去 18 个月中,前沿闭源实验室未能如预期般拉开身位,而以中美新玩家为代表的开源力量正凭借极高的性价比加速平替闭源模型。
DeepSeek V4 Flash 发布仅两个月就成为平替首选。拥有 2840 亿参数的 DeepSeek V4 Flash 在 SWE-bench Verified 评测中取得 79.0% 的成绩,表现逼近 GPT-5.5 级别。官方第一方输入/输出定价仅为 0.14/0.28 美元/百万 token,输出成本比 GPT-5.5 便宜约 150 倍。即使加上不保留数据训练的西方云托管溢价,实际成本也仅在闭源前沿模型的 1.3% 左右。
除了价格优势,智谱 2026 年 6 月发布的 GLM 5.2 在 Artificial Analysis 开源权重智能指数中排名第一,并在真实智能体评测中比肩 GPT-5.5 级别,成为长程编程规划的替换方案。不过,GLM 5.2 在深度思考时较为消耗 token,企业部署时需平衡输出成本。多模态开源模型 MiniMax M3 则凭借创新的 MSA 稀疏注意力架构,以较低的 token 价格提供了原生图像与视频的长上下文处理能力,成为 Gemini Flash 的强劲开源对手。
同时,基于 Mamba-2 混合架构的英伟达 Nemotron 3 Ultra 成为最强的美国本土开源力量,旨在通过开放生态拉动英伟达硬件与微服务生态的市场需求。
OpenRouter 强调,虽然前沿闭源模型最终仍会向前推进,但固定智能水平的 token 成本将持续走低,为企业提供了重大的成本优化空间。
信源:https://openrouter.ai/blog/insights/the-open-weight-models-that-matter-june-2026/
OpenRouter Blog
The Open Weight Models that Matter: June 2026 — OpenRouter Blog
A slew of compelling open-weight models have shipped from new players in both China and the US. As of June 2026, these are the four open-weight models that matt
❤1
在线策略自蒸馏与做梦模拟或成大模型持续学习新解法
大语言模型在部署后,普遍面临无法持续吸收新知识的难题。目前的优化技术主要集中在扩大上下文窗口和提升查找速度上,这只能让模型在单个对话内临时查找信息,一旦关闭对话框,知识就会被全部忘光。大模型持续学习的真正瓶颈并不在这些查找速度的优化上,而是在于如何将对话里学到的经验,物理性地改写进大模型底层的权重参数里。
在线策略自蒸馏(Online Policy Self-Distillation, OPSD)提供了一条全新的权重更新路径。大模型在面临任务时,其拥有完整长上下文的「教师状态」(Teacher State)会生成高质量的解答。随后,系统在云端通过反向传播(Backpropagation),计算基础状态(学生,Student)与教师状态在 Token 级别的概率差异来提供稠密的监督信号,让基础模型去逼近那个拿了高分的聪明状态。
相比于强行让模型死记硬背所有对话文字的监督微调(Supervised Fine-Tuning, SFT),自蒸馏仅提取维持性能所必需的决策经验。这种极度稀疏的参数更新能够避免灾难性遗忘(Catastrophic Forgetting),保护大模型原有的通用常识不被覆盖。
另一条更具前瞻性的学习路径是做梦模拟(Dreaming)。当大模型面对复杂任务时,会消耗巨大的推理期算力在脑海中自我博弈。模型会根据日常观察到的规律,自动构建一个虚拟的模拟器环境(Simulator),并在模拟器环境中进行上万次任务演练。如果演练成功,系统就会把成功的轨迹记录下来作为教材,更新基础模型的底层权重。相比于仅生成简短摘要的轻量压缩,做梦模拟会消耗巨大算力在云端反复预演,属于大模型扩展的第四个维度。
预计 2027 至 2028 年,AI 代理在与人类协同工作一周后将接受工作评估。一旦获得认可,系统便能在云端通过在线策略自蒸馏(OPSD)或做梦模拟,将当周积累的实战经验蒸馏内化至模型的底层权重中,实现部署后能力的在线扩张,让大模型越用越聪明。
信源:https://www.youtube.com/watch?v=20p5-kQXF_Q
大语言模型在部署后,普遍面临无法持续吸收新知识的难题。目前的优化技术主要集中在扩大上下文窗口和提升查找速度上,这只能让模型在单个对话内临时查找信息,一旦关闭对话框,知识就会被全部忘光。大模型持续学习的真正瓶颈并不在这些查找速度的优化上,而是在于如何将对话里学到的经验,物理性地改写进大模型底层的权重参数里。
在线策略自蒸馏(Online Policy Self-Distillation, OPSD)提供了一条全新的权重更新路径。大模型在面临任务时,其拥有完整长上下文的「教师状态」(Teacher State)会生成高质量的解答。随后,系统在云端通过反向传播(Backpropagation),计算基础状态(学生,Student)与教师状态在 Token 级别的概率差异来提供稠密的监督信号,让基础模型去逼近那个拿了高分的聪明状态。
相比于强行让模型死记硬背所有对话文字的监督微调(Supervised Fine-Tuning, SFT),自蒸馏仅提取维持性能所必需的决策经验。这种极度稀疏的参数更新能够避免灾难性遗忘(Catastrophic Forgetting),保护大模型原有的通用常识不被覆盖。
另一条更具前瞻性的学习路径是做梦模拟(Dreaming)。当大模型面对复杂任务时,会消耗巨大的推理期算力在脑海中自我博弈。模型会根据日常观察到的规律,自动构建一个虚拟的模拟器环境(Simulator),并在模拟器环境中进行上万次任务演练。如果演练成功,系统就会把成功的轨迹记录下来作为教材,更新基础模型的底层权重。相比于仅生成简短摘要的轻量压缩,做梦模拟会消耗巨大算力在云端反复预演,属于大模型扩展的第四个维度。
预计 2027 至 2028 年,AI 代理在与人类协同工作一周后将接受工作评估。一旦获得认可,系统便能在云端通过在线策略自蒸馏(OPSD)或做梦模拟,将当周积累的实战经验蒸馏内化至模型的底层权重中,实现部署后能力的在线扩张,让大模型越用越聪明。
信源:https://www.youtube.com/watch?v=20p5-kQXF_Q
YouTube
What does the next training paradigm look like?
Thanks to Mercury for sponsoring this essay.
Mercury has automated basically my entire bill pay process for my business. I just give contractors a dedicated email address, and when they send an invoice, Mercury automatically creates a draft payment for me…
Mercury has automated basically my entire bill pay process for my business. I just give contractors a dedicated email address, and when they send an invoice, Mercury automatically creates a draft payment for me…
谷歌Pixel部署零拷贝MTP,Gemini Nano推理提速超50%且省内存
谷歌在 Pixel 9 与 Pixel 10 系列设备中部署了多 Token 预测(MTP)架构,直接加速内置的 Gemini Nano v3 模型。通过将轻量级 Transformer 预测头附加到已冻结的主模型尾部,新架构在完全保留原有安全对齐与输出质量的同时,将设备端推理速度提升了 50% 以上。
传统的投机解码需要运行一个独立的草稿模型来预测候选 Token。这不仅额外抢占手机的运行内存,且由于独立模型无法访问主模型的内部隐藏状态,导致预测准确率受限。新架构通过在冻结的主模型尾部嵌入 MTP 头,成功复用主模型已计算的特征激活,显著提升了候选 Token 的预测准确率。
为避免草稿计算在自回归生成时产生重复的运行内存开销,谷歌设计了零拷贝(zero-copy)机制。传统方案中,草稿模型生成候选词时需要维护独立的键值缓存(KV cache)记忆,而零拷贝机制让外挂预测头直接通过交叉注意力(Cross-Attention)去读取主模型已有的缓存。这不仅消除了草稿预测的启动延迟,还为手机节省了约 130MB 的运行内存空间。
在通知摘要与文本校对等 Pixel 实际业务中,MTP 架构使模型单次推理平均能成功多预测近 2 个 Token,降低了主处理器因校验而频繁被唤醒的频率,从而节省了系统功耗。在智能回复等高度结构化文本生成任务中,Token 接受率提升达 55%。
信源:https://research.google/blog/accelerating-gemini-nano-models-on-pixel-with-frozen-multi-token-prediction/
谷歌在 Pixel 9 与 Pixel 10 系列设备中部署了多 Token 预测(MTP)架构,直接加速内置的 Gemini Nano v3 模型。通过将轻量级 Transformer 预测头附加到已冻结的主模型尾部,新架构在完全保留原有安全对齐与输出质量的同时,将设备端推理速度提升了 50% 以上。
传统的投机解码需要运行一个独立的草稿模型来预测候选 Token。这不仅额外抢占手机的运行内存,且由于独立模型无法访问主模型的内部隐藏状态,导致预测准确率受限。新架构通过在冻结的主模型尾部嵌入 MTP 头,成功复用主模型已计算的特征激活,显著提升了候选 Token 的预测准确率。
为避免草稿计算在自回归生成时产生重复的运行内存开销,谷歌设计了零拷贝(zero-copy)机制。传统方案中,草稿模型生成候选词时需要维护独立的键值缓存(KV cache)记忆,而零拷贝机制让外挂预测头直接通过交叉注意力(Cross-Attention)去读取主模型已有的缓存。这不仅消除了草稿预测的启动延迟,还为手机节省了约 130MB 的运行内存空间。
在通知摘要与文本校对等 Pixel 实际业务中,MTP 架构使模型单次推理平均能成功多预测近 2 个 Token,降低了主处理器因校验而频繁被唤醒的频率,从而节省了系统功耗。在智能回复等高度结构化文本生成任务中,Token 接受率提升达 55%。
信源:https://research.google/blog/accelerating-gemini-nano-models-on-pixel-with-frozen-multi-token-prediction/
Google Research
Accelerating Gemini Nano models on Pixel with frozen Multi-Token Prediction
We introduce a method to retrofit Multi-Token Prediction onto frozen production models, accelerating on-device inference without the inefficiencies of separate drafters.
马斯克再开「月更」空头支票:旧模型跳票两月,新大饼悄然登场
马斯克宣布 Grok 4.5 开启面向特斯拉与 SpaceX 员工的私有内测,并承诺年底前 SpaceX 计划每月发布一款从头训练的全新模型。然而,自从 4 月中旬发布 Grok 4.3 之后,xAI 已有两个月未推出任何新模型,先前的更新承诺早已沦为笑谈。
反复推迟的发版节奏,堪称教科书级的「套娃式跳票」。马斯克曾在 4 月 18 日高调宣称,大模型工厂将每两周升级一次。当时排好的课表是,1T 参数的 Grok 4.4 预定 5 月初发,1.5T 的 Grok 4.5 预定 5 月底发。
眼看 5 月初的 ddl 过去,Grok 4.4 毫无音讯,马斯克在 5 月中旬改口称,1.5T 的 V9 模型训练完毕,大概 3 到 4 周内发布。到了 5 月 25 日,他又把发版时间推迟到 2 至 3 周。
结果到了 6 月底,我们只等来了一份仅限特斯拉内部体验的测试版。至于原本定档 5 月初发布的 Grok 4.4,在研发团队慢性失血的状况下早已悄然废弃。
虽然 SpaceX 在 6 月高价收购了 Cursor 母公司,试图用买来的团队与代码数据紧急填补窟窿,但骨干流失的尴尬,显然让马斯克大模型工厂的轰鸣声,听起来远不如他画饼的声音响亮。
信源:https://x.com/elonmusk/status/2071184354756477041
马斯克宣布 Grok 4.5 开启面向特斯拉与 SpaceX 员工的私有内测,并承诺年底前 SpaceX 计划每月发布一款从头训练的全新模型。然而,自从 4 月中旬发布 Grok 4.3 之后,xAI 已有两个月未推出任何新模型,先前的更新承诺早已沦为笑谈。
反复推迟的发版节奏,堪称教科书级的「套娃式跳票」。马斯克曾在 4 月 18 日高调宣称,大模型工厂将每两周升级一次。当时排好的课表是,1T 参数的 Grok 4.4 预定 5 月初发,1.5T 的 Grok 4.5 预定 5 月底发。
眼看 5 月初的 ddl 过去,Grok 4.4 毫无音讯,马斯克在 5 月中旬改口称,1.5T 的 V9 模型训练完毕,大概 3 到 4 周内发布。到了 5 月 25 日,他又把发版时间推迟到 2 至 3 周。
结果到了 6 月底,我们只等来了一份仅限特斯拉内部体验的测试版。至于原本定档 5 月初发布的 Grok 4.4,在研发团队慢性失血的状况下早已悄然废弃。
虽然 SpaceX 在 6 月高价收购了 Cursor 母公司,试图用买来的团队与代码数据紧急填补窟窿,但骨干流失的尴尬,显然让马斯克大模型工厂的轰鸣声,听起来远不如他画饼的声音响亮。
信源:https://x.com/elonmusk/status/2071184354756477041
🤡4
动察Beating AI News
马斯克再开「月更」空头支票:旧模型跳票两月,新大饼悄然登场 马斯克宣布 Grok 4.5 开启面向特斯拉与 SpaceX 员工的私有内测,并承诺年底前 SpaceX 计划每月发布一款从头训练的全新模型。然而,自从 4 月中旬发布 Grok 4.3 之后,xAI 已有两个月未推出任何新模型,先前的更新承诺早已沦为笑谈。 反复推迟的发版节奏,堪称教科书级的「套娃式跳票」。马斯克曾在 4 月 18 日高调宣称,大模型工厂将每两周升级一次。当时排好的课表是,1T 参数的 Grok 4.4 预定 5 月初发,1.5T…
马斯克紧急为Grok 4.5吹牛降温:已调火箭团队救场,2T新饼已排期八月
在宣布 Grok 4.5 开启内测后不到半天,马斯克就紧急发帖为之前的狂言降温。他前脚宣称新模型性能「或许已超过 Opus」,后脚又急忙找补,澄清 V9 基础模型并不是「惊人地好」,只是一款和 Opus 同档次的「主力工具」。这番迅速的自我否定,显然是在给尚未公测的模型降低期待。
马斯克透露,由于 1.5T 版本的训练仅将新收购的 Cursor 代码数据作为「追加训练」(效果不及初始训练),导致技术表现打了折扣。为了挽回颜面,xAI 几周前已启动了 2T 参数的大模型训练,将全部数据融入预训练中,并定档于 8 月发布。
除了 Cursor 团队在微调与强化学习上的技术贡献,为了按时端出 8 月的 2T 新饼,马斯克甚至跨界调兵。数十名来自星链(Starlink)和星舰(Starship)项目的顶尖工程师已被抽调来协助 AI 训练。在核心开发团队失血后,用造火箭的专家来补齐 AI 工程师的空缺,让这场模型狂欢显得愈发仓促。
另外,马斯克又画下了更大的新饼,声称真正的性能飞跃要等 3 个月后,届时整个训练与推理栈将用 C/C++ 重构,彻底精简掉绝大多数软件层,以实现与 GB300 芯片的极致硬件适配。
信源:https://x.com/elonmusk/status/2071357162195132454
在宣布 Grok 4.5 开启内测后不到半天,马斯克就紧急发帖为之前的狂言降温。他前脚宣称新模型性能「或许已超过 Opus」,后脚又急忙找补,澄清 V9 基础模型并不是「惊人地好」,只是一款和 Opus 同档次的「主力工具」。这番迅速的自我否定,显然是在给尚未公测的模型降低期待。
马斯克透露,由于 1.5T 版本的训练仅将新收购的 Cursor 代码数据作为「追加训练」(效果不及初始训练),导致技术表现打了折扣。为了挽回颜面,xAI 几周前已启动了 2T 参数的大模型训练,将全部数据融入预训练中,并定档于 8 月发布。
除了 Cursor 团队在微调与强化学习上的技术贡献,为了按时端出 8 月的 2T 新饼,马斯克甚至跨界调兵。数十名来自星链(Starlink)和星舰(Starship)项目的顶尖工程师已被抽调来协助 AI 训练。在核心开发团队失血后,用造火箭的专家来补齐 AI 工程师的空缺,让这场模型狂欢显得愈发仓促。
另外,马斯克又画下了更大的新饼,声称真正的性能飞跃要等 3 个月后,届时整个训练与推理栈将用 C/C++ 重构,彻底精简掉绝大多数软件层,以实现与 GB300 芯片的极致硬件适配。
信源:https://x.com/elonmusk/status/2071357162195132454
❤1
动察Beating AI News
OpenAI Codex防滥用机制误判导致额度暴耗,官方紧急重置全员额度 OpenAI 核心产品负责人 Tibo Sottiaux 表示,因系统内置的防欺诈与防滥用机制误判导致用户额度加速消耗,官方已紧急为所有 Codex 用户免费重置使用限额。 额度异常消耗问题实际始于 6 月 16 日左右,并于 6 月 25 日在社交平台彻底爆发。数百名开发者在 GitHub 及社交平台上反馈, Codex 的 Token 消耗速度出现异常飙升,部分账户的额度消耗速度相比以往加快了 10 至 20 倍。有订阅 200…
Codex额度异常又崩了,OpenAI再次全员硬重置
OpenAI 旗下编程智能体 Codex 的额度异常消耗漏洞仍未根治。OpenAI 核心产品负责人 Tibo Sottiaux 宣布,团队在周日紧急开启作战室筛查日志,并对所有用户实施了第二次硬重置。
6 月 27 日的首次重置未能解决问题。有用户反馈,在手动重置额度后仅过 36 小时,限额便再次跌去 75%。独立开发者 nicdunz 批评 OpenAI 在故障响应上过于松懈。
Sottiaux 透露,由于故障仍在排查,团队决定直接刷新所有用户额度。鉴于部分用户先前已积攒了多达三次自行重置配额,这次改成了直接重置,而不是发放额度重置卡。
巧合的是,本周是 OpenAI 的休整福利周,内部称为 RESET week。本应放假放松的研发团队,最终却在作战室以重置(RESET)全网限额的方式度过了假期。
信源:https://x.com/thsottiaux/status/2071381664853319742
OpenAI 旗下编程智能体 Codex 的额度异常消耗漏洞仍未根治。OpenAI 核心产品负责人 Tibo Sottiaux 宣布,团队在周日紧急开启作战室筛查日志,并对所有用户实施了第二次硬重置。
6 月 27 日的首次重置未能解决问题。有用户反馈,在手动重置额度后仅过 36 小时,限额便再次跌去 75%。独立开发者 nicdunz 批评 OpenAI 在故障响应上过于松懈。
Sottiaux 透露,由于故障仍在排查,团队决定直接刷新所有用户额度。鉴于部分用户先前已积攒了多达三次自行重置配额,这次改成了直接重置,而不是发放额度重置卡。
巧合的是,本周是 OpenAI 的休整福利周,内部称为 RESET week。本应放假放松的研发团队,最终却在作战室以重置(RESET)全网限额的方式度过了假期。
信源:https://x.com/thsottiaux/status/2071381664853319742
X (formerly Twitter)
Tibo (@thsottiaux) on X
As we are still investigating, I have reset everyone's Codex usage limits. This is a hard reset given some users had stacked up to three banked resets already that they can apply on their own schedule.
Funnily enough, this week at OpenAI is called the RESET…
Funnily enough, this week at OpenAI is called the RESET…
Lody上架App Store:基于Loro实现手机与团队共享Code Agent状态
智能体平台 Lody 正式上架苹果 App Store,支持用户随时随地运行 Code Agent 并与团队协同。
Lody 能够为每个独立任务创建独立的 Git Worktree 工作区。多任务并行运行得以互不干扰,开发者无需担心本地工作目录被污染。移动端原生应用支持实时推送任务状态,方便用户在手机或 iPad 上审阅代码的 Diff 差异、批准变更并直接合并 Pull Request。
团队协作时,不同设备间的运行状态可以通过底层高性能同步框架 Loro 实现秒级实时同步。Loro 基于冲突无解复制数据类型 CRDT,通过特定的合并算法让各端能够独立并发修改数据并自动无冲突合并。当团队成员在手机上接续任务时,可以直接看到一致的代码差异、审批权限记录以及 Agent 实时运行日志。
信源:https://x.com/lody_ai/status/2071184229925310912
智能体平台 Lody 正式上架苹果 App Store,支持用户随时随地运行 Code Agent 并与团队协同。
Lody 能够为每个独立任务创建独立的 Git Worktree 工作区。多任务并行运行得以互不干扰,开发者无需担心本地工作目录被污染。移动端原生应用支持实时推送任务状态,方便用户在手机或 iPad 上审阅代码的 Diff 差异、批准变更并直接合并 Pull Request。
团队协作时,不同设备间的运行状态可以通过底层高性能同步框架 Loro 实现秒级实时同步。Loro 基于冲突无解复制数据类型 CRDT,通过特定的合并算法让各端能够独立并发修改数据并自动无冲突合并。当团队成员在手机上接续任务时,可以直接看到一致的代码差异、审批权限记录以及 Agent 实时运行日志。
信源:https://x.com/lody_ai/status/2071184229925310912
X (formerly Twitter)
lody (@lody_ai) on X
Lody is live on App Store.
Same experience as the Codex app and mobile — but for all code agents and teams.
Same experience as the Codex app and mobile — but for all code agents and teams.
❤1
传统程序员与设计师分工正被AI瓦解,Claude Code之父介绍未来五大研发角色
AI 编程工具正让传统的程序员、设计师与产品经理角色界限变得模糊。
Claude Code 之父 Boris Cherny 指出,未来的产品研发将被重构为五种角色:
1. 负责验证创意的原型探索 Prototyper
2. 将想法落地的代码构建 Builder
3. 清理界面与简化代码的系统清理 Sweeper
4. 迭代优化市场契合度的增长迭代 Grower
5. 保障系统安全扩展的系统维护 Maintainer
Claude Code 团队已率先实践人岗解绑的混编模式,团队成员不再受岗位头衔约束,能够自由跨越职能边界。
在产品生命周期的不同阶段,五种角色的配比直接决定了项目成败。未成型的早期产品需要团队全力聚焦于创意探索、代码构建与系统清理;进入成熟期后,研发重心则需转向增长迭代与维护。
新分工彻底打碎了传统的职能壁垒,例如在 Anthropic 内部,部分设计师正直接跨界编写代码以清理 UI ,而部分工程师则专注于提出全新创意。
信源:https://x.com/bcherny/status/2071379474277613732
AI 编程工具正让传统的程序员、设计师与产品经理角色界限变得模糊。
Claude Code 之父 Boris Cherny 指出,未来的产品研发将被重构为五种角色:
1. 负责验证创意的原型探索 Prototyper
2. 将想法落地的代码构建 Builder
3. 清理界面与简化代码的系统清理 Sweeper
4. 迭代优化市场契合度的增长迭代 Grower
5. 保障系统安全扩展的系统维护 Maintainer
Claude Code 团队已率先实践人岗解绑的混编模式,团队成员不再受岗位头衔约束,能够自由跨越职能边界。
在产品生命周期的不同阶段,五种角色的配比直接决定了项目成败。未成型的早期产品需要团队全力聚焦于创意探索、代码构建与系统清理;进入成熟期后,研发重心则需转向增长迭代与维护。
新分工彻底打碎了传统的职能壁垒,例如在 Anthropic 内部,部分设计师正直接跨界编写代码以清理 UI ,而部分工程师则专注于提出全新创意。
信源:https://x.com/bcherny/status/2071379474277613732
🖕1
动察Beating AI News
OpenRouter又上匿名模型Owl Alpha,之前三个都是中国公司的 AI 模型路由平台 OpenRouter 上线新匿名模型 Owl Alpha,提供商标记为「Stealth」,不标注开发团队。模型定位 agent 工作负载,原生支持工具调用,上下文窗口约 105 万 token,最大输出 262K token,量化格式 int8,兼容 Claude Code、OpenClaw 等主流工具。免费使用,但所有 prompt 和输出会被提供商记录用于改进模型。 OpenRouter 此前至少三个匿…
OpenRouter 热门匿名模型 Owl Alpha 身份揭晓:美团 LongCat-2.0-Preview
模型路由平台 OpenRouter 上近期增长最快的匿名智能体模型 Owl Alpha 真实身份被证实。多方信源证实,模型实际是美团研发的 LongCat-2.0-Preview,已经在平台上默默测试了近两个月。
在架构设计上,LongCat-2.0-Preview 采用混合专家(MoE)架构,拥有 1.6T 的庞大总参数量,平均激活参数约 48B(动态激活范围在 33B 至 56B 之间),并原生支持 1M 字符的上下文窗口。模型针对智能体工作负载进行了专门优化,涵盖多步推理、工具调用、代码生成及 DevOps 任务。
根据 OpenRouter 数据统计,Owl Alpha 在未公开身份的情况下,已经冲上全球智能体模型使用排行前三,在 Hermes 智能体月调用量中位列第一,在 Claude Code 中位列第二,在 OpenClaw 中位列第三。模型月度 Token 吞吐量已达 11T,增长率高达 200%。
信源:https://x.com/rohanpaul_ai/status/2071123605694652737
模型路由平台 OpenRouter 上近期增长最快的匿名智能体模型 Owl Alpha 真实身份被证实。多方信源证实,模型实际是美团研发的 LongCat-2.0-Preview,已经在平台上默默测试了近两个月。
在架构设计上,LongCat-2.0-Preview 采用混合专家(MoE)架构,拥有 1.6T 的庞大总参数量,平均激活参数约 48B(动态激活范围在 33B 至 56B 之间),并原生支持 1M 字符的上下文窗口。模型针对智能体工作负载进行了专门优化,涵盖多步推理、工具调用、代码生成及 DevOps 任务。
根据 OpenRouter 数据统计,Owl Alpha 在未公开身份的情况下,已经冲上全球智能体模型使用排行前三,在 Hermes 智能体月调用量中位列第一,在 Claude Code 中位列第二,在 OpenClaw 中位列第三。模型月度 Token 吞吐量已达 11T,增长率高达 200%。
信源:https://x.com/rohanpaul_ai/status/2071123605694652737
❤1
动察Beating AI News
Anthropic递交密信指控阿里Qwen非法调用2880万次Claude数据 据彭博社报道,Anthropic 在致美国国会参议员及白宫官员的信中,指控阿里巴巴旗下 Qwen 实验室利用近 2.5 万个欺诈账户对 Claude 进行大规模非法访问。信中披露,在 2026 年 4 月至 6 月期间,关联账户与 Claude 进行了高达 2880 万次的交互,重点针对软件工程与智能体推理等核心能力。 Anthropic 警告称,阿里与中国实验室正在系统性、非法地利用美国前沿模型的输出,以极低研发成本训练…
Claude升级风控,引发中文用户封号潮
Anthropic 近日向美国国会提交指控信,声称阿里巴巴通义千问团队在 2026 年 4 月至 6 月期间,利用约 2.5 万个虚假账号对 Claude 进行大规模对抗性蒸馏攻击。受模型数据安全防范以及官方收紧合规政策影响,大批中文用户遭遇账号封禁。
开发社区反馈显示,风控系统近期的过滤算法更加严苛,检测维度从单纯的 IP 地址延伸至设备指纹、DNS 泄露、WebRTC 状态以及系统时区一致性。使用共享 VPN 节点、虚拟手机号或在中文问答交互中表现出自动化请求特征的账号,均被系统拦截封禁。同时,官方对使用 OAuth 令牌接入第三方中转服务的订阅账号实施了无差别清理,迫使大量依赖 API 代理的开发者转向 AWS Bedrock 等官方合规渠道。
Anthropic 近日向美国国会提交指控信,声称阿里巴巴通义千问团队在 2026 年 4 月至 6 月期间,利用约 2.5 万个虚假账号对 Claude 进行大规模对抗性蒸馏攻击。受模型数据安全防范以及官方收紧合规政策影响,大批中文用户遭遇账号封禁。
开发社区反馈显示,风控系统近期的过滤算法更加严苛,检测维度从单纯的 IP 地址延伸至设备指纹、DNS 泄露、WebRTC 状态以及系统时区一致性。使用共享 VPN 节点、虚拟手机号或在中文问答交互中表现出自动化请求特征的账号,均被系统拦截封禁。同时,官方对使用 OAuth 令牌接入第三方中转服务的订阅账号实施了无差别清理,迫使大量依赖 API 代理的开发者转向 AWS Bedrock 等官方合规渠道。
Citrini提出AI监管对冲策略:做多能用上最新AI的上市公司并做空大盘
投研机构 Citrini Research 判断,前沿 AI 模型的分发将全面转向政府准入审批制,并建议做多更易获准接入最新模型的下游企业、做空宽基指数。
大模型监管准入将直接拉开企业间的生产力差距。随着 OpenAI 针对旗舰模型 GPT-5.6 Sol 的早期内测要求组织授权披露参与情况,前沿模型正在从通用基础设施退化为受政府管制的特许物资。由于宽基指数包含大批无缘 AI 赋能的传统企业,大盘指数表现将被拖累。
相反,少数获批接入的下游特许企业将实现超额增长。做多特许获批群体并做空大盘指数,能帮助投资者在对冲市场风险的同时,锁定监管壁垒带来的效率红利。
信源:https://x.com/citrini/status/2071387105096306956
投研机构 Citrini Research 判断,前沿 AI 模型的分发将全面转向政府准入审批制,并建议做多更易获准接入最新模型的下游企业、做空宽基指数。
大模型监管准入将直接拉开企业间的生产力差距。随着 OpenAI 针对旗舰模型 GPT-5.6 Sol 的早期内测要求组织授权披露参与情况,前沿模型正在从通用基础设施退化为受政府管制的特许物资。由于宽基指数包含大批无缘 AI 赋能的传统企业,大盘指数表现将被拖累。
相反,少数获批接入的下游特许企业将实现超额增长。做多特许获批群体并做空大盘指数,能帮助投资者在对冲市场风险的同时,锁定监管壁垒带来的效率红利。
信源:https://x.com/citrini/status/2071387105096306956
👍1
GLM-5.2服务商实测:Parasail与智谱官方性能最强
模型聚合服务商 OpenRouter 会持续对每个大模型进行动态路由测评,以找出最优质的运行渠道。在智谱 AI 最新开源模型 GLM-5.2 的评测中,云服务商 Parasail.io 与智谱官方渠道 z-ai 并列性能表现首位。
动态路由系统能自动帮用户挑选服务商。对于包含工具调用(Tool Calling)的请求, OpenRouter 默认开启自动分流。如果是普通的聊天请求,用户需要在模型名称后面加上 :exacto 标识来手动开启。系统每 5 分钟自动测试一次所有的服务商,把表现不好、容易报错的通道往后排,自动把用户的请求分发给速度最快、最稳定的服务商。
实测评测用到了两套工具。第一套是 TauBench(也被称为 Top Bench,用来模拟航空公司客服,测试 AI 能不能边查数据库边帮用户订票、退票,也就是多步骤的动手干活能力)。第二套是 GPQA 科学问题集,包含物理、化学和生物等领域的博士级难题,专门用来测试 AI 的复杂推理能力。通过让不同服务商的 AI 答题,系统能测出各家提供服务的真实速度与准确率。
信源:https://openrouter.ai/z-ai/glm-5.2#performance
模型聚合服务商 OpenRouter 会持续对每个大模型进行动态路由测评,以找出最优质的运行渠道。在智谱 AI 最新开源模型 GLM-5.2 的评测中,云服务商 Parasail.io 与智谱官方渠道 z-ai 并列性能表现首位。
动态路由系统能自动帮用户挑选服务商。对于包含工具调用(Tool Calling)的请求, OpenRouter 默认开启自动分流。如果是普通的聊天请求,用户需要在模型名称后面加上 :exacto 标识来手动开启。系统每 5 分钟自动测试一次所有的服务商,把表现不好、容易报错的通道往后排,自动把用户的请求分发给速度最快、最稳定的服务商。
实测评测用到了两套工具。第一套是 TauBench(也被称为 Top Bench,用来模拟航空公司客服,测试 AI 能不能边查数据库边帮用户订票、退票,也就是多步骤的动手干活能力)。第二套是 GPQA 科学问题集,包含物理、化学和生物等领域的博士级难题,专门用来测试 AI 的复杂推理能力。通过让不同服务商的 AI 答题,系统能测出各家提供服务的真实速度与准确率。
信源:https://openrouter.ai/z-ai/glm-5.2#performance
❤1
传长鑫存储与腾讯签超200亿元芯片供货协议,DRAM产能拟翻倍
知情人士透露,中国内存芯片制造商长鑫存储已与腾讯签署了一项价值超 200 亿元人民币的长期服务器 DRAM 芯片供货协议。两名知情人士称协议期跨度长达 3 年,另一名消息源则指长达 5 年。目前尚不清楚协议是否包含对高性能 AI 芯片至关重要的 HBM 内存,但合作旨在为腾讯云服务、数据库及 AI 工作负载提供稳定的服务器内存支持。长鑫存储目前正筹备在上海证券交易所科创板进行首次公开募股 (IPO),计划募集 295 亿元人民币。
长鑫存储正通过大举扩产应对全球内存供求偏紧与价格暴涨。受全球服务器内存供应短缺影响,2026 年第一季度 DRAM 合约价环比大涨约 95%,且行业上升周期预计将持续到 2027 年底。受行业景气推动,长鑫存储在 2026 年第一季度营收同比暴增 700% 至 508 亿元,并实现 250 亿元净利润,成功扭亏为盈。除现有的合肥、北京三座 12 英寸晶圆厂、以及上海现有的 HBM 封装设施外,长鑫存储已在上海开工建设一座新的 DRAM 晶圆厂。新厂建成投产后,长鑫存储的 DRAM 月产能将从现有的 30 万片翻倍至 60 万片。
目前,中国国内互联网巨头正加速锁定本土半导体供应链。除腾讯外,长鑫存储目前也在与另外几家中国大型互联网公司接触,招股说明书披露的客户还包括阿里云、字节跳动、联想和小米。不过长鑫存储依然面临良率瓶颈,下一代 DDR5 内存产品在 2026 年第一季度曾遭遇良率偏低问题,暴露出与三星、SK 海力士等国际一线厂商的技术差距。
信源:https://www.reuters.com/world/china/chinas-cxmt-wins-3-billion-memory-supply-deal-with-tencent-sources-say-2026-06-29/
知情人士透露,中国内存芯片制造商长鑫存储已与腾讯签署了一项价值超 200 亿元人民币的长期服务器 DRAM 芯片供货协议。两名知情人士称协议期跨度长达 3 年,另一名消息源则指长达 5 年。目前尚不清楚协议是否包含对高性能 AI 芯片至关重要的 HBM 内存,但合作旨在为腾讯云服务、数据库及 AI 工作负载提供稳定的服务器内存支持。长鑫存储目前正筹备在上海证券交易所科创板进行首次公开募股 (IPO),计划募集 295 亿元人民币。
长鑫存储正通过大举扩产应对全球内存供求偏紧与价格暴涨。受全球服务器内存供应短缺影响,2026 年第一季度 DRAM 合约价环比大涨约 95%,且行业上升周期预计将持续到 2027 年底。受行业景气推动,长鑫存储在 2026 年第一季度营收同比暴增 700% 至 508 亿元,并实现 250 亿元净利润,成功扭亏为盈。除现有的合肥、北京三座 12 英寸晶圆厂、以及上海现有的 HBM 封装设施外,长鑫存储已在上海开工建设一座新的 DRAM 晶圆厂。新厂建成投产后,长鑫存储的 DRAM 月产能将从现有的 30 万片翻倍至 60 万片。
目前,中国国内互联网巨头正加速锁定本土半导体供应链。除腾讯外,长鑫存储目前也在与另外几家中国大型互联网公司接触,招股说明书披露的客户还包括阿里云、字节跳动、联想和小米。不过长鑫存储依然面临良率瓶颈,下一代 DDR5 内存产品在 2026 年第一季度曾遭遇良率偏低问题,暴露出与三星、SK 海力士等国际一线厂商的技术差距。
信源:https://www.reuters.com/world/china/chinas-cxmt-wins-3-billion-memory-supply-deal-with-tencent-sources-say-2026-06-29/
🥰2
贾扬清入职仅一年从英伟达离职,DGX Lepton运营表现未达预期
在英伟达以数亿美元收购 AI 初创公司 LeptonAI 仅一年后,LeptonAI 创始人(后担任英伟达系统软件副总裁)贾扬清已从英伟达离职。据 SemiAnalysis 爆料,双方决裂的主要原因在于英伟达首席执行官黄仁勋对 DGX Cloud Lepton 项目的运营表现不佳感到不满,且双方在产品执行力与开源承诺上存在分歧。
英伟达于 2025 年 4 月收购 LeptonAI,并于同年 6 月将平台重塑为 DGX Cloud Lepton 重新发布,定位为统一的 AI 算力市场。英伟达最初承诺在 2026 年前开源 LeptonAI 的核心软件平台,但截至目前仍未兑现。外界猜测,黄仁勋在收购后改变了主意,拒绝批准开源计划,而为期数年的股权归属期协议也未能留住贾扬清。
除内部文化与策略分歧外,以 Cursor 和 Claude Code 为代表的 AI 智能体编程工具的兴起,也在重塑中间件市场。编程工具降低了开发者构建应用时的工程门槛,稀释了 LeptonAI 等基础设施平台的工程价值。
贾扬清本月上旬受邀担任了 GPU 云服务商 Hyperbolic 的顾问。
信源:https://x.com/SemiAnalysis_/status/2071337888059408701
在英伟达以数亿美元收购 AI 初创公司 LeptonAI 仅一年后,LeptonAI 创始人(后担任英伟达系统软件副总裁)贾扬清已从英伟达离职。据 SemiAnalysis 爆料,双方决裂的主要原因在于英伟达首席执行官黄仁勋对 DGX Cloud Lepton 项目的运营表现不佳感到不满,且双方在产品执行力与开源承诺上存在分歧。
英伟达于 2025 年 4 月收购 LeptonAI,并于同年 6 月将平台重塑为 DGX Cloud Lepton 重新发布,定位为统一的 AI 算力市场。英伟达最初承诺在 2026 年前开源 LeptonAI 的核心软件平台,但截至目前仍未兑现。外界猜测,黄仁勋在收购后改变了主意,拒绝批准开源计划,而为期数年的股权归属期协议也未能留住贾扬清。
除内部文化与策略分歧外,以 Cursor 和 Claude Code 为代表的 AI 智能体编程工具的兴起,也在重塑中间件市场。编程工具降低了开发者构建应用时的工程门槛,稀释了 LeptonAI 等基础设施平台的工程价值。
贾扬清本月上旬受邀担任了 GPU 云服务商 Hyperbolic 的顾问。
信源:https://x.com/SemiAnalysis_/status/2071337888059408701
X (formerly Twitter)
SemiAnalysis (@SemiAnalysis_) on X
BREAKING NEWS: The Founder/CEO of LeptonAI has left only a year after LeptonAI’s acquisition. This is quite shocking, as Jensen reportedly spent $700M acquiring LeptonAI. What did he see? DGX Lepton flopped and got nowhere near the success Jensen expected.…