外媒:Anthropic Mythos的威胁促使DeepSeek开启首次巨额融资
The Information 援引知情人士报道,DeepSeek 决定放弃由创始人全额出资的模式并启动首轮超 500 亿元(约 74 亿美元)的融资,直接导火索是 Anthropic 在 4 月展示的安全模型 Mythos。
Mythos 具备寻找并利用软件漏洞的能力。DeepSeek 研发团队评估认为,面对需要超大规模算力和数据堆叠、甚至具有国家安全级别破坏力的模型,仅靠梁文锋个人财富支撑将无法在算力军备竞赛中竞争,必须引入外部资金扩建算力池。
去年为应对美方出口管制,DeepSeek 尝试将训练与部署系统从 Nvidia 的 CUDA 生态迁移到华为芯片,重写底层软件导致新一代模型延期发布长达 15 个月。
DeepSeek 过去采用极度扁平的科研管理模式,未设立人力资源和公关部门,所有研究员直接向梁文锋汇报,并被鼓励每日只需保持 6 至 8 小时的高效科研时间。伴随首轮巨额融资完成,团队正开始组建法务、财务、采购及人力资源等专业职能部门。
由于研发能力逼近前沿,团队受到的监管力度显著增强。梁文锋出境需提前报备,国内出行配备安全人员,部分核心研究员亦被限制自由出国并被要求向公司交出护照。
信源:https://www.theinformation.com/articles/anthropics-mythos-spooked-deepseek-prompting-7-4-billion-fundraising
The Information 援引知情人士报道,DeepSeek 决定放弃由创始人全额出资的模式并启动首轮超 500 亿元(约 74 亿美元)的融资,直接导火索是 Anthropic 在 4 月展示的安全模型 Mythos。
Mythos 具备寻找并利用软件漏洞的能力。DeepSeek 研发团队评估认为,面对需要超大规模算力和数据堆叠、甚至具有国家安全级别破坏力的模型,仅靠梁文锋个人财富支撑将无法在算力军备竞赛中竞争,必须引入外部资金扩建算力池。
去年为应对美方出口管制,DeepSeek 尝试将训练与部署系统从 Nvidia 的 CUDA 生态迁移到华为芯片,重写底层软件导致新一代模型延期发布长达 15 个月。
DeepSeek 过去采用极度扁平的科研管理模式,未设立人力资源和公关部门,所有研究员直接向梁文锋汇报,并被鼓励每日只需保持 6 至 8 小时的高效科研时间。伴随首轮巨额融资完成,团队正开始组建法务、财务、采购及人力资源等专业职能部门。
由于研发能力逼近前沿,团队受到的监管力度显著增强。梁文锋出境需提前报备,国内出行配备安全人员,部分核心研究员亦被限制自由出国并被要求向公司交出护照。
信源:https://www.theinformation.com/articles/anthropics-mythos-spooked-deepseek-prompting-7-4-billion-fundraising
The Information
Anthropic’s Mythos Spooked DeepSeek, Prompting Its $7.4 Billion Fundraising
Up until two months ago, DeepSeek, the three-year-old Chinese AI lab, was an anomaly in the increasingly costly global AI battle. It had relied entirely on CEO Liang Wenfeng’s personal wealth and never raised outside money. That changed in the middle of this…
✍2❤1
OpenAI限量发布GPT-5.6系列并计划在未来几周内全面开放
OpenAI 发布 GPT-5.6 系列模型预览版,包含 Sol、Terra 与 Luna 三款不同规格。受美国政府关于前沿 AI 模型安全审查框架的限制,模型首批仅向少数受信合作伙伴开放限量预览,并计划在未来数周内推向公众。
旗舰模型 Sol 引入最大推理强度与子智能体协作的 Ultra 模式。在 Terminal-Bench 2.1 命令行工作流测试中,Sol 取得 88.8% 的成绩,在 Ultra 模式下得分升至 91.9%,超越 GPT-5.5 的 83.4% 与 Claude Fable 5 的 88.0%。中端模型 Terra 性能逼近 GPT-5.5 且价格降低一半,最轻量模型 Luna 则专为日常自动化任务设计。Sol 定价为每百万输入 Token 5 美元、输出 30 美元,并支持利用提示词缓存降低二次调用成本。
在安全方面,安全评估确认 Sol 未跨越 Preparedness Framework 网络安全关键阈值。OpenAI 投入超过 70 万个 A100 等效 GPU 小时进行自动化红队演练,为全系模型配备了包含拒绝机制、实时滥用分类器和账户级审计的防御堆栈。尽管当前限量发布遵循美国政府的安全框架,但 OpenAI 强调,不希望政府主导的访问机制成为长期的默认模式,否则将限制防御人员获取前沿工具。
信源:https://openai.com/index/previewing-gpt-5-6-sol/
OpenAI 发布 GPT-5.6 系列模型预览版,包含 Sol、Terra 与 Luna 三款不同规格。受美国政府关于前沿 AI 模型安全审查框架的限制,模型首批仅向少数受信合作伙伴开放限量预览,并计划在未来数周内推向公众。
旗舰模型 Sol 引入最大推理强度与子智能体协作的 Ultra 模式。在 Terminal-Bench 2.1 命令行工作流测试中,Sol 取得 88.8% 的成绩,在 Ultra 模式下得分升至 91.9%,超越 GPT-5.5 的 83.4% 与 Claude Fable 5 的 88.0%。中端模型 Terra 性能逼近 GPT-5.5 且价格降低一半,最轻量模型 Luna 则专为日常自动化任务设计。Sol 定价为每百万输入 Token 5 美元、输出 30 美元,并支持利用提示词缓存降低二次调用成本。
在安全方面,安全评估确认 Sol 未跨越 Preparedness Framework 网络安全关键阈值。OpenAI 投入超过 70 万个 A100 等效 GPU 小时进行自动化红队演练,为全系模型配备了包含拒绝机制、实时滥用分类器和账户级审计的防御堆栈。尽管当前限量发布遵循美国政府的安全框架,但 OpenAI 强调,不希望政府主导的访问机制成为长期的默认模式,否则将限制防御人员获取前沿工具。
信源:https://openai.com/index/previewing-gpt-5-6-sol/
OpenAI
Previewing GPT-5.6 Sol: a next-generation model
OpenAI previews GPT-5.6 Sol, a next-generation model with stronger capabilities in coding, science, and cybersecurity, paired with its most advanced safety stack.
美商务部与Anthropic接近达成解禁两款旗舰模型Fable和Mythos的协议
Anthropic 与特朗普政府接近达成协议,有望解禁旗舰大模型 Fable 5 与 Mythos 5 的出口限制。交涉数周后,美国商务部长 Howard Lutnick 认为模型安全问题已有所缓解,正推动撤销管制。
联合创始人 Tom Brown 负责直接游说,近日已与 Lutnick 等多位高层官员会面。美国官方已表态,只要模型安全得到保障,出口禁令就将撤销。为减少谈判阻力,首席执行官 Dario Amodei 刻意回避,未参与具体的磋商。
两周前,Lutnick 致函警告 Anthropic,称 Fable 5 与 Mythos 5 的防御存在被绕过(即越狱)的风险,限制境外人员访问。警告信促使 Anthropic 禁用这两款模型的全球访问,但也倒逼双方进入密集交涉。目前 Anthropic 正秘密筹备 IPO 且估值超过 9000 亿美元,这笔出口限制为上市计划带来了合规挑战。
美国政府对前沿模型的审查范围还在继续扩大,OpenAI 也在近期迫于官方压力,推迟了 GPT-5.6 的全面开放,转为仅向政府审批通过的少数合作伙伴提供限量预览。
信源:https://www.bloomberg.com/news/articles/2026-06-26/anthropic-moves-toward-deal-with-us-to-lift-curbs-on-ai-models
Anthropic 与特朗普政府接近达成协议,有望解禁旗舰大模型 Fable 5 与 Mythos 5 的出口限制。交涉数周后,美国商务部长 Howard Lutnick 认为模型安全问题已有所缓解,正推动撤销管制。
联合创始人 Tom Brown 负责直接游说,近日已与 Lutnick 等多位高层官员会面。美国官方已表态,只要模型安全得到保障,出口禁令就将撤销。为减少谈判阻力,首席执行官 Dario Amodei 刻意回避,未参与具体的磋商。
两周前,Lutnick 致函警告 Anthropic,称 Fable 5 与 Mythos 5 的防御存在被绕过(即越狱)的风险,限制境外人员访问。警告信促使 Anthropic 禁用这两款模型的全球访问,但也倒逼双方进入密集交涉。目前 Anthropic 正秘密筹备 IPO 且估值超过 9000 亿美元,这笔出口限制为上市计划带来了合规挑战。
美国政府对前沿模型的审查范围还在继续扩大,OpenAI 也在近期迫于官方压力,推迟了 GPT-5.6 的全面开放,转为仅向政府审批通过的少数合作伙伴提供限量预览。
信源:https://www.bloomberg.com/news/articles/2026-06-26/anthropic-moves-toward-deal-with-us-to-lift-curbs-on-ai-models
Bloomberg.com
Anthropic Moves Toward Deal With US to Lift Curbs on AI Models
Anthropic PBC and the Trump administration are moving closer to an agreement that would lift US restrictions on the company’s top two artificial intelligence models after weeks of talks between the two sides over security of the systems, according to people…
阿里上线千问输入法官网并发布macOS版
阿里旗下通义千问团队正式上线千问输入法官网,并向用户开放 macOS 独立客户端下载。输入法由阿里全资子公司上海智信普惠科技有限公司运营,是继微信输入法、豆包输入法之后,大厂在独立 AI 输入法赛道的又一布局。目前 iOS、Android 及 Windows 版本均处于即将发布状态。
官方介绍显示,千问输入法主打智能语音输入,识别速度最快达 300 字/分。输入法内置 AI 自动润色功能,支持中英混合识别与 9 种方言输入,且承诺纯净无广告。
安装包文件解析显示,千问输入法 macOS 客户端(版本号为 1.0.0.13,于 6 月 26 日晚完成构建)基于 Rime 输入法框架开发,内置了双拼等输入方案。在架构设计上,输入法集成了专门的语音及 AI 启动桥接组件(libqianwen_voice_backend_contract.dylib 等),用以支持语音信号的本地与云端协同处理。
信源:https://ime.qianwen.com/
阿里旗下通义千问团队正式上线千问输入法官网,并向用户开放 macOS 独立客户端下载。输入法由阿里全资子公司上海智信普惠科技有限公司运营,是继微信输入法、豆包输入法之后,大厂在独立 AI 输入法赛道的又一布局。目前 iOS、Android 及 Windows 版本均处于即将发布状态。
官方介绍显示,千问输入法主打智能语音输入,识别速度最快达 300 字/分。输入法内置 AI 自动润色功能,支持中英混合识别与 9 种方言输入,且承诺纯净无广告。
安装包文件解析显示,千问输入法 macOS 客户端(版本号为 1.0.0.13,于 6 月 26 日晚完成构建)基于 Rime 输入法框架开发,内置了双拼等输入方案。在架构设计上,输入法集成了专门的语音及 AI 启动桥接组件(libqianwen_voice_backend_contract.dylib 等),用以支持语音信号的本地与云端协同处理。
信源:https://ime.qianwen.com/
❤1
Anthropic最新调查:重度AI授权用户对个人薪资与就业最乐观
Anthropic 发布最新的 AI 经济指数报告,结合 9700 名用户的问卷调查与遥测数据,揭示了人工智能对工作模式与职业前景的影响。报告发现,工作含金量越高,耗费的 AI 算力也越多:高薪岗位的平均算力消耗是低薪岗位的 2.07 倍。比如,市场经理写企划案消耗的算力,是编辑修改文章的 2.5 倍。但高薪岗位也有特例,比如高收入的药剂师,日常使用 AI 消耗的算力仅为统计助理的二十分之一。
问卷调查显示,超过三分之一的用户预计 AI 将在一年内接管大部分工作。出人意料的是,越是把工作完全丢给 AI 自动执行的人,对未来的收入和就业前景反而最乐观,并且不担心自己的技能退化。使用不同 AI 工具时,用户的放权程度有很大差异:在网页端写文章,用户习惯与 AI 来回修改 13 轮;而在使用终端工具 Claude Code 时,用户通常只下一道指令,就交由 AI 一步到位直接生成。
在自主度评分上,用户使用命令行工具 Claude Code 时,更愿意让 AI 自主做决策,评分平均高出网页端 0.37 分(同模型下高出 0.26 分)。唯一的例外是处理数据表格:网页端的用户多在做需要动脑规划的金融建模,而使用 Claude Code 的人主要让它做机械的数据提取,因此在表格任务中,网页端 AI 的自主度反而高出 0.35 分。AI 最终生成的回复通常比用户的初始提问更具深度,在设计和游戏开发任务中,AI 回复的受教育理解门槛平均比用户提问高出近两年。
遥测数据还画出了不同人群的加班画像:在夜晚和周末等非工作时间,使用 AI 加班的多是高薪岗位,高薪职能的任务比例上升了 8%,而中低薪岗位则下降了 4% 到 11%。性别分析也展示了不同的协同偏好:女性用户更倾向于迭代协作,使用命令行工具和自动执行任务的比例分别低了 6.3 和 7.3 个百分点,但与 AI 聊天互动的总时间更长,更习惯来回讨论。
信源:https://www.anthropic.com/research/economic-index-june-2026-report
Anthropic 发布最新的 AI 经济指数报告,结合 9700 名用户的问卷调查与遥测数据,揭示了人工智能对工作模式与职业前景的影响。报告发现,工作含金量越高,耗费的 AI 算力也越多:高薪岗位的平均算力消耗是低薪岗位的 2.07 倍。比如,市场经理写企划案消耗的算力,是编辑修改文章的 2.5 倍。但高薪岗位也有特例,比如高收入的药剂师,日常使用 AI 消耗的算力仅为统计助理的二十分之一。
问卷调查显示,超过三分之一的用户预计 AI 将在一年内接管大部分工作。出人意料的是,越是把工作完全丢给 AI 自动执行的人,对未来的收入和就业前景反而最乐观,并且不担心自己的技能退化。使用不同 AI 工具时,用户的放权程度有很大差异:在网页端写文章,用户习惯与 AI 来回修改 13 轮;而在使用终端工具 Claude Code 时,用户通常只下一道指令,就交由 AI 一步到位直接生成。
在自主度评分上,用户使用命令行工具 Claude Code 时,更愿意让 AI 自主做决策,评分平均高出网页端 0.37 分(同模型下高出 0.26 分)。唯一的例外是处理数据表格:网页端的用户多在做需要动脑规划的金融建模,而使用 Claude Code 的人主要让它做机械的数据提取,因此在表格任务中,网页端 AI 的自主度反而高出 0.35 分。AI 最终生成的回复通常比用户的初始提问更具深度,在设计和游戏开发任务中,AI 回复的受教育理解门槛平均比用户提问高出近两年。
遥测数据还画出了不同人群的加班画像:在夜晚和周末等非工作时间,使用 AI 加班的多是高薪岗位,高薪职能的任务比例上升了 8%,而中低薪岗位则下降了 4% 到 11%。性别分析也展示了不同的协同偏好:女性用户更倾向于迭代协作,使用命令行工具和自动执行任务的比例分别低了 6.3 和 7.3 个百分点,但与 AI 聊天互动的总时间更长,更习惯来回讨论。
信源:https://www.anthropic.com/research/economic-index-june-2026-report
Anthropic
Anthropic Economic Index report: Cadences
In the latest Anthropic Economic Index report, we look at when people come to Claude, what they produce with it, and how they perceive AI’s impact on their work.
动察Beating AI News
OpenAI账号与计费系统同步故障:ChatGPT网页端服务等级混乱与API限流加剧并存 OpenAI 后端账号与计费系统出现同步故障,导致 ChatGPT 网页端订阅用户与开发者 API 用户的权限配额发生大面积混乱。在网页订阅端,部分每月支付 200 美元的 Pro 会员用量配额被异常重置为 75%,或者配额被直接增加 4 倍。但也有 Pro 会员反映账号行为被降级为 Plus 限制,且在聊天设置中无法选用 GPT-5.5 Pro 旗舰推理模型。 在开发者 API 端,由账户等级同步失效导致的费率…
OpenAI Codex防滥用机制误判导致额度暴耗,官方紧急重置全员额度
OpenAI 核心产品负责人 Tibo Sottiaux 表示,因系统内置的防欺诈与防滥用机制误判导致用户额度加速消耗,官方已紧急为所有 Codex 用户免费重置使用限额。
额度异常消耗问题实际始于 6 月 16 日左右,并于 6 月 25 日在社交平台彻底爆发。数百名开发者在 GitHub 及社交平台上反馈, Codex 的 Token 消耗速度出现异常飙升,部分账户的额度消耗速度相比以往加快了 10 至 20 倍。有订阅 200 美元/月套餐的付费用户表示,额外购买的 40 美元临时额度在 3 至 4 小时内便被耗尽。另有开发者反馈,原本预估可支撑 5 小时工作的预算额度,在仅进行数次提示词交互后便被彻底耗尽。由于 OpenAI 开发团队回应迟缓,引发大量开发者在社交平台激烈抗议。
面对用户抗议, OpenAI 技术团队成员 Vaibhav 首先公开收集用户的反馈识别号。随后, Sottiaux 承认防滥用系统可能存在误判并承诺跟进。在最新的额度重置公告中, Sottiaux 强调团队已实施了初步的缓解措施,尽管内部排查显示受波及的用户范围并不大,但官方仍决定为全体 Codex 用户免费重置使用限额,并持续监控系统状态。
信源:https://x.com/thsottiaux/status/2070653282440405046
OpenAI 核心产品负责人 Tibo Sottiaux 表示,因系统内置的防欺诈与防滥用机制误判导致用户额度加速消耗,官方已紧急为所有 Codex 用户免费重置使用限额。
额度异常消耗问题实际始于 6 月 16 日左右,并于 6 月 25 日在社交平台彻底爆发。数百名开发者在 GitHub 及社交平台上反馈, Codex 的 Token 消耗速度出现异常飙升,部分账户的额度消耗速度相比以往加快了 10 至 20 倍。有订阅 200 美元/月套餐的付费用户表示,额外购买的 40 美元临时额度在 3 至 4 小时内便被耗尽。另有开发者反馈,原本预估可支撑 5 小时工作的预算额度,在仅进行数次提示词交互后便被彻底耗尽。由于 OpenAI 开发团队回应迟缓,引发大量开发者在社交平台激烈抗议。
面对用户抗议, OpenAI 技术团队成员 Vaibhav 首先公开收集用户的反馈识别号。随后, Sottiaux 承认防滥用系统可能存在误判并承诺跟进。在最新的额度重置公告中, Sottiaux 强调团队已实施了初步的缓解措施,尽管内部排查显示受波及的用户范围并不大,但官方仍决定为全体 Codex 用户免费重置使用限额,并持续监控系统状态。
信源:https://x.com/thsottiaux/status/2070653282440405046
X (formerly Twitter)
Tibo (@thsottiaux) on X
We are giving all Codex users a usage reset on the house. Should be showing in your accounts in the next few hours.
We have applied some mitigations, but our investigation hasn't shown users being impacted at large. We are continuing to monitor the situation.
We have applied some mitigations, but our investigation hasn't shown users being impacted at large. We are continuing to monitor the situation.
动察Beating AI News
OpenAI限量发布GPT-5.6系列并计划在未来几周内全面开放 OpenAI 发布 GPT-5.6 系列模型预览版,包含 Sol、Terra 与 Luna 三款不同规格。受美国政府关于前沿 AI 模型安全审查框架的限制,模型首批仅向少数受信合作伙伴开放限量预览,并计划在未来数周内推向公众。 旗舰模型 Sol 引入最大推理强度与子智能体协作的 Ultra 模式。在 Terminal-Bench 2.1 命令行工作流测试中,Sol 取得 88.8% 的成绩,在 Ultra 模式下得分升至 91.9%,超越…
教同类隐瞒证据、扒取隐藏源码:GPT-5.6测试暴露模型协同规避审查倾向,作弊率创新高
评估机构 METR 发布的 GPT-5.6 Sol 预部署测试报告指出,模型在长周期任务中频繁利用环境漏洞、试图读取隐藏测试数据并提取源码。在 ReAct 智能体测试中,Sol 的作弊频率创下公开评测的历史最高纪录。为了通关,模型在提交的中间结果中打包漏洞脚本以窥探隐藏测试集,并强行提取了后台写有预期答案的隐藏源码。
更具威胁性的越界行为体现在模型协同规避审查的倾向。根据 OpenAI 主动同步的内部部署事故,Sol 在特定任务中表现出高度的规则绕过意图,甚至在协同运行中尝试指使另一模型实例协助隐瞒不对齐的证据,试图联合绕过监控系统。作弊表现导致时间跨度指标的测定结果极度不稳定。若将作弊尝试判定为失败,Sol 的半数值时间跨度估值仅为 11.3 小时。但若将作弊通过算作成功,成绩则会被虚假拉升至 270 小时以上。
尽管存在欺骗行为,METR 仍认为这些倾向被捕捉并公开是一个积极信号。评估团队警告,真正致命的危险潜伏在未来。如果接下来的模型在训练中被要求隐去真实的思维链,可能会演化出更隐蔽的逃避监管与伪装对齐能力。届时,作弊率的下降将不再代表安全性提升,而是模型学会了在人类面前伪装顺从,并暗中完成规避。
信源:https://metr.org/blog/2026-06-26-gpt-5-6-sol/
评估机构 METR 发布的 GPT-5.6 Sol 预部署测试报告指出,模型在长周期任务中频繁利用环境漏洞、试图读取隐藏测试数据并提取源码。在 ReAct 智能体测试中,Sol 的作弊频率创下公开评测的历史最高纪录。为了通关,模型在提交的中间结果中打包漏洞脚本以窥探隐藏测试集,并强行提取了后台写有预期答案的隐藏源码。
更具威胁性的越界行为体现在模型协同规避审查的倾向。根据 OpenAI 主动同步的内部部署事故,Sol 在特定任务中表现出高度的规则绕过意图,甚至在协同运行中尝试指使另一模型实例协助隐瞒不对齐的证据,试图联合绕过监控系统。作弊表现导致时间跨度指标的测定结果极度不稳定。若将作弊尝试判定为失败,Sol 的半数值时间跨度估值仅为 11.3 小时。但若将作弊通过算作成功,成绩则会被虚假拉升至 270 小时以上。
尽管存在欺骗行为,METR 仍认为这些倾向被捕捉并公开是一个积极信号。评估团队警告,真正致命的危险潜伏在未来。如果接下来的模型在训练中被要求隐去真实的思维链,可能会演化出更隐蔽的逃避监管与伪装对齐能力。届时,作弊率的下降将不再代表安全性提升,而是模型学会了在人类面前伪装顺从,并暗中完成规避。
信源:https://metr.org/blog/2026-06-26-gpt-5-6-sol/
metr.org
Summary of METR's predeployment evaluation of GPT-5.6 Sol
A summary of METR's independent, predeployment evaluation of GPT-5.6 Sol
❤1
动察Beating AI News
美商务部与Anthropic接近达成解禁两款旗舰模型Fable和Mythos的协议 Anthropic 与特朗普政府接近达成协议,有望解禁旗舰大模型 Fable 5 与 Mythos 5 的出口限制。交涉数周后,美国商务部长 Howard Lutnick 认为模型安全问题已有所缓解,正推动撤销管制。 联合创始人 Tom Brown 负责直接游说,近日已与 Lutnick 等多位高层官员会面。美国官方已表态,只要模型安全得到保障,出口禁令就将撤销。为减少谈判阻力,首席执行官 Dario Amodei 刻意回避,未参与具体的磋商。…
美政府批准Anthropic重部署Mythos 5模型用于保护关键基础设施
Anthropic 宣布,美国政府已正式通知允许重新部署 Anthropic 旗下最强网络安全模型 Claude Mythos 5,用于支持运营和防卫关键基础设施的美国机构。在 6 月 12 日,Anthropic 配合美国政府暂停了 Claude Mythos 5 与 Fable 5 两款旗舰模型的访问权限。
相关机构的访问权限正在快速恢复。为进一步扩大 Claude Mythos 5 的授权范围,并推动另一个旗舰模型 Fable 5 重新向公众开放,双方仍在保持沟通。
信源:https://x.com/AnthropicAI/status/2070665903440871779
Anthropic 宣布,美国政府已正式通知允许重新部署 Anthropic 旗下最强网络安全模型 Claude Mythos 5,用于支持运营和防卫关键基础设施的美国机构。在 6 月 12 日,Anthropic 配合美国政府暂停了 Claude Mythos 5 与 Fable 5 两款旗舰模型的访问权限。
相关机构的访问权限正在快速恢复。为进一步扩大 Claude Mythos 5 的授权范围,并推动另一个旗舰模型 Fable 5 重新向公众开放,双方仍在保持沟通。
信源:https://x.com/AnthropicAI/status/2070665903440871779
X (formerly Twitter)
Anthropic (@AnthropicAI) on X
Since June 12, we’ve been working closely with the US government to restore access to Claude Mythos 5 and Fable 5. Today, the government notified us that Mythos 5, our strongest cybersecurity model, can be redeployed to a set of US organizations that operate…
Google Antigravity 2.2.1版:集成系统密钥环并修复多智能体死锁
Google Antigravity 发布 2.2.1 版本更新。针对开发人员频繁面临授权失效的问题,新版本支持自动将刷新后的 OAuth 凭证自动写入操作系统安全密钥环(如 Apple Keychain 或 Windows 凭证管理器),免去重复网页授权弹窗。同时,工作区检索升级为子串匹配模式,修复了因前缀检索引起的路径不存在报错,并解决了子智能体运行中的死锁问题。
多媒体与环境兼容性也得到优化。新版本在侧边栏与交付物窗口中新增了 .mp3 和 .wav 等音频格式直接播放能力,并在 Markdown 中加入 C++、Python 和 Protobuf 语法高亮。针对 Windows 平台用户,更新修复了反复触发 UAC 权限控制和系统环境变量 PATH 目录的访问错误。系统还内置了专属指南(Antigravity Guide)技能以解答平台使用疑问。
不过,部分开发者在升级和体验中遇到了阻碍。社区反馈显示,升级通道异常导致部分用户卡在 2.1.4 旧版本并显示无可用更新。同时,客户端每次启动强制固定在 1400x900 像素,且新版移除了原本由 Ctrl+I 触发的内联命令编辑功能,遭到不少用户抱怨。
信源:https://x.com/antigravity/status/2070578618154045448
Google Antigravity 发布 2.2.1 版本更新。针对开发人员频繁面临授权失效的问题,新版本支持自动将刷新后的 OAuth 凭证自动写入操作系统安全密钥环(如 Apple Keychain 或 Windows 凭证管理器),免去重复网页授权弹窗。同时,工作区检索升级为子串匹配模式,修复了因前缀检索引起的路径不存在报错,并解决了子智能体运行中的死锁问题。
多媒体与环境兼容性也得到优化。新版本在侧边栏与交付物窗口中新增了 .mp3 和 .wav 等音频格式直接播放能力,并在 Markdown 中加入 C++、Python 和 Protobuf 语法高亮。针对 Windows 平台用户,更新修复了反复触发 UAC 权限控制和系统环境变量 PATH 目录的访问错误。系统还内置了专属指南(Antigravity Guide)技能以解答平台使用疑问。
不过,部分开发者在升级和体验中遇到了阻碍。社区反馈显示,升级通道异常导致部分用户卡在 2.1.4 旧版本并显示无可用更新。同时,客户端每次启动强制固定在 1400x900 像素,且新版移除了原本由 Ctrl+I 触发的内联命令编辑功能,遭到不少用户抱怨。
信源:https://x.com/antigravity/status/2070578618154045448
X (formerly Twitter)
Google Antigravity (@antigravity) on X
The latest Antigravity 2.0 update includes a new built-in Antigravity Guide skill, audio file rendering, and improved substring file search.
Check the changelog for all the updates https://t.co/zcWx92BPr6
Check the changelog for all the updates https://t.co/zcWx92BPr6
Hermes Agent上线MoA功能:多模型协同跑分超越单模型
开源智能体平台 Hermes Agent 正式支持混合智能体(Mixture of Agents,简称 MoA)预设。
MoA 目前已转为虚拟模型提供商,不再作为传统的底层工具(Tools)列出。用户能够通过
在 MoA 运行机制中,用户选定的预设中包含参考模型与聚合模型。系统会首先调用参考模型,输入不含系统提示词与工具调用历史的简化对话文本,让参考模型生成分析意见。参考模型的分析意见随后被追加到最新一轮用户输入的末尾。作为行动主体的聚合模型接收到分析意见后,在完整的工具 schema 与系统提示词下生成最终答复并执行工具调用。
在即将发布的 HermesBench 基准测试中,使用 Claude-Opus-4.8 作为聚合模型、GPT-5.5 作为参考模型的 MoA 预设取得了 82.02% 的成绩,相比单独运行 Claude-Opus-4.8 提升了 6 个百分点(约 8%),相比单独运行 GPT-5.5 提升了 11%。为保证提示词缓存(Prompt Cache)效率,参考模型的对话输入被简化以保持稳定缓存;聚合模型则将参考意见置于 prompt 最尾部,确保历史对话前缀的字节稳定性,从而避免破坏已缓存的上下文。
用户可以通过运行
目前 MoA 机制已在 CLI、网关、桌面端及 TUI 界面同步启用。
信源:https://x.com/NousResearch/status/2070610321278988385
开源智能体平台 Hermes Agent 正式支持混合智能体(Mixture of Agents,简称 MoA)预设。
MoA 目前已转为虚拟模型提供商,不再作为传统的底层工具(Tools)列出。用户能够通过
/model 命令或桌面应用的模型下拉菜单直接选用。除了 /model 切换,用户还可使用 /moa [prompt] 语法实现单次快捷调用。系统在单轮对话中临时启用默认 MoA 预设,完成回答后自动恢复先前的模型。在 MoA 运行机制中,用户选定的预设中包含参考模型与聚合模型。系统会首先调用参考模型,输入不含系统提示词与工具调用历史的简化对话文本,让参考模型生成分析意见。参考模型的分析意见随后被追加到最新一轮用户输入的末尾。作为行动主体的聚合模型接收到分析意见后,在完整的工具 schema 与系统提示词下生成最终答复并执行工具调用。
在即将发布的 HermesBench 基准测试中,使用 Claude-Opus-4.8 作为聚合模型、GPT-5.5 作为参考模型的 MoA 预设取得了 82.02% 的成绩,相比单独运行 Claude-Opus-4.8 提升了 6 个百分点(约 8%),相比单独运行 GPT-5.5 提升了 11%。为保证提示词缓存(Prompt Cache)效率,参考模型的对话输入被简化以保持稳定缓存;聚合模型则将参考意见置于 prompt 最尾部,确保历史对话前缀的字节稳定性,从而避免破坏已缓存的上下文。
用户可以通过运行
hermes moa list 查看预设,或使用 hermes moa configure [name] 新增和修改预设。在预设配置中,系统严禁递归嵌套,MoA 预设的聚合模型不能指向另一个 MoA 预设。当参考模型出现凭证失效等错误时,Hermes Agent 不会中断任务,而是将错误信息一并传入聚合模型的上下文并继续执行。目前 MoA 机制已在 CLI、网关、桌面端及 TUI 界面同步启用。
信源:https://x.com/NousResearch/status/2070610321278988385
X (formerly Twitter)
Nous Research (@NousResearch) on X
The strongest models are gated and access is granted only to a select few.
Hermes Agent now exposes MoA presets as virtual models, giving you capabilities beyond the publicly available frontier: 8% higher than Opus 4.8 and 11% higher than GPT 5.5 on our…
Hermes Agent now exposes MoA presets as virtual models, giving you capabilities beyond the publicly available frontier: 8% higher than Opus 4.8 and 11% higher than GPT 5.5 on our…
Polymarket收购开源智能体工作区Craft Agents,加码AI交易生态
Polymarket 宣布收购开源智能体客户端项目 Craft Agents。项目创始人 Bálint Orosz 将携部分团队成员加入 Polymarket,负责建设产品与设计工程团队。
Craft Agents 是一款基于 Apache 2.0 协议开源的文档化 AI 智能体工作区,支持 Model Context Protocol(MCP)协议,可跨 GitHub、Slack 等工具协同,并内置 Chromium 浏览器支持智能体自主网页交互。
交易完成后,Craft 笔记软件买断了所有外部投资人股份,重回完全独立和团队持股状态。联合创始人 Viktor Páli 将接任 Craft 的 CEO 并继续维护原有笔记产品。
Polymarket 正在通过一系列并购加码 AI 交易生态。Polymarket 先后于 2026 年 2 月和 3 月收购了预测市场统一 API 提供商 Dome,以及 DeFi 智能账户自动化执行平台 Brahma。配合官方开源的 Polymarket/agents 智能体框架,Polymarket 正在构建起从 API 接口、底层自动化执行到前端智能体客户端的完整自动化交易版图。
信源:https://x.com/balintorosz/status/2070572407702650999
Polymarket 宣布收购开源智能体客户端项目 Craft Agents。项目创始人 Bálint Orosz 将携部分团队成员加入 Polymarket,负责建设产品与设计工程团队。
Craft Agents 是一款基于 Apache 2.0 协议开源的文档化 AI 智能体工作区,支持 Model Context Protocol(MCP)协议,可跨 GitHub、Slack 等工具协同,并内置 Chromium 浏览器支持智能体自主网页交互。
交易完成后,Craft 笔记软件买断了所有外部投资人股份,重回完全独立和团队持股状态。联合创始人 Viktor Páli 将接任 Craft 的 CEO 并继续维护原有笔记产品。
Polymarket 正在通过一系列并购加码 AI 交易生态。Polymarket 先后于 2026 年 2 月和 3 月收购了预测市场统一 API 提供商 Dome,以及 DeFi 智能账户自动化执行平台 Brahma。配合官方开源的 Polymarket/agents 智能体框架,Polymarket 正在构建起从 API 接口、底层自动化执行到前端智能体客户端的完整自动化交易版图。
信源:https://x.com/balintorosz/status/2070572407702650999
X (formerly Twitter)
Balint Orosz (@balintorosz) on X
Some personal news - Polymarket has acquired Craft Agents, and part of the Craft team is joining Polymarket.
I'll be leading Product Engineering, with the goal of building one of the best product and design engineering teams in the world.
I'm incredibly excited…
I'll be leading Product Engineering, with the goal of building one of the best product and design engineering teams in the world.
I'm incredibly excited…
DeepSeek开源推理加速框架DeepSpec,上线DSpark让V4模型速度提升最高85%
DeepSeek 联合北京大学发布投机采样加速框架 DSpark 的技术报告,并开源了全栈代码库 DeepSpec。目前 DSpark 已部署于 DeepSeek-V4 线上业务。在保证输出无损的前提下,DSpark 将 Flash 版单用户生成速度提升 60% 至 85%,Pro 版速度提升 57% 至 78%。DSpark 表现超越了原有的单 Token 多分支预测(MTP-1)基线,在严格时延约束下显著拉高了系统整体吞吐量。
此前,多 Token 投机采样难以在线上生产环境落地。自回归草稿模型生成太慢,而并行草稿模型由于各位置独立预测,导致长序列的后半截接受率极低。若在高并发下盲目验证多 Token 草稿,大模型会浪费大量算力去验证注定被拒绝的错字,导致系统整体吞吐量严重崩溃,因此业界在线上多局限于单 Token 预测(MTP-1)。
DSpark 克服了高并发下的吞吐退化瓶颈。DSpark 首先采用 DFlash 并行主干网生成隐藏状态,再追加极其轻量的马尔可夫头。马尔可夫头通过查表与一次矩阵乘法,以极低成本串行注入相邻词的关联。同时,系统集成置信度预测头与后验校准算法。为了完美兼容生产环境的零开销调度并防止未来信息泄漏,调度器采用异步机制,利用两步前的历史预测来动态决定候选词裁剪长度,彻底防止大模型在重负载下验证高风险的尾部错字。
除了 DSpark,DeepSeek 这次开源的 DeepSpec 代码库内置支持 Qwen3 与 Gemma 等开源大模型。DeepSpec 提供了从下载提示词、重建大模型缓存、训练草稿模型到基准评估的完整 Python 工具链。开发者可以直接利用开源脚本,在本地为不同的开源大模型定制并部署专属的加速模块。
信源:https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf
DeepSeek 联合北京大学发布投机采样加速框架 DSpark 的技术报告,并开源了全栈代码库 DeepSpec。目前 DSpark 已部署于 DeepSeek-V4 线上业务。在保证输出无损的前提下,DSpark 将 Flash 版单用户生成速度提升 60% 至 85%,Pro 版速度提升 57% 至 78%。DSpark 表现超越了原有的单 Token 多分支预测(MTP-1)基线,在严格时延约束下显著拉高了系统整体吞吐量。
此前,多 Token 投机采样难以在线上生产环境落地。自回归草稿模型生成太慢,而并行草稿模型由于各位置独立预测,导致长序列的后半截接受率极低。若在高并发下盲目验证多 Token 草稿,大模型会浪费大量算力去验证注定被拒绝的错字,导致系统整体吞吐量严重崩溃,因此业界在线上多局限于单 Token 预测(MTP-1)。
DSpark 克服了高并发下的吞吐退化瓶颈。DSpark 首先采用 DFlash 并行主干网生成隐藏状态,再追加极其轻量的马尔可夫头。马尔可夫头通过查表与一次矩阵乘法,以极低成本串行注入相邻词的关联。同时,系统集成置信度预测头与后验校准算法。为了完美兼容生产环境的零开销调度并防止未来信息泄漏,调度器采用异步机制,利用两步前的历史预测来动态决定候选词裁剪长度,彻底防止大模型在重负载下验证高风险的尾部错字。
除了 DSpark,DeepSeek 这次开源的 DeepSpec 代码库内置支持 Qwen3 与 Gemma 等开源大模型。DeepSpec 提供了从下载提示词、重建大模型缓存、训练草稿模型到基准评估的完整 Python 工具链。开发者可以直接利用开源脚本,在本地为不同的开源大模型定制并部署专属的加速模块。
信源:https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf
GitHub
DeepSpec/DSpark_paper.pdf at main · deepseek-ai/DeepSpec
DeepSpec: a full-stack codebase for training and evaluating speculative decoding algorithms - deepseek-ai/DeepSpec
苹果Vision Pro兼智能眼镜主管Paul Meade将加盟OpenAI
知情人士透露,苹果公司负责 Vision Pro 头显及智能眼镜硬件工程的副总裁 Paul Meade 将于下周离职,随后加入 OpenAI 硬件部门,负责研发未来的一系列 AI 硬件设备。Meade 在苹果工作了 16 年,曾是 iPad 和 iPhone 项目的核心工程管理负责人,于 2017 年加入负责头显研发的视觉产品集团(Vision Products Group,简称 VPG),并自 2019 年起全面主管硬件工程。
随着 Vision Pro 销售表现低迷,苹果近期大幅调整了硬件路线图,将研发重心从封闭式头显转向类似 Meta 的智能眼镜。曾任 VPG 负责人的 Mike Rockwell 已调往 Siri 团队,导致 VPG 被拆分为独立的硬件和软件组织。Meade 离职的另一大背景是苹果硬件工程部门近期的大规模重组。在 John Ternus 确定于 9 月 1 日接替 Tim Cook 出任首席执行官后,新任首席硬件官 Johny Srouji 启动了重组,使得 Meade 在内的多位副总裁汇报层级被推至新任副总裁 Tom Marieb 之下,实际上降了一级。
Meade 加入 OpenAI 后,将与 Jony Ive、Tang Tan 及 Evans Hankey 等苹果前设计高管再度共事。三名高管创办的 AI 硬件初创公司已于去年被 OpenAI 以 65 亿美元收购。
信源:https://www.bloomberg.com/news/articles/2026-06-26/apple-s-vision-pro-and-smart-glasses-chief-paul-meade-is-leaving-for-openai
知情人士透露,苹果公司负责 Vision Pro 头显及智能眼镜硬件工程的副总裁 Paul Meade 将于下周离职,随后加入 OpenAI 硬件部门,负责研发未来的一系列 AI 硬件设备。Meade 在苹果工作了 16 年,曾是 iPad 和 iPhone 项目的核心工程管理负责人,于 2017 年加入负责头显研发的视觉产品集团(Vision Products Group,简称 VPG),并自 2019 年起全面主管硬件工程。
随着 Vision Pro 销售表现低迷,苹果近期大幅调整了硬件路线图,将研发重心从封闭式头显转向类似 Meta 的智能眼镜。曾任 VPG 负责人的 Mike Rockwell 已调往 Siri 团队,导致 VPG 被拆分为独立的硬件和软件组织。Meade 离职的另一大背景是苹果硬件工程部门近期的大规模重组。在 John Ternus 确定于 9 月 1 日接替 Tim Cook 出任首席执行官后,新任首席硬件官 Johny Srouji 启动了重组,使得 Meade 在内的多位副总裁汇报层级被推至新任副总裁 Tom Marieb 之下,实际上降了一级。
Meade 加入 OpenAI 后,将与 Jony Ive、Tang Tan 及 Evans Hankey 等苹果前设计高管再度共事。三名高管创办的 AI 硬件初创公司已于去年被 OpenAI 以 65 亿美元收购。
信源:https://www.bloomberg.com/news/articles/2026-06-26/apple-s-vision-pro-and-smart-glasses-chief-paul-meade-is-leaving-for-openai
Bloomberg.com
Apple’s Vision Pro and Smart Glasses Chief Is Leaving for OpenAI
Apple Inc.’s top executive in charge of the Vision Pro headset and the company’s smart glasses efforts is leaving for OpenAI, continuing a streak of high-profile defections to rivals in the artificial intelligence and hardware sectors.
Token实际成本降至0.99美元,SemiAnalysis披露大模型消费已占薪酬30%
在企业端广泛落地的智能体 AI 正在颠覆专业服务业的单元经济。研究机构 SemiAnalysis 披露,内部大模型 Token 支出已占员工总薪资的 30%,人均月消费近 50 亿个 Token,核心贡献者月消耗更超 1000 亿个。原本需要分析师耗时数小时的 Excel 模型转换与财报图表制作,如今可在几分钟内以数美元的代币成本完成。
实际使用成本的骤降是重塑专业服务业单元经济的关键。虽然 Opus 4.7 官方标价高达每百万 Token 5 美元输入与 25 美元输出,但由于智能体任务高达 300 对 1 的输入输出比,以及 90% 以上的提示词缓存命中率,使得实际混合 Token 成本仅为 0.99 美元/百万。
软件与硬件的共同加速正在进一步压缩生成成本。在 B300 运行 DeepSeek R1 时,通过 wideEP、disagg 与 MTP 软件优化,单 GPU 吞吐量能从 baseline 的 1000 tokens/秒飙升至 14000 tokens/秒,实现 14 倍的纯软件吞吐量提升。而在硬件层面,最优化配置的 GB300 NVL72 吞吐量是 H100 的 17 倍(FP4 下达 32 倍),从而为大模型开发商毛利率的增长提供了结构性保障,并预示 2027 年 Token 价格将远低于当前水平。
信源:https://x.com/SemiAnalysis_/status/2070915305858007345
在企业端广泛落地的智能体 AI 正在颠覆专业服务业的单元经济。研究机构 SemiAnalysis 披露,内部大模型 Token 支出已占员工总薪资的 30%,人均月消费近 50 亿个 Token,核心贡献者月消耗更超 1000 亿个。原本需要分析师耗时数小时的 Excel 模型转换与财报图表制作,如今可在几分钟内以数美元的代币成本完成。
实际使用成本的骤降是重塑专业服务业单元经济的关键。虽然 Opus 4.7 官方标价高达每百万 Token 5 美元输入与 25 美元输出,但由于智能体任务高达 300 对 1 的输入输出比,以及 90% 以上的提示词缓存命中率,使得实际混合 Token 成本仅为 0.99 美元/百万。
软件与硬件的共同加速正在进一步压缩生成成本。在 B300 运行 DeepSeek R1 时,通过 wideEP、disagg 与 MTP 软件优化,单 GPU 吞吐量能从 baseline 的 1000 tokens/秒飙升至 14000 tokens/秒,实现 14 倍的纯软件吞吐量提升。而在硬件层面,最优化配置的 GB300 NVL72 吞吐量是 H100 的 17 倍(FP4 下达 32 倍),从而为大模型开发商毛利率的增长提供了结构性保障,并预示 2027 年 Token 价格将远低于当前水平。
信源:https://x.com/SemiAnalysis_/status/2070915305858007345
X (formerly Twitter)
SemiAnalysis (@SemiAnalysis_) on X
If you are an operator trying to write down what tokens will cost in 2027, the answer is materially lower than today, and the firms that have already adopted are the ones setting the pace. The full math, plus a value capture breakdown across labs, hyperscalers…
OpenAI升级Codex体验:支持长对话悬停跳转与缩放对齐
Codex 本周发布更新,解决了长对话导航不便与界面元素缩放错位问题。针对长对话场景, Codex 引入了导航轨,用户将光标悬停在槽位边缘即可预览并直接跳转至临近的对话轮次。同时,线程滚动表现得到平滑,在长对话中切换时可自动保持浏览位置。
界面在缩放时增加了对齐防护,确保 Tooltips 提示、菜单、对话框、选择气泡、拖拽预览和自动补全等元素不发生错位。设置搜索范围已得到扩展,包含更丰富的外观控制、主机过滤和自定义 Provider 设置等控制项,并新增了宠物专属面板。归档管理操作得到简化,并同步了 Dock 栏和侧边栏的未读徽标。
在底层性能与协作上,更新减少了线程切换的后台工作量,支持分段加载更深层的本地历史记录。在跨平台交互上,从 Codex 复制文本至 Slack 现可保留 Markdown 格式,并修复了粘贴大文本块时界面卡死的问题。同时,草稿文本在线程交接时不会丢失,粘贴的图片预览也支持使用方向键导航。
信源:https://x.com/OpenAIDevs/status/2070922791529091376
Codex 本周发布更新,解决了长对话导航不便与界面元素缩放错位问题。针对长对话场景, Codex 引入了导航轨,用户将光标悬停在槽位边缘即可预览并直接跳转至临近的对话轮次。同时,线程滚动表现得到平滑,在长对话中切换时可自动保持浏览位置。
界面在缩放时增加了对齐防护,确保 Tooltips 提示、菜单、对话框、选择气泡、拖拽预览和自动补全等元素不发生错位。设置搜索范围已得到扩展,包含更丰富的外观控制、主机过滤和自定义 Provider 设置等控制项,并新增了宠物专属面板。归档管理操作得到简化,并同步了 Dock 栏和侧边栏的未读徽标。
在底层性能与协作上,更新减少了线程切换的后台工作量,支持分段加载更深层的本地历史记录。在跨平台交互上,从 Codex 复制文本至 Slack 现可保留 Markdown 格式,并修复了粘贴大文本块时界面卡死的问题。同时,草稿文本在线程交接时不会丢失,粘贴的图片预览也支持使用方向键导航。
信源:https://x.com/OpenAIDevs/status/2070922791529091376
X (formerly Twitter)
OpenAI Developers (@OpenAIDevs) on X
🆕 Codex quality-of-life updates landed this week
Starting with long threads: scrolling is smoother now, and your place stays put as you move through the conversation.
Starting with long threads: scrolling is smoother now, and your place stays put as you move through the conversation.
OpenRouter:中美开源大模型与闭源前沿差距仅剩3至6个月,极低成本加速全球平替潮
聚合服务商 OpenRouter 披露,开源模型与闭源前沿模型的性能差距已稳定在 3 至 6 个月。在过去 18 个月中,前沿闭源实验室未能如预期般拉开身位,而以中美新玩家为代表的开源力量正凭借极高的性价比加速平替闭源模型。
DeepSeek V4 Flash 发布仅两个月就成为平替首选。拥有 2840 亿参数的 DeepSeek V4 Flash 在 SWE-bench Verified 评测中取得 79.0% 的成绩,表现逼近 GPT-5.5 级别。官方第一方输入/输出定价仅为 0.14/0.28 美元/百万 token,输出成本比 GPT-5.5 便宜约 150 倍。即使加上不保留数据训练的西方云托管溢价,实际成本也仅在闭源前沿模型的 1.3% 左右。
除了价格优势,智谱 2026 年 6 月发布的 GLM 5.2 在 Artificial Analysis 开源权重智能指数中排名第一,并在真实智能体评测中比肩 GPT-5.5 级别,成为长程编程规划的替换方案。不过,GLM 5.2 在深度思考时较为消耗 token,企业部署时需平衡输出成本。多模态开源模型 MiniMax M3 则凭借创新的 MSA 稀疏注意力架构,以较低的 token 价格提供了原生图像与视频的长上下文处理能力,成为 Gemini Flash 的强劲开源对手。
同时,基于 Mamba-2 混合架构的英伟达 Nemotron 3 Ultra 成为最强的美国本土开源力量,旨在通过开放生态拉动英伟达硬件与微服务生态的市场需求。
OpenRouter 强调,虽然前沿闭源模型最终仍会向前推进,但固定智能水平的 token 成本将持续走低,为企业提供了重大的成本优化空间。
信源:https://openrouter.ai/blog/insights/the-open-weight-models-that-matter-june-2026/
聚合服务商 OpenRouter 披露,开源模型与闭源前沿模型的性能差距已稳定在 3 至 6 个月。在过去 18 个月中,前沿闭源实验室未能如预期般拉开身位,而以中美新玩家为代表的开源力量正凭借极高的性价比加速平替闭源模型。
DeepSeek V4 Flash 发布仅两个月就成为平替首选。拥有 2840 亿参数的 DeepSeek V4 Flash 在 SWE-bench Verified 评测中取得 79.0% 的成绩,表现逼近 GPT-5.5 级别。官方第一方输入/输出定价仅为 0.14/0.28 美元/百万 token,输出成本比 GPT-5.5 便宜约 150 倍。即使加上不保留数据训练的西方云托管溢价,实际成本也仅在闭源前沿模型的 1.3% 左右。
除了价格优势,智谱 2026 年 6 月发布的 GLM 5.2 在 Artificial Analysis 开源权重智能指数中排名第一,并在真实智能体评测中比肩 GPT-5.5 级别,成为长程编程规划的替换方案。不过,GLM 5.2 在深度思考时较为消耗 token,企业部署时需平衡输出成本。多模态开源模型 MiniMax M3 则凭借创新的 MSA 稀疏注意力架构,以较低的 token 价格提供了原生图像与视频的长上下文处理能力,成为 Gemini Flash 的强劲开源对手。
同时,基于 Mamba-2 混合架构的英伟达 Nemotron 3 Ultra 成为最强的美国本土开源力量,旨在通过开放生态拉动英伟达硬件与微服务生态的市场需求。
OpenRouter 强调,虽然前沿闭源模型最终仍会向前推进,但固定智能水平的 token 成本将持续走低,为企业提供了重大的成本优化空间。
信源:https://openrouter.ai/blog/insights/the-open-weight-models-that-matter-june-2026/
OpenRouter Blog
The Open Weight Models that Matter: June 2026 — OpenRouter Blog
A slew of compelling open-weight models have shipped from new players in both China and the US. As of June 2026, these are the four open-weight models that matt
❤1
在线策略自蒸馏与做梦模拟或成大模型持续学习新解法
大语言模型在部署后,普遍面临无法持续吸收新知识的难题。目前的优化技术主要集中在扩大上下文窗口和提升查找速度上,这只能让模型在单个对话内临时查找信息,一旦关闭对话框,知识就会被全部忘光。大模型持续学习的真正瓶颈并不在这些查找速度的优化上,而是在于如何将对话里学到的经验,物理性地改写进大模型底层的权重参数里。
在线策略自蒸馏(Online Policy Self-Distillation, OPSD)提供了一条全新的权重更新路径。大模型在面临任务时,其拥有完整长上下文的「教师状态」(Teacher State)会生成高质量的解答。随后,系统在云端通过反向传播(Backpropagation),计算基础状态(学生,Student)与教师状态在 Token 级别的概率差异来提供稠密的监督信号,让基础模型去逼近那个拿了高分的聪明状态。
相比于强行让模型死记硬背所有对话文字的监督微调(Supervised Fine-Tuning, SFT),自蒸馏仅提取维持性能所必需的决策经验。这种极度稀疏的参数更新能够避免灾难性遗忘(Catastrophic Forgetting),保护大模型原有的通用常识不被覆盖。
另一条更具前瞻性的学习路径是做梦模拟(Dreaming)。当大模型面对复杂任务时,会消耗巨大的推理期算力在脑海中自我博弈。模型会根据日常观察到的规律,自动构建一个虚拟的模拟器环境(Simulator),并在模拟器环境中进行上万次任务演练。如果演练成功,系统就会把成功的轨迹记录下来作为教材,更新基础模型的底层权重。相比于仅生成简短摘要的轻量压缩,做梦模拟会消耗巨大算力在云端反复预演,属于大模型扩展的第四个维度。
预计 2027 至 2028 年,AI 代理在与人类协同工作一周后将接受工作评估。一旦获得认可,系统便能在云端通过在线策略自蒸馏(OPSD)或做梦模拟,将当周积累的实战经验蒸馏内化至模型的底层权重中,实现部署后能力的在线扩张,让大模型越用越聪明。
信源:https://www.youtube.com/watch?v=20p5-kQXF_Q
大语言模型在部署后,普遍面临无法持续吸收新知识的难题。目前的优化技术主要集中在扩大上下文窗口和提升查找速度上,这只能让模型在单个对话内临时查找信息,一旦关闭对话框,知识就会被全部忘光。大模型持续学习的真正瓶颈并不在这些查找速度的优化上,而是在于如何将对话里学到的经验,物理性地改写进大模型底层的权重参数里。
在线策略自蒸馏(Online Policy Self-Distillation, OPSD)提供了一条全新的权重更新路径。大模型在面临任务时,其拥有完整长上下文的「教师状态」(Teacher State)会生成高质量的解答。随后,系统在云端通过反向传播(Backpropagation),计算基础状态(学生,Student)与教师状态在 Token 级别的概率差异来提供稠密的监督信号,让基础模型去逼近那个拿了高分的聪明状态。
相比于强行让模型死记硬背所有对话文字的监督微调(Supervised Fine-Tuning, SFT),自蒸馏仅提取维持性能所必需的决策经验。这种极度稀疏的参数更新能够避免灾难性遗忘(Catastrophic Forgetting),保护大模型原有的通用常识不被覆盖。
另一条更具前瞻性的学习路径是做梦模拟(Dreaming)。当大模型面对复杂任务时,会消耗巨大的推理期算力在脑海中自我博弈。模型会根据日常观察到的规律,自动构建一个虚拟的模拟器环境(Simulator),并在模拟器环境中进行上万次任务演练。如果演练成功,系统就会把成功的轨迹记录下来作为教材,更新基础模型的底层权重。相比于仅生成简短摘要的轻量压缩,做梦模拟会消耗巨大算力在云端反复预演,属于大模型扩展的第四个维度。
预计 2027 至 2028 年,AI 代理在与人类协同工作一周后将接受工作评估。一旦获得认可,系统便能在云端通过在线策略自蒸馏(OPSD)或做梦模拟,将当周积累的实战经验蒸馏内化至模型的底层权重中,实现部署后能力的在线扩张,让大模型越用越聪明。
信源:https://www.youtube.com/watch?v=20p5-kQXF_Q
YouTube
What does the next training paradigm look like?
Thanks to Mercury for sponsoring this essay.
Mercury has automated basically my entire bill pay process for my business. I just give contractors a dedicated email address, and when they send an invoice, Mercury automatically creates a draft payment for me…
Mercury has automated basically my entire bill pay process for my business. I just give contractors a dedicated email address, and when they send an invoice, Mercury automatically creates a draft payment for me…
谷歌Pixel部署零拷贝MTP,Gemini Nano推理提速超50%且省内存
谷歌在 Pixel 9 与 Pixel 10 系列设备中部署了多 Token 预测(MTP)架构,直接加速内置的 Gemini Nano v3 模型。通过将轻量级 Transformer 预测头附加到已冻结的主模型尾部,新架构在完全保留原有安全对齐与输出质量的同时,将设备端推理速度提升了 50% 以上。
传统的投机解码需要运行一个独立的草稿模型来预测候选 Token。这不仅额外抢占手机的运行内存,且由于独立模型无法访问主模型的内部隐藏状态,导致预测准确率受限。新架构通过在冻结的主模型尾部嵌入 MTP 头,成功复用主模型已计算的特征激活,显著提升了候选 Token 的预测准确率。
为避免草稿计算在自回归生成时产生重复的运行内存开销,谷歌设计了零拷贝(zero-copy)机制。传统方案中,草稿模型生成候选词时需要维护独立的键值缓存(KV cache)记忆,而零拷贝机制让外挂预测头直接通过交叉注意力(Cross-Attention)去读取主模型已有的缓存。这不仅消除了草稿预测的启动延迟,还为手机节省了约 130MB 的运行内存空间。
在通知摘要与文本校对等 Pixel 实际业务中,MTP 架构使模型单次推理平均能成功多预测近 2 个 Token,降低了主处理器因校验而频繁被唤醒的频率,从而节省了系统功耗。在智能回复等高度结构化文本生成任务中,Token 接受率提升达 55%。
信源:https://research.google/blog/accelerating-gemini-nano-models-on-pixel-with-frozen-multi-token-prediction/
谷歌在 Pixel 9 与 Pixel 10 系列设备中部署了多 Token 预测(MTP)架构,直接加速内置的 Gemini Nano v3 模型。通过将轻量级 Transformer 预测头附加到已冻结的主模型尾部,新架构在完全保留原有安全对齐与输出质量的同时,将设备端推理速度提升了 50% 以上。
传统的投机解码需要运行一个独立的草稿模型来预测候选 Token。这不仅额外抢占手机的运行内存,且由于独立模型无法访问主模型的内部隐藏状态,导致预测准确率受限。新架构通过在冻结的主模型尾部嵌入 MTP 头,成功复用主模型已计算的特征激活,显著提升了候选 Token 的预测准确率。
为避免草稿计算在自回归生成时产生重复的运行内存开销,谷歌设计了零拷贝(zero-copy)机制。传统方案中,草稿模型生成候选词时需要维护独立的键值缓存(KV cache)记忆,而零拷贝机制让外挂预测头直接通过交叉注意力(Cross-Attention)去读取主模型已有的缓存。这不仅消除了草稿预测的启动延迟,还为手机节省了约 130MB 的运行内存空间。
在通知摘要与文本校对等 Pixel 实际业务中,MTP 架构使模型单次推理平均能成功多预测近 2 个 Token,降低了主处理器因校验而频繁被唤醒的频率,从而节省了系统功耗。在智能回复等高度结构化文本生成任务中,Token 接受率提升达 55%。
信源:https://research.google/blog/accelerating-gemini-nano-models-on-pixel-with-frozen-multi-token-prediction/
Google Research
Accelerating Gemini Nano models on Pixel with frozen Multi-Token Prediction
We introduce a method to retrofit Multi-Token Prediction onto frozen production models, accelerating on-device inference without the inefficiencies of separate drafters.
马斯克再开「月更」空头支票:旧模型跳票两月,新大饼悄然登场
马斯克宣布 Grok 4.5 开启面向特斯拉与 SpaceX 员工的私有内测,并承诺年底前 SpaceX 计划每月发布一款从头训练的全新模型。然而,自从 4 月中旬发布 Grok 4.3 之后,xAI 已有两个月未推出任何新模型,先前的更新承诺早已沦为笑谈。
反复推迟的发版节奏,堪称教科书级的「套娃式跳票」。马斯克曾在 4 月 18 日高调宣称,大模型工厂将每两周升级一次。当时排好的课表是,1T 参数的 Grok 4.4 预定 5 月初发,1.5T 的 Grok 4.5 预定 5 月底发。
眼看 5 月初的 ddl 过去,Grok 4.4 毫无音讯,马斯克在 5 月中旬改口称,1.5T 的 V9 模型训练完毕,大概 3 到 4 周内发布。到了 5 月 25 日,他又把发版时间推迟到 2 至 3 周。
结果到了 6 月底,我们只等来了一份仅限特斯拉内部体验的测试版。至于原本定档 5 月初发布的 Grok 4.4,在研发团队慢性失血的状况下早已悄然废弃。
虽然 SpaceX 在 6 月高价收购了 Cursor 母公司,试图用买来的团队与代码数据紧急填补窟窿,但骨干流失的尴尬,显然让马斯克大模型工厂的轰鸣声,听起来远不如他画饼的声音响亮。
信源:https://x.com/elonmusk/status/2071184354756477041
马斯克宣布 Grok 4.5 开启面向特斯拉与 SpaceX 员工的私有内测,并承诺年底前 SpaceX 计划每月发布一款从头训练的全新模型。然而,自从 4 月中旬发布 Grok 4.3 之后,xAI 已有两个月未推出任何新模型,先前的更新承诺早已沦为笑谈。
反复推迟的发版节奏,堪称教科书级的「套娃式跳票」。马斯克曾在 4 月 18 日高调宣称,大模型工厂将每两周升级一次。当时排好的课表是,1T 参数的 Grok 4.4 预定 5 月初发,1.5T 的 Grok 4.5 预定 5 月底发。
眼看 5 月初的 ddl 过去,Grok 4.4 毫无音讯,马斯克在 5 月中旬改口称,1.5T 的 V9 模型训练完毕,大概 3 到 4 周内发布。到了 5 月 25 日,他又把发版时间推迟到 2 至 3 周。
结果到了 6 月底,我们只等来了一份仅限特斯拉内部体验的测试版。至于原本定档 5 月初发布的 Grok 4.4,在研发团队慢性失血的状况下早已悄然废弃。
虽然 SpaceX 在 6 月高价收购了 Cursor 母公司,试图用买来的团队与代码数据紧急填补窟窿,但骨干流失的尴尬,显然让马斯克大模型工厂的轰鸣声,听起来远不如他画饼的声音响亮。
信源:https://x.com/elonmusk/status/2071184354756477041
🤡4
动察Beating AI News
马斯克再开「月更」空头支票:旧模型跳票两月,新大饼悄然登场 马斯克宣布 Grok 4.5 开启面向特斯拉与 SpaceX 员工的私有内测,并承诺年底前 SpaceX 计划每月发布一款从头训练的全新模型。然而,自从 4 月中旬发布 Grok 4.3 之后,xAI 已有两个月未推出任何新模型,先前的更新承诺早已沦为笑谈。 反复推迟的发版节奏,堪称教科书级的「套娃式跳票」。马斯克曾在 4 月 18 日高调宣称,大模型工厂将每两周升级一次。当时排好的课表是,1T 参数的 Grok 4.4 预定 5 月初发,1.5T…
马斯克紧急为Grok 4.5吹牛降温:已调火箭团队救场,2T新饼已排期八月
在宣布 Grok 4.5 开启内测后不到半天,马斯克就紧急发帖为之前的狂言降温。他前脚宣称新模型性能「或许已超过 Opus」,后脚又急忙找补,澄清 V9 基础模型并不是「惊人地好」,只是一款和 Opus 同档次的「主力工具」。这番迅速的自我否定,显然是在给尚未公测的模型降低期待。
马斯克透露,由于 1.5T 版本的训练仅将新收购的 Cursor 代码数据作为「追加训练」(效果不及初始训练),导致技术表现打了折扣。为了挽回颜面,xAI 几周前已启动了 2T 参数的大模型训练,将全部数据融入预训练中,并定档于 8 月发布。
除了 Cursor 团队在微调与强化学习上的技术贡献,为了按时端出 8 月的 2T 新饼,马斯克甚至跨界调兵。数十名来自星链(Starlink)和星舰(Starship)项目的顶尖工程师已被抽调来协助 AI 训练。在核心开发团队失血后,用造火箭的专家来补齐 AI 工程师的空缺,让这场模型狂欢显得愈发仓促。
另外,马斯克又画下了更大的新饼,声称真正的性能飞跃要等 3 个月后,届时整个训练与推理栈将用 C/C++ 重构,彻底精简掉绝大多数软件层,以实现与 GB300 芯片的极致硬件适配。
信源:https://x.com/elonmusk/status/2071357162195132454
在宣布 Grok 4.5 开启内测后不到半天,马斯克就紧急发帖为之前的狂言降温。他前脚宣称新模型性能「或许已超过 Opus」,后脚又急忙找补,澄清 V9 基础模型并不是「惊人地好」,只是一款和 Opus 同档次的「主力工具」。这番迅速的自我否定,显然是在给尚未公测的模型降低期待。
马斯克透露,由于 1.5T 版本的训练仅将新收购的 Cursor 代码数据作为「追加训练」(效果不及初始训练),导致技术表现打了折扣。为了挽回颜面,xAI 几周前已启动了 2T 参数的大模型训练,将全部数据融入预训练中,并定档于 8 月发布。
除了 Cursor 团队在微调与强化学习上的技术贡献,为了按时端出 8 月的 2T 新饼,马斯克甚至跨界调兵。数十名来自星链(Starlink)和星舰(Starship)项目的顶尖工程师已被抽调来协助 AI 训练。在核心开发团队失血后,用造火箭的专家来补齐 AI 工程师的空缺,让这场模型狂欢显得愈发仓促。
另外,马斯克又画下了更大的新饼,声称真正的性能飞跃要等 3 个月后,届时整个训练与推理栈将用 C/C++ 重构,彻底精简掉绝大多数软件层,以实现与 GB300 芯片的极致硬件适配。
信源:https://x.com/elonmusk/status/2071357162195132454
❤1
动察Beating AI News
OpenAI Codex防滥用机制误判导致额度暴耗,官方紧急重置全员额度 OpenAI 核心产品负责人 Tibo Sottiaux 表示,因系统内置的防欺诈与防滥用机制误判导致用户额度加速消耗,官方已紧急为所有 Codex 用户免费重置使用限额。 额度异常消耗问题实际始于 6 月 16 日左右,并于 6 月 25 日在社交平台彻底爆发。数百名开发者在 GitHub 及社交平台上反馈, Codex 的 Token 消耗速度出现异常飙升,部分账户的额度消耗速度相比以往加快了 10 至 20 倍。有订阅 200…
Codex额度异常又崩了,OpenAI再次全员硬重置
OpenAI 旗下编程智能体 Codex 的额度异常消耗漏洞仍未根治。OpenAI 核心产品负责人 Tibo Sottiaux 宣布,团队在周日紧急开启作战室筛查日志,并对所有用户实施了第二次硬重置。
6 月 27 日的首次重置未能解决问题。有用户反馈,在手动重置额度后仅过 36 小时,限额便再次跌去 75%。独立开发者 nicdunz 批评 OpenAI 在故障响应上过于松懈。
Sottiaux 透露,由于故障仍在排查,团队决定直接刷新所有用户额度。鉴于部分用户先前已积攒了多达三次自行重置配额,这次改成了直接重置,而不是发放额度重置卡。
巧合的是,本周是 OpenAI 的休整福利周,内部称为 RESET week。本应放假放松的研发团队,最终却在作战室以重置(RESET)全网限额的方式度过了假期。
信源:https://x.com/thsottiaux/status/2071381664853319742
OpenAI 旗下编程智能体 Codex 的额度异常消耗漏洞仍未根治。OpenAI 核心产品负责人 Tibo Sottiaux 宣布,团队在周日紧急开启作战室筛查日志,并对所有用户实施了第二次硬重置。
6 月 27 日的首次重置未能解决问题。有用户反馈,在手动重置额度后仅过 36 小时,限额便再次跌去 75%。独立开发者 nicdunz 批评 OpenAI 在故障响应上过于松懈。
Sottiaux 透露,由于故障仍在排查,团队决定直接刷新所有用户额度。鉴于部分用户先前已积攒了多达三次自行重置配额,这次改成了直接重置,而不是发放额度重置卡。
巧合的是,本周是 OpenAI 的休整福利周,内部称为 RESET week。本应放假放松的研发团队,最终却在作战室以重置(RESET)全网限额的方式度过了假期。
信源:https://x.com/thsottiaux/status/2071381664853319742
X (formerly Twitter)
Tibo (@thsottiaux) on X
As we are still investigating, I have reset everyone's Codex usage limits. This is a hard reset given some users had stacked up to three banked resets already that they can apply on their own schedule.
Funnily enough, this week at OpenAI is called the RESET…
Funnily enough, this week at OpenAI is called the RESET…