动察Beating AI News
2.84K subscribers
617 photos
2.89K links
AI新闻信息流
Download Telegram
抓到Codex额度耗光真凶,OpenAI修复多项漏洞并第三次全员重置补偿

OpenAI 旗下编程智能体 Codex 的额度异常消耗的原因已正式查明。核心产品负责人 Tibo Sottiaux 宣布,团队已全量部署修复补丁。除即将再次重置全员限额之外,所有用户还将额外获得一张限时 24 小时启用的重置卡。

暴耗并非源于单一漏洞,而是多项后台小问题与显示误报叠加所致。在运行层面,系统因自动审查过频、意外触发了过多子智能体任务,且后台建议功能在失败后会重复运行与频繁重试,成倍吞噬了 Token。在显示层面,自动审查被错误归类为 GPT-5.4 消耗,而执行失败或被限流的请求也在前端图表中被错误显示为额度消耗,直接引发了全网用户的额度荒。

目前,官方已在计费后端、桌面端与 CLI 终端同步部署热修补丁。未来,仅有成功的交互请求会记入 Turn 统计图表。虽然历史图表中的错误数据无法更改,但更新后的实际 Token 消耗将明显降低。

信源:https://x.com/thsottiaux/status/2071740419030053227
OpenClaw移动端App正式上线,手机充当电脑伴侣与硬件延伸

开源 AI 智能体框架 OpenClaw 的移动端 App 正式上架 iOS 和 Android 应用商店。这款移动端应用并非独立的 AI 聊天软件,而是本地自托管网关(Gateway)的伴侣节点。

它的核心逻辑全部在用户的电脑上运行,手机只充当 Agent 的「物理延伸」,用于提供摄像头、地理定位、语音交互和通知推送。为了保护隐私,移动端采取了严格的授权指令控制,手机截图或拍照等敏感权限默认关闭,需在本地网关上显式授权。

目前首发版本仍存在部分页面闪退和卡死问题,且应用商店已出现 Logo 相同的山寨应用 ClawOS,下载时需认准官方龙虾图标。

信源:https://x.com/openclaw/status/2071688039114342592
把AI编程塞进手机:Cursor推出iOS应用,主力模型Composer 2.5限时2.5折

AI 代码编辑器 Cursor 推出 iOS 原生应用公测版,让开发者在手机上也能写代码。

App 解决了开发者必须守在电脑前才能运行 AI 任务的痛点。现在,你只需要在手机上选好代码仓库,用文字或语音说出想法,就能在云端启动全天候运行的 AI 助理。AI 会在云端虚拟环境中独立跑任务、测试代码,并生成合并申请。如果你想控制家里或办公室电脑上的任务,也可以通过手机远程控制。

为了提升移动体验,Cursor 接入了苹果的「实时活动(Live Activities)」锁屏通知。一旦 AI 跑完代码、需要人工确认,或者生成了合并代码的请求,手机锁屏就会直接提醒。你可以在手机上直观查看 AI 生成的网页效果、截图以及代码修改对比,甚至可以直接一键合并代码。

iOS 版现已向所有付费用户开放。在 7 月 5 日前,通过手机 App 运行核心编程功能 Composer 2.5 还能享受 2.5 折的限时优惠。

信源:https://cursor.com/blog/ios-mobile-app
年化营收飙至5亿美元,视频生成应用Higgsfield AI估值拟翻四倍至50亿美元

视频生成初创公司 Higgsfield AI 正与投资者洽谈以 50 亿美元的投前估值融资 3 亿至 5 亿美元。该估值是其今年 1 月融资时的四倍以上。与此同时,这家成立于 2023 年的旧金山公司本月年化营收跑率已达到 5 亿美元,是 1 月份 2 亿美元跑率的 2.5 倍。

目前,DST Global 正在洽谈投资事宜,但该轮融资尚未正式交割。Higgsfield AI 的主要业务是提供 AI 图像与视频生成平台,订阅价格为每月 19 至 99 美元,近期还推出了一款名为 Supercomputer 的营销智能体。该公司早期主要依靠个人创作者,但目前已有 70% 的平台活跃度来自企业客户。

这一交易谈判进一步印证了视频 AI 领域的投资热度:谷歌近期向电影制片厂(A24)投资了约 7500 万美元开展 AI 合作,而另一家视频生成公司 Runway 也在今年 2 月以 53 亿美元估值完成了 3.15 亿美元的融资。此外,Meta 曾在 2025 年探讨过收购 Higgsfield 及其竞争对手 Runway 的可能性。

信源:https://www.theinformation.com/articles/ai-video-startup-talks-quadruple-valuation-5-billion
动察Beating AI News
GPT-5.5、Codex和托管Agent三件套同日登陆AWS Bedrock OpenAI 与 AWS 宣布三项产品同步进入 limited preview:GPT-5.5 等 OpenAI 模型上线 Amazon Bedrock,Codex 可直接以 Bedrock 为后端运行,以及由 OpenAI 驱动的 Amazon Bedrock Managed Agents 托管 agent 服务。这是 OpenAI 闭源模型首次在微软 Azure 之外的云平台上直接可用。 Codex 目前周活超过 400…
微软与亚马逊「互拆地基」:Claude登陆Azure,OpenAI杀入Bedrock

AI 模型两大阵营的排他性云联盟正式解体。

Anthropic 宣布其 Claude 4.x 系列(包括 Claude Opus 4.8 和 Claude Haiku 4.5)在微软 Azure AI Foundry 正式可用,直接运行在 NVIDIA GB300 GPU 算力上;与之呼应,OpenAI 旗下的 GPT-5.5 和 GPT-5.4 也已经在两月前在亚马逊 AWS Bedrock 上架。

云巨头正从「独占模型」退守为「算力与流量入口」,而大模型则走向了多云分发的公用事业阶段。

信源:https://claude.com/blog/claude-in-microsoft-foundry
前通义千问RL负责人朱天航加入AI智能体研发商FRL,负责大模型训练

前阿里通义千问(Qwen)创始团队成员、强化学习(RL)负责人朱天航宣布入驻社交平台 X。

目前,他在美国 AI 智能体初创公司 Fundamental Research Labs(FRL,前身为 Altera,旗下开发有针对 Excel 电子表格的智能体产品 Shortcut)负责大模型训练,并已在实验室任职近一年半。

朱天航表示,接下来将开源并分享在 FRL 期间训练针对电子表格和金融领域大模型的实战经验。

早期他还曾负责零一万物(01.ai)的 RL 训练。

信源:https://x.com/TianhangZhuzth/status/2071674444201021729
首发原生适配昇腾:华为正式开源920亿参数openPangu-2.0-Flash

华为宣布正式开源盘古 openPangu-2.0-Flash 模型,并即将在 GitCode 的 Ascend Tribe 社区上线。

模型拥有 920 亿(92B)总参数,采用混合专家(MoE)架构,实际仅激活 60 亿参数,支持 512K 超长上下文。作为华为开源 AI 模型品牌,openPangu 致力于通过昇腾原生训练与推理技术,为业界提供昇腾算力开发实践参考。

根据开源规划,Flash 版本首批上线内容包括模型权重、基础推理代码和训推算子;性能更强的openPangu-2.0-Pro权重及推理代码将于7月推出,更多组件将在下半年陆续开源。

信源:https://mp.weixin.qq.com/s/03bfUULuB6wuWf4vCn6Deg
动察Beating AI News
月之暗面(Kimi)拟以300亿美元估值融资20亿美元,正拆除境外架构筹备赴港上市 据彭博社报道,月之暗面正与潜在投资者展开早期谈判,计划募集至多 20 亿美元,将估值推高至 300 亿美元。若新一轮融资成功,月之暗面估值相比 2025 年 12 月的 40 余亿美元将增长近七倍。这也是月之暗面半年来第三次融资,用于在白热化的中国人工智能竞争中追赶对手。 伴随 Kimi 聊天机器人及大语言模型的需求激增,月之暗面在 2026 年 4 月的年度经常性收入 (ARR) 已突破 2 亿美元。新一轮融资若成功,将使月之暗面超越估值约…
月之暗面(Kimi)估值升至315亿美元,ARR突破3亿美元

月之暗面(Kimi)上一轮 200 亿美元估值融资于近日完成交割,新一轮融资已经启动,投前估值涨至 315 亿美元。

据接近 Kimi 的机构人士介绍,Kimi 在本轮融资沟通中披露了其最新收入数据:6 月中旬,ARR(年度经常性收入)突破 3 亿美元。Kimi 此轮收入增长主要来自模型迭代带动的开发者使用和 API 收入提升。目前,API 收入已占 Kimi 整体收入 7 成以上并持续走高。

信源:https://www.chinastarmarket.cn/detail/2412708
Vibe Coding平台Base44推出首个自研模型Base 1,用数千万真实开发记录训练「产品直觉」

网页开发平台 Wix 旗下 Vibe Coding 平台 Base44 宣布推出其首个自研大模型 Base 1,并已在生产环境中上线。与只调用通用模型接口的平台不同,Base44 试图通过自研模型实现从数据库、后端基础设施到智能层的全栈垂直整合。

Base 1 的核心优势在于其特有的数据训练来源:平台过去积累的数千万次真实用户开发记录。这包括用户的原始需求、智能体生成的代码、运行中的报错、用户做出的修改,以及应用最终是否成功运行的真实闭环信号。

Base44 创始人 Maor Shlomo 指出,通用大模型必须兼顾各种编程语言和广泛任务,而 Base 1 专注在特定的应用开发环境内。他们不仅训练模型编写代码,还训练它具备「产品决策能力」,使其能够参与产品讨论、预测用户下一步需求,甚至在开发路径不合理时进行规避。

目前 Base 1 已加入平台的模型选择器,与其它主流模型并列,系统会根据任务类型自动调度。Base44 计划在未来几周公布该模型的具体技术细节以及基准测试结果。

信源:https://x.com/MaorShlomo/status/2071579906383687685
Cognition推出Devin Fusion:主智能体带「副手」并行,开发成本降低35%

AI 编程公司 Cognition 发布了用于智能体编程的混合模型架构 Devin Fusion。

该系统通过两个核心设计实现前沿模型的性能与更低成本的平衡:首先是「副手(Sidekick)」机制,让经济的小模型智能体与前沿大模型智能体并行,大模型保留规划、需求澄清和最终审查的「判断权」,而代码探索、测试、格式校验等「体力活」则分派给小模型,双方各自维护独立的缓存上下文以避免昂贵的缓存失效开销;其次是动态路由,在会话中根据任务演进动态调整模型,并选择在上下文压缩时切换,以实现「零成本」模型升级。

测试表明,在衡量代码正确性与质量的 FrontierCode 基准测试中,Devin Fusion 在维持前沿模型性能的前提下,使 GPT-5.5 和 Opus 4.8 级别模型的开发成本平均降低 35%;若配合 Fable 5 使用,成本可降低 41%(注:受美国政府指令影响,Fable 5 访问已于 2026 年 6 月 12 日被暂停,此降幅基于历史测试数据)。

在内部开发中,团队最终合并的 PR 有 88% 完全由 Fusion 自动路由驱动。然而,当任务极度依赖复杂的微妙开发意图与主观判断(如涉及 React/Redux 的多文件跨功能开发)时,过度委托会导致表现显著下降,得分从 54 跌至 27。

信源:https://cognition.com/blog/devin-fusion
动察Beating AI News
X推出官方MCP服务器,AI Agent可原生读写推文 X 开发者平台负责人 Chris Park 宣布 X API 完成四项升级: 1. 按量付费(Pay-Per-Use)模式全球正式上线,取代此前的固定月费套餐 2. 推出 XMCP Server 和命令行工具 xurl,让 AI Agent 通过 MCP 协议直接调用 150 余个 X API 端点 3. 发布官方 Python 和 TypeScript SDK(XDK),基于 Rust 从 OpenAPI 规范自动生成 4. 上线 API Pl…
X 推出官方托管 MCP 服务:AI 检索技术文档免凭证,调用 API 仍需本地桥接

继 4 月初推出本地 XMCP 方案后,X 开发者平台宣布正式上线官方托管(Hosted)的 MCP(模型上下文协议)服务。本次更新分为两个不同的托管端点,显著降低了 AI 助手调用 X API 和检索技术文档的配置门槛。

其中,用于检索官方 API 开发文档的 Docs MCP 服务完全免密且无需凭证,Cursor、Grok 等 AI 工具直接配置其云端 URL 即可在工作流中实时检索技术指南。

而对于涉及用户发帖、查贴等权限的 X API,X 官方采取了「云端协议托管 + 本地安全桥接」的架构:开发者仍需在 X 平台创建应用并配置自有的 Client ID 与 Client Secret 凭证,并在本地运行开源桥接工具 xurl 处理 stdio JSON-RPC 通信。用户在首次启动时通过浏览器完成一次性 OAuth2 授权后,即可让 AI 助手在本地安全调用云端托管的 API 接口。

信源:https://x.com/XDevelopers/status/2071752389183647758
Meta限制员工使用Claude与Codex,严防「模型蒸馏」违规

Meta 正在严格限制其应用 AI 工程团队使用 Anthropic 的 Claude Code和 OpenAI 的 Codex,甚至曾要求暂停部分相关任务以强化合规审查。Meta 担忧员工过度依赖外部工具开发内部替代品,导致竞品模型的输出渗入自身的训练数据中。这种「模型蒸馏」的做法可能会违反竞品的服务条款,引发与合作伙伴的严重冲突。

目前,Meta 仅允许员工将外部 AI 用于设置工作流、整理代码和构建测试基础设施等常规工作,且输出必须经人工严格审查;但严禁使用外部模型生成编程挑战来评估其内部模型,也禁止利用外部 AI 寻找代码漏洞或构思测试任务。

此举也是 Meta 试图通过推广自研编码助手 MetaCode(前称 DevMate)来重塑内部工具链、控制其高达数十亿美元的内部 AI 运营成本努力之一。

信源:https://www.theinformation.com/articles/internal-docs-show-meta-putting-limits-claude-codex-fearing-distillation
美团开源首个从训练到推理都用国产芯片的万亿大模型LongCat-2.0

美团开源超大规模混合专家(MoE)模型 LongCat-2.0。模型拥有 1.6 万亿总参数,单 token 激活参数约 480 亿,支持 1M 超长上下文。

这是业界首个依靠国产算力完成训练、推理全流程的万亿参数大模型。它在超过 5 万张国产 AI 芯片集群上完成了 35 万亿 token 的预训练,成功验证了国产算力承载前沿大模型的工程稳定性。

LongCat-2.0 的核心更新集中在长上下文和推理效率。LongCat Sparse Attention(LSA)针对稀疏注意力索引带来的显存读取和计算开销,引入流感知索引、跨层索引和分层索引,让长文本推理时的索引读取更连续,也能在相邻层之间复用部分索引结果。

模型还集成 1350 亿参数的 5-gram 嵌入模块,通过建模相邻 token 组合来扩展嵌入空间,增强局部上下文表达。相比只依赖 MoE 专家路由,这类前置嵌入可以在大 batch 推理中减少部分显存读写压力。

在 SWE-bench Pro 等主流 Agent 和代码评测中,LongCat-2.0 表现逼近甚至超越部分主流闭源模型。

信源:https://longcat.chat/blog/longcat-2.0/
Claude Fable 5或引入身份验证机制,并独立于订阅计划计费

据 AI 技术分析专家 @M1Astra 爆料,通过分析 Anthropic Claude 应用代码,显示新模型 Fable 5 需用户通过单独购买使用信用额度访问,且信用额度需用户完成身份验证后才可添加,与订阅计划独立计费。

6 月 27 日,Anthropic 公告称,「公司旗下最强的网络安全模型 Mythos 5 可重新部署至一批美国机构。同时正在继续与政府合作,扩大对 Mythos 5 的访问,并使 FABLE 5 再次可供公众使用。」
Claude Code更新预告:下一版本将默认让子智能体在后台执行任务

Claude Code 创作者 Boris Cherny 官宣,下一版本将默认让子智能体在后台执行任务,用户可一边和 Claude 对话讨论方案,一边等待后台自动完成代码重构、测试运行、PR 提交等工作;若需要子智能体在前台运行,仅需口头告知即可。

该功能目前已向小部分用户灰度测试,此前 Claude Code 已陆续上线了定时任务 Routines(云端运行,合上电脑也能持续干活)、动态工作流 Dynamic workflows(针对复杂任务调度数十至上百个子智能体并行协作)两项能力,本次升级是把「后台运行」固化为默认配置,进一步降低操作门槛。
OpenAI推出新优化方案,模型推理成本降低逾50%

据 The Information 报道,OpenAI 工程师开发出一系列新的模型优化技术,使模型推理成本降低超过 50%,并减少了对英伟达 GPU 的需求。

报道称,OpenAI 未来可能将部分成本节约用于下调 API 服务价格,或提高 ChatGPT 等产品的用户查询额度。
Claude Sonnet 5发布:智能体能力直逼旗舰,首发优惠对冲Token膨胀

Anthropic 正式推出中端主力模型 Claude Sonnet 5,主打强大的 Agent(智能体)自主规划、浏览器与终端工具调用等自动运行能力。新模型在 BrowseComp(智能搜索)和 OSWorld-Verified(电脑操作)等评估中大幅超越前代 Sonnet 4.6。用户可通过调整 effort(思考投入度)级别,使其性能表现直逼旗舰级模型 Opus 4.8。

安全性能方面,新模型相比 Sonnet 4.6 拥有更低的幻觉率,且提升了对恶意请求与提示词注入攻击的防御。虽然该模型未专门针对网络安全进行训练,安全能力远低于 Opus 4.8,但默认启用了实时网络安全防护机制。此外,模型升级了分词器,相同文本产生的 Token 数量较旧版增加 1.0 至 1.35 倍。为此,首发优惠价格设定为输入每百万 Token $2、输出 $10(持续至 2026 年 8 月 31 日,之后恢复 $3 与 $15 的标准价),旨在让用户切换模型时的实际成本基本持平。

目前该模型已向 Free、Pro、Max、Team 及 Enterprise 所有用户开放,并可在 Claude Code 中使用。

信源:https://www.anthropic.com/news/claude-sonnet-5
Anthropic推出科学家AI工作台Claude Science

Anthropic 推出面向科研人员的 Claude Science 客户端 beta 版。这套系统能直接在本地、SSH 远程或 HPC(高性能计算)节点运行,将分散的科学数据库、Jupyter、R 语言及计算终端整合进统一环境。

它最大特点是解决了科研的「可复现性」痛点。系统生成的每一张图表、3D 蛋白质或分子结构,都附带生成该结果的精确代码、运行环境与完整对话历史。科研人员只需用自然语言描述,就能直接修改图表,还能溯源检查每一个数据点。

在算力调度上,它可自动向实验室的 HPC 集群或 Modal 云算力提交并管理计算任务,支持将分析任务从单张 GPU 自动扩展至数百张。系统内置了协调智能体与评审智能体,在协调智能体调用 NVIDIA 的 BioNeMo 工具包和 60 多个预配置科学技能分析基因与蛋白质数据时,独立的评审智能体负责核对计算结果与论文引用,实现自动纠错。

在实际测试中,UCSF 脑肿瘤中心将神经胶质瘤研究的分析速度提升至 10 倍(用时缩短至原本的 1/10);艾伦研究所利用其多智能体流构建了计算评审模板,将以往需要撰写两年的百页学术综述在极短时间内高效推进,并由评审智能体完成了全部引用的忠实度核对。

目前该系统已向 Claude 的 Pro、Max、Team 与 Enterprise 订阅用户开放。Anthropic 额外设立了支持 50 个科研项目的专项基金,提供最高 3 万美元的项目资助额度,其合作伙伴 Modal 也将为入选项目提供最高 2,000 美元的配套算力资助。

信源:https://www.anthropic.com/news/claude-science-ai-workbench
动察Beating AI News
谷歌发布万物生成世界模型GeminiOmni:告别时间线,用大白话精细剪视频 视频生成和剪辑的范式,正从繁琐的专业时间线操作,降维成与 AI 的几句闲聊。 在 2026 年 5 月 19 日的 Google I/O 大会上,谷歌正式推出首个万物生成世界模型 Gemini Omni(首发版本为 Omni Flash),主打将 Gemini 的逻辑推理智能与媒体生成系统原生融合,直接通过文本、图像、视频、音频的多模态混合输入,完成高保真的视频生成与对话式编辑。 传统的视频生成模型如 Sora 等,往往只…
4 秒一张图、千张成本仅 0.034 美元,谷歌发布超轻量图像模型并开放视频模型 Omni Flash 公测

谷歌发布了两款全新的多媒体生成模型。其中,针对图像生成的 Nano Banana 2 Lite(API 命名为 gemini-3.1-flash-lite-image`)主打超低延迟,生成单张 1K 图像仅需约 4 秒,且每千张生成成本仅为 0.034 美元,是上一代 `gemini-2.5-flash-image 的高速低成本替代方案。

此外,在 Google I/O 2026 亮相的视频模型 Gemini Omni Flash 首次面向开发者开放公测。该模型支持用户通过自然语言对话进行视频编辑(如添加数字魔术特效或重构空间设计),但官方特别指出,当前版本在变换场景或镜头平移时,人物一致性(Character consistency)仍存在局限。目前该模型已在 Gemini API 和 Google AI Studio 开启公测(此前已在消费端的 Gemini app 和 Google Flow 上线)。

信源:https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni-flash-nano-banana-2-lite/
Claude登录邮件暴露「隐形定位」功能,IP推断位置引发用户隐私担忧

Anthropic 旗下 AI 助手 Claude 近期因登录验证邮件中的地点提示引发用户讨论。一些用户注意到,Claude 在发送登录验证码或安全提醒时,会附带大致登录位置,例如国家、地区或城市。这一细节让外界重新关注 AI 服务商如何识别用户访问来源。

这类地点通常并非 GPS 精确定位,而是根据 IP 地址、网络连接和设备信息推断。使用 VPN、代理服务器、公司网络或移动运营商网络时,邮件中显示的位置可能与用户实际所在地不一致。Anthropic 的隐私政策显示,公司会收集 IP 地址、设备信息、连接信息以及由 IP 推断的位置,用于安全、防欺诈和执行服务条款。

Claude 用户对此反应更敏感,部分原因在于该服务尚未在所有地区开放,跨境使用、海外账号和第三方中转服务在中文社区较为常见。近期,中文用户社区也出现了一些账号被停用或要求重新验证的反馈,被部分用户称为「封号潮」。