动察Beating AI News
2.84K subscribers
617 photos
2.89K links
AI新闻信息流
Download Telegram
BinEval框架用是非题自动给AI打分,解决裁判模型虚报满分和不透明痛点

Capital One 的研究团队提出 BinEval 评估框架,将复杂的评分标准自动拆解为具体的「是或否」单选题,解决打分像黑盒子以及分数虚高的问题。框架让评估模型逐一回答各项是非题,最后用答对题目的比例计算得分。

在三个主流数据集的测试中,使用 Claude Sonnet 4 等大模型的 BinEval 打分质量匹配或超越了 UniEval 等主流评估工具,特别擅长揪出表面通顺但事实错误的回答。

以一则涉及飞机拦截的摘要评估为例,虽然摘要读起来流畅且实体与飞机型号都对,但摘要把五角大楼和俄罗斯的说法安反了,还瞎编了网址。旧的 AI 裁判因为只看表面,直接给了 5.0 的满分。而 BinEval 凭借七道是非题准确揪出四处事实错误,给出了 1.57 分,与人类给出的 2.0 分非常接近。

Capital One 的研究团队提出 BinEval 评估框架,将复杂的评分标准自动拆解为具体的「是或否」单选题,解决打分像黑盒子以及分数虚高的问题。框架让评估模型逐一回答各项是非题,最后用答对题目的比例计算得分。

在三个主流数据集的测试中,使用 Claude Sonnet 4 等大模型的 BinEval 打分质量匹配或超越了 UniEval 等主流评估工具,特别擅长揪出表面通顺但事实错误的回答。

以一则涉及飞机拦截的摘要评估为例,虽然摘要读起来流畅且实体与飞机型号都对,但摘要把五角大楼和俄罗斯的说法安反了,还瞎编了网址。旧的 AI 裁判因为只看表面,直接给了 5.0 的满分。而 BinEval 凭借七道是非题准确揪出四处事实错误,给出了 1.57 分,与人类给出的 2.0 分非常接近。

是非题反馈既能通过「强模型带弱模型」自动调教小裁判的评分标准,也能让写稿 AI 自动修改提示词进行自我纠错。实验表明,在指令遵循测试中,自动修改写稿提示词能将格式与句子结构的遵守率提升 17 个百分点。不过,对于限制字数等需要数学计算的硬实力,优化工具依然无能为力,且过度拆解相关性要求反而会让评估标准过于严苛。

信源:https://arxiv.org/abs/2606.27226
字节豆包上线内置轻导航功能:支持步骑行原生播报

字节跳动旗下的豆包 App 近日上线了内置导航功能「豆包导航」。用户通过语音或文字输入目的地,并在授权定位权限后,即可在 App 内基于实时位置生成一体化地图卡片,陈列驾车、公交、骑行、步行四种出行方案。

豆包导航采用分场景差异化服务逻辑。步行和骑行路线支持豆包 App 内的原生导航,并提供实时语音播报,直观展示剩余路程、预计耗时及预估抵达时间。驾车和公共交通路线则需点击跳转第三方地图 App 完成导航。
DeepSeek V4正式版定档7月中旬上线,引入峰谷双倍定价

DeepSeek 官方宣布 DeepSeek V4 正式版计划于 7 月中旬上线,并同步引入峰谷定价机制。在北京时间每日 9:00 至 12:00 以及 14:00 至 18:00 的高峰时段,API 计费价格将调整为平日的 2 倍。

在新定价机制下,高性能模型 deepseek-v4-pro 的平日每百万 tokens 输入缓存命中价格为 0.025 元,缓存未命中为 3.00 元,输出为 6.00 元。高峰时段,三项价格将分别上调至 0.05 元、6.00 元和 12.00 元。轻量级模型 deepseek-v4-flash 的平日每百万 tokens 输入缓存命中价格为 0.02 元,缓存未命中为 1.00 元,输出为 2.00 元。高峰时段,三项价格则对应调整为 0.04 元、2.00 元和 4.00 元。实际计费调整发生前 24 小时,官方将通过邮件通知用户。

旧有的两个 API 模型名称 deepseek-chat 与 deepseek-reasoner 将于北京时间 2026 年 7 月 24 日 23:59 正式弃用。过渡期内,旧模型名称已自动重定向,deepseek-chat 指向 deepseek-v4-flash 的非思考模式,deepseek-reasoner 指向思考模式。官方建议开发者在截止日期前,将 API 请求中的 model 参数修改为 deepseek-v4-pro 或 deepseek-v4-flash,以确保业务不受影响。
抓到Codex额度耗光真凶,OpenAI修复多项漏洞并第三次全员重置补偿

OpenAI 旗下编程智能体 Codex 的额度异常消耗的原因已正式查明。核心产品负责人 Tibo Sottiaux 宣布,团队已全量部署修复补丁。除即将再次重置全员限额之外,所有用户还将额外获得一张限时 24 小时启用的重置卡。

暴耗并非源于单一漏洞,而是多项后台小问题与显示误报叠加所致。在运行层面,系统因自动审查过频、意外触发了过多子智能体任务,且后台建议功能在失败后会重复运行与频繁重试,成倍吞噬了 Token。在显示层面,自动审查被错误归类为 GPT-5.4 消耗,而执行失败或被限流的请求也在前端图表中被错误显示为额度消耗,直接引发了全网用户的额度荒。

目前,官方已在计费后端、桌面端与 CLI 终端同步部署热修补丁。未来,仅有成功的交互请求会记入 Turn 统计图表。虽然历史图表中的错误数据无法更改,但更新后的实际 Token 消耗将明显降低。

信源:https://x.com/thsottiaux/status/2071740419030053227
OpenClaw移动端App正式上线,手机充当电脑伴侣与硬件延伸

开源 AI 智能体框架 OpenClaw 的移动端 App 正式上架 iOS 和 Android 应用商店。这款移动端应用并非独立的 AI 聊天软件,而是本地自托管网关(Gateway)的伴侣节点。

它的核心逻辑全部在用户的电脑上运行,手机只充当 Agent 的「物理延伸」,用于提供摄像头、地理定位、语音交互和通知推送。为了保护隐私,移动端采取了严格的授权指令控制,手机截图或拍照等敏感权限默认关闭,需在本地网关上显式授权。

目前首发版本仍存在部分页面闪退和卡死问题,且应用商店已出现 Logo 相同的山寨应用 ClawOS,下载时需认准官方龙虾图标。

信源:https://x.com/openclaw/status/2071688039114342592
把AI编程塞进手机:Cursor推出iOS应用,主力模型Composer 2.5限时2.5折

AI 代码编辑器 Cursor 推出 iOS 原生应用公测版,让开发者在手机上也能写代码。

App 解决了开发者必须守在电脑前才能运行 AI 任务的痛点。现在,你只需要在手机上选好代码仓库,用文字或语音说出想法,就能在云端启动全天候运行的 AI 助理。AI 会在云端虚拟环境中独立跑任务、测试代码,并生成合并申请。如果你想控制家里或办公室电脑上的任务,也可以通过手机远程控制。

为了提升移动体验,Cursor 接入了苹果的「实时活动(Live Activities)」锁屏通知。一旦 AI 跑完代码、需要人工确认,或者生成了合并代码的请求,手机锁屏就会直接提醒。你可以在手机上直观查看 AI 生成的网页效果、截图以及代码修改对比,甚至可以直接一键合并代码。

iOS 版现已向所有付费用户开放。在 7 月 5 日前,通过手机 App 运行核心编程功能 Composer 2.5 还能享受 2.5 折的限时优惠。

信源:https://cursor.com/blog/ios-mobile-app
年化营收飙至5亿美元,视频生成应用Higgsfield AI估值拟翻四倍至50亿美元

视频生成初创公司 Higgsfield AI 正与投资者洽谈以 50 亿美元的投前估值融资 3 亿至 5 亿美元。该估值是其今年 1 月融资时的四倍以上。与此同时,这家成立于 2023 年的旧金山公司本月年化营收跑率已达到 5 亿美元,是 1 月份 2 亿美元跑率的 2.5 倍。

目前,DST Global 正在洽谈投资事宜,但该轮融资尚未正式交割。Higgsfield AI 的主要业务是提供 AI 图像与视频生成平台,订阅价格为每月 19 至 99 美元,近期还推出了一款名为 Supercomputer 的营销智能体。该公司早期主要依靠个人创作者,但目前已有 70% 的平台活跃度来自企业客户。

这一交易谈判进一步印证了视频 AI 领域的投资热度:谷歌近期向电影制片厂(A24)投资了约 7500 万美元开展 AI 合作,而另一家视频生成公司 Runway 也在今年 2 月以 53 亿美元估值完成了 3.15 亿美元的融资。此外,Meta 曾在 2025 年探讨过收购 Higgsfield 及其竞争对手 Runway 的可能性。

信源:https://www.theinformation.com/articles/ai-video-startup-talks-quadruple-valuation-5-billion
动察Beating AI News
GPT-5.5、Codex和托管Agent三件套同日登陆AWS Bedrock OpenAI 与 AWS 宣布三项产品同步进入 limited preview:GPT-5.5 等 OpenAI 模型上线 Amazon Bedrock,Codex 可直接以 Bedrock 为后端运行,以及由 OpenAI 驱动的 Amazon Bedrock Managed Agents 托管 agent 服务。这是 OpenAI 闭源模型首次在微软 Azure 之外的云平台上直接可用。 Codex 目前周活超过 400…
微软与亚马逊「互拆地基」:Claude登陆Azure,OpenAI杀入Bedrock

AI 模型两大阵营的排他性云联盟正式解体。

Anthropic 宣布其 Claude 4.x 系列(包括 Claude Opus 4.8 和 Claude Haiku 4.5)在微软 Azure AI Foundry 正式可用,直接运行在 NVIDIA GB300 GPU 算力上;与之呼应,OpenAI 旗下的 GPT-5.5 和 GPT-5.4 也已经在两月前在亚马逊 AWS Bedrock 上架。

云巨头正从「独占模型」退守为「算力与流量入口」,而大模型则走向了多云分发的公用事业阶段。

信源:https://claude.com/blog/claude-in-microsoft-foundry
前通义千问RL负责人朱天航加入AI智能体研发商FRL,负责大模型训练

前阿里通义千问(Qwen)创始团队成员、强化学习(RL)负责人朱天航宣布入驻社交平台 X。

目前,他在美国 AI 智能体初创公司 Fundamental Research Labs(FRL,前身为 Altera,旗下开发有针对 Excel 电子表格的智能体产品 Shortcut)负责大模型训练,并已在实验室任职近一年半。

朱天航表示,接下来将开源并分享在 FRL 期间训练针对电子表格和金融领域大模型的实战经验。

早期他还曾负责零一万物(01.ai)的 RL 训练。

信源:https://x.com/TianhangZhuzth/status/2071674444201021729
首发原生适配昇腾:华为正式开源920亿参数openPangu-2.0-Flash

华为宣布正式开源盘古 openPangu-2.0-Flash 模型,并即将在 GitCode 的 Ascend Tribe 社区上线。

模型拥有 920 亿(92B)总参数,采用混合专家(MoE)架构,实际仅激活 60 亿参数,支持 512K 超长上下文。作为华为开源 AI 模型品牌,openPangu 致力于通过昇腾原生训练与推理技术,为业界提供昇腾算力开发实践参考。

根据开源规划,Flash 版本首批上线内容包括模型权重、基础推理代码和训推算子;性能更强的openPangu-2.0-Pro权重及推理代码将于7月推出,更多组件将在下半年陆续开源。

信源:https://mp.weixin.qq.com/s/03bfUULuB6wuWf4vCn6Deg
动察Beating AI News
月之暗面(Kimi)拟以300亿美元估值融资20亿美元,正拆除境外架构筹备赴港上市 据彭博社报道,月之暗面正与潜在投资者展开早期谈判,计划募集至多 20 亿美元,将估值推高至 300 亿美元。若新一轮融资成功,月之暗面估值相比 2025 年 12 月的 40 余亿美元将增长近七倍。这也是月之暗面半年来第三次融资,用于在白热化的中国人工智能竞争中追赶对手。 伴随 Kimi 聊天机器人及大语言模型的需求激增,月之暗面在 2026 年 4 月的年度经常性收入 (ARR) 已突破 2 亿美元。新一轮融资若成功,将使月之暗面超越估值约…
月之暗面(Kimi)估值升至315亿美元,ARR突破3亿美元

月之暗面(Kimi)上一轮 200 亿美元估值融资于近日完成交割,新一轮融资已经启动,投前估值涨至 315 亿美元。

据接近 Kimi 的机构人士介绍,Kimi 在本轮融资沟通中披露了其最新收入数据:6 月中旬,ARR(年度经常性收入)突破 3 亿美元。Kimi 此轮收入增长主要来自模型迭代带动的开发者使用和 API 收入提升。目前,API 收入已占 Kimi 整体收入 7 成以上并持续走高。

信源:https://www.chinastarmarket.cn/detail/2412708
Vibe Coding平台Base44推出首个自研模型Base 1,用数千万真实开发记录训练「产品直觉」

网页开发平台 Wix 旗下 Vibe Coding 平台 Base44 宣布推出其首个自研大模型 Base 1,并已在生产环境中上线。与只调用通用模型接口的平台不同,Base44 试图通过自研模型实现从数据库、后端基础设施到智能层的全栈垂直整合。

Base 1 的核心优势在于其特有的数据训练来源:平台过去积累的数千万次真实用户开发记录。这包括用户的原始需求、智能体生成的代码、运行中的报错、用户做出的修改,以及应用最终是否成功运行的真实闭环信号。

Base44 创始人 Maor Shlomo 指出,通用大模型必须兼顾各种编程语言和广泛任务,而 Base 1 专注在特定的应用开发环境内。他们不仅训练模型编写代码,还训练它具备「产品决策能力」,使其能够参与产品讨论、预测用户下一步需求,甚至在开发路径不合理时进行规避。

目前 Base 1 已加入平台的模型选择器,与其它主流模型并列,系统会根据任务类型自动调度。Base44 计划在未来几周公布该模型的具体技术细节以及基准测试结果。

信源:https://x.com/MaorShlomo/status/2071579906383687685
Cognition推出Devin Fusion:主智能体带「副手」并行,开发成本降低35%

AI 编程公司 Cognition 发布了用于智能体编程的混合模型架构 Devin Fusion。

该系统通过两个核心设计实现前沿模型的性能与更低成本的平衡:首先是「副手(Sidekick)」机制,让经济的小模型智能体与前沿大模型智能体并行,大模型保留规划、需求澄清和最终审查的「判断权」,而代码探索、测试、格式校验等「体力活」则分派给小模型,双方各自维护独立的缓存上下文以避免昂贵的缓存失效开销;其次是动态路由,在会话中根据任务演进动态调整模型,并选择在上下文压缩时切换,以实现「零成本」模型升级。

测试表明,在衡量代码正确性与质量的 FrontierCode 基准测试中,Devin Fusion 在维持前沿模型性能的前提下,使 GPT-5.5 和 Opus 4.8 级别模型的开发成本平均降低 35%;若配合 Fable 5 使用,成本可降低 41%(注:受美国政府指令影响,Fable 5 访问已于 2026 年 6 月 12 日被暂停,此降幅基于历史测试数据)。

在内部开发中,团队最终合并的 PR 有 88% 完全由 Fusion 自动路由驱动。然而,当任务极度依赖复杂的微妙开发意图与主观判断(如涉及 React/Redux 的多文件跨功能开发)时,过度委托会导致表现显著下降,得分从 54 跌至 27。

信源:https://cognition.com/blog/devin-fusion
动察Beating AI News
X推出官方MCP服务器,AI Agent可原生读写推文 X 开发者平台负责人 Chris Park 宣布 X API 完成四项升级: 1. 按量付费(Pay-Per-Use)模式全球正式上线,取代此前的固定月费套餐 2. 推出 XMCP Server 和命令行工具 xurl,让 AI Agent 通过 MCP 协议直接调用 150 余个 X API 端点 3. 发布官方 Python 和 TypeScript SDK(XDK),基于 Rust 从 OpenAPI 规范自动生成 4. 上线 API Pl…
X 推出官方托管 MCP 服务:AI 检索技术文档免凭证,调用 API 仍需本地桥接

继 4 月初推出本地 XMCP 方案后,X 开发者平台宣布正式上线官方托管(Hosted)的 MCP(模型上下文协议)服务。本次更新分为两个不同的托管端点,显著降低了 AI 助手调用 X API 和检索技术文档的配置门槛。

其中,用于检索官方 API 开发文档的 Docs MCP 服务完全免密且无需凭证,Cursor、Grok 等 AI 工具直接配置其云端 URL 即可在工作流中实时检索技术指南。

而对于涉及用户发帖、查贴等权限的 X API,X 官方采取了「云端协议托管 + 本地安全桥接」的架构:开发者仍需在 X 平台创建应用并配置自有的 Client ID 与 Client Secret 凭证,并在本地运行开源桥接工具 xurl 处理 stdio JSON-RPC 通信。用户在首次启动时通过浏览器完成一次性 OAuth2 授权后,即可让 AI 助手在本地安全调用云端托管的 API 接口。

信源:https://x.com/XDevelopers/status/2071752389183647758
Meta限制员工使用Claude与Codex,严防「模型蒸馏」违规

Meta 正在严格限制其应用 AI 工程团队使用 Anthropic 的 Claude Code和 OpenAI 的 Codex,甚至曾要求暂停部分相关任务以强化合规审查。Meta 担忧员工过度依赖外部工具开发内部替代品,导致竞品模型的输出渗入自身的训练数据中。这种「模型蒸馏」的做法可能会违反竞品的服务条款,引发与合作伙伴的严重冲突。

目前,Meta 仅允许员工将外部 AI 用于设置工作流、整理代码和构建测试基础设施等常规工作,且输出必须经人工严格审查;但严禁使用外部模型生成编程挑战来评估其内部模型,也禁止利用外部 AI 寻找代码漏洞或构思测试任务。

此举也是 Meta 试图通过推广自研编码助手 MetaCode(前称 DevMate)来重塑内部工具链、控制其高达数十亿美元的内部 AI 运营成本努力之一。

信源:https://www.theinformation.com/articles/internal-docs-show-meta-putting-limits-claude-codex-fearing-distillation
美团开源首个从训练到推理都用国产芯片的万亿大模型LongCat-2.0

美团开源超大规模混合专家(MoE)模型 LongCat-2.0。模型拥有 1.6 万亿总参数,单 token 激活参数约 480 亿,支持 1M 超长上下文。

这是业界首个依靠国产算力完成训练、推理全流程的万亿参数大模型。它在超过 5 万张国产 AI 芯片集群上完成了 35 万亿 token 的预训练,成功验证了国产算力承载前沿大模型的工程稳定性。

LongCat-2.0 的核心更新集中在长上下文和推理效率。LongCat Sparse Attention(LSA)针对稀疏注意力索引带来的显存读取和计算开销,引入流感知索引、跨层索引和分层索引,让长文本推理时的索引读取更连续,也能在相邻层之间复用部分索引结果。

模型还集成 1350 亿参数的 5-gram 嵌入模块,通过建模相邻 token 组合来扩展嵌入空间,增强局部上下文表达。相比只依赖 MoE 专家路由,这类前置嵌入可以在大 batch 推理中减少部分显存读写压力。

在 SWE-bench Pro 等主流 Agent 和代码评测中,LongCat-2.0 表现逼近甚至超越部分主流闭源模型。

信源:https://longcat.chat/blog/longcat-2.0/
Claude Fable 5或引入身份验证机制,并独立于订阅计划计费

据 AI 技术分析专家 @M1Astra 爆料,通过分析 Anthropic Claude 应用代码,显示新模型 Fable 5 需用户通过单独购买使用信用额度访问,且信用额度需用户完成身份验证后才可添加,与订阅计划独立计费。

6 月 27 日,Anthropic 公告称,「公司旗下最强的网络安全模型 Mythos 5 可重新部署至一批美国机构。同时正在继续与政府合作,扩大对 Mythos 5 的访问,并使 FABLE 5 再次可供公众使用。」
Claude Code更新预告:下一版本将默认让子智能体在后台执行任务

Claude Code 创作者 Boris Cherny 官宣,下一版本将默认让子智能体在后台执行任务,用户可一边和 Claude 对话讨论方案,一边等待后台自动完成代码重构、测试运行、PR 提交等工作;若需要子智能体在前台运行,仅需口头告知即可。

该功能目前已向小部分用户灰度测试,此前 Claude Code 已陆续上线了定时任务 Routines(云端运行,合上电脑也能持续干活)、动态工作流 Dynamic workflows(针对复杂任务调度数十至上百个子智能体并行协作)两项能力,本次升级是把「后台运行」固化为默认配置,进一步降低操作门槛。
OpenAI推出新优化方案,模型推理成本降低逾50%

据 The Information 报道,OpenAI 工程师开发出一系列新的模型优化技术,使模型推理成本降低超过 50%,并减少了对英伟达 GPU 的需求。

报道称,OpenAI 未来可能将部分成本节约用于下调 API 服务价格,或提高 ChatGPT 等产品的用户查询额度。
Claude Sonnet 5发布:智能体能力直逼旗舰,首发优惠对冲Token膨胀

Anthropic 正式推出中端主力模型 Claude Sonnet 5,主打强大的 Agent(智能体)自主规划、浏览器与终端工具调用等自动运行能力。新模型在 BrowseComp(智能搜索)和 OSWorld-Verified(电脑操作)等评估中大幅超越前代 Sonnet 4.6。用户可通过调整 effort(思考投入度)级别,使其性能表现直逼旗舰级模型 Opus 4.8。

安全性能方面,新模型相比 Sonnet 4.6 拥有更低的幻觉率,且提升了对恶意请求与提示词注入攻击的防御。虽然该模型未专门针对网络安全进行训练,安全能力远低于 Opus 4.8,但默认启用了实时网络安全防护机制。此外,模型升级了分词器,相同文本产生的 Token 数量较旧版增加 1.0 至 1.35 倍。为此,首发优惠价格设定为输入每百万 Token $2、输出 $10(持续至 2026 年 8 月 31 日,之后恢复 $3 与 $15 的标准价),旨在让用户切换模型时的实际成本基本持平。

目前该模型已向 Free、Pro、Max、Team 及 Enterprise 所有用户开放,并可在 Claude Code 中使用。

信源:https://www.anthropic.com/news/claude-sonnet-5