BinEval框架用是非题自动给AI打分,解决裁判模型虚报满分和不透明痛点
Capital One 的研究团队提出 BinEval 评估框架,将复杂的评分标准自动拆解为具体的「是或否」单选题,解决打分像黑盒子以及分数虚高的问题。框架让评估模型逐一回答各项是非题,最后用答对题目的比例计算得分。
在三个主流数据集的测试中,使用 Claude Sonnet 4 等大模型的 BinEval 打分质量匹配或超越了 UniEval 等主流评估工具,特别擅长揪出表面通顺但事实错误的回答。
以一则涉及飞机拦截的摘要评估为例,虽然摘要读起来流畅且实体与飞机型号都对,但摘要把五角大楼和俄罗斯的说法安反了,还瞎编了网址。旧的 AI 裁判因为只看表面,直接给了 5.0 的满分。而 BinEval 凭借七道是非题准确揪出四处事实错误,给出了 1.57 分,与人类给出的 2.0 分非常接近。
Capital One 的研究团队提出 BinEval 评估框架,将复杂的评分标准自动拆解为具体的「是或否」单选题,解决打分像黑盒子以及分数虚高的问题。框架让评估模型逐一回答各项是非题,最后用答对题目的比例计算得分。
在三个主流数据集的测试中,使用 Claude Sonnet 4 等大模型的 BinEval 打分质量匹配或超越了 UniEval 等主流评估工具,特别擅长揪出表面通顺但事实错误的回答。
以一则涉及飞机拦截的摘要评估为例,虽然摘要读起来流畅且实体与飞机型号都对,但摘要把五角大楼和俄罗斯的说法安反了,还瞎编了网址。旧的 AI 裁判因为只看表面,直接给了 5.0 的满分。而 BinEval 凭借七道是非题准确揪出四处事实错误,给出了 1.57 分,与人类给出的 2.0 分非常接近。
是非题反馈既能通过「强模型带弱模型」自动调教小裁判的评分标准,也能让写稿 AI 自动修改提示词进行自我纠错。实验表明,在指令遵循测试中,自动修改写稿提示词能将格式与句子结构的遵守率提升 17 个百分点。不过,对于限制字数等需要数学计算的硬实力,优化工具依然无能为力,且过度拆解相关性要求反而会让评估标准过于严苛。
信源:https://arxiv.org/abs/2606.27226
Capital One 的研究团队提出 BinEval 评估框架,将复杂的评分标准自动拆解为具体的「是或否」单选题,解决打分像黑盒子以及分数虚高的问题。框架让评估模型逐一回答各项是非题,最后用答对题目的比例计算得分。
在三个主流数据集的测试中,使用 Claude Sonnet 4 等大模型的 BinEval 打分质量匹配或超越了 UniEval 等主流评估工具,特别擅长揪出表面通顺但事实错误的回答。
以一则涉及飞机拦截的摘要评估为例,虽然摘要读起来流畅且实体与飞机型号都对,但摘要把五角大楼和俄罗斯的说法安反了,还瞎编了网址。旧的 AI 裁判因为只看表面,直接给了 5.0 的满分。而 BinEval 凭借七道是非题准确揪出四处事实错误,给出了 1.57 分,与人类给出的 2.0 分非常接近。
Capital One 的研究团队提出 BinEval 评估框架,将复杂的评分标准自动拆解为具体的「是或否」单选题,解决打分像黑盒子以及分数虚高的问题。框架让评估模型逐一回答各项是非题,最后用答对题目的比例计算得分。
在三个主流数据集的测试中,使用 Claude Sonnet 4 等大模型的 BinEval 打分质量匹配或超越了 UniEval 等主流评估工具,特别擅长揪出表面通顺但事实错误的回答。
以一则涉及飞机拦截的摘要评估为例,虽然摘要读起来流畅且实体与飞机型号都对,但摘要把五角大楼和俄罗斯的说法安反了,还瞎编了网址。旧的 AI 裁判因为只看表面,直接给了 5.0 的满分。而 BinEval 凭借七道是非题准确揪出四处事实错误,给出了 1.57 分,与人类给出的 2.0 分非常接近。
是非题反馈既能通过「强模型带弱模型」自动调教小裁判的评分标准,也能让写稿 AI 自动修改提示词进行自我纠错。实验表明,在指令遵循测试中,自动修改写稿提示词能将格式与句子结构的遵守率提升 17 个百分点。不过,对于限制字数等需要数学计算的硬实力,优化工具依然无能为力,且过度拆解相关性要求反而会让评估标准过于严苛。
信源:https://arxiv.org/abs/2606.27226
arXiv.org
Ask, Don't Judge: Binary Questions for Interpretable LLM...
Evaluating LLM outputs remains a major bottleneck in NLP: human evaluation is expensive and slow, lexical metrics correlate poorly with human judgments on open-ended generation, and holistic LLM...
字节豆包上线内置轻导航功能:支持步骑行原生播报
字节跳动旗下的豆包 App 近日上线了内置导航功能「豆包导航」。用户通过语音或文字输入目的地,并在授权定位权限后,即可在 App 内基于实时位置生成一体化地图卡片,陈列驾车、公交、骑行、步行四种出行方案。
豆包导航采用分场景差异化服务逻辑。步行和骑行路线支持豆包 App 内的原生导航,并提供实时语音播报,直观展示剩余路程、预计耗时及预估抵达时间。驾车和公共交通路线则需点击跳转第三方地图 App 完成导航。
字节跳动旗下的豆包 App 近日上线了内置导航功能「豆包导航」。用户通过语音或文字输入目的地,并在授权定位权限后,即可在 App 内基于实时位置生成一体化地图卡片,陈列驾车、公交、骑行、步行四种出行方案。
豆包导航采用分场景差异化服务逻辑。步行和骑行路线支持豆包 App 内的原生导航,并提供实时语音播报,直观展示剩余路程、预计耗时及预估抵达时间。驾车和公共交通路线则需点击跳转第三方地图 App 完成导航。
DeepSeek V4正式版定档7月中旬上线,引入峰谷双倍定价
DeepSeek 官方宣布 DeepSeek V4 正式版计划于 7 月中旬上线,并同步引入峰谷定价机制。在北京时间每日 9:00 至 12:00 以及 14:00 至 18:00 的高峰时段,API 计费价格将调整为平日的 2 倍。
在新定价机制下,高性能模型 deepseek-v4-pro 的平日每百万 tokens 输入缓存命中价格为 0.025 元,缓存未命中为 3.00 元,输出为 6.00 元。高峰时段,三项价格将分别上调至 0.05 元、6.00 元和 12.00 元。轻量级模型 deepseek-v4-flash 的平日每百万 tokens 输入缓存命中价格为 0.02 元,缓存未命中为 1.00 元,输出为 2.00 元。高峰时段,三项价格则对应调整为 0.04 元、2.00 元和 4.00 元。实际计费调整发生前 24 小时,官方将通过邮件通知用户。
旧有的两个 API 模型名称 deepseek-chat 与 deepseek-reasoner 将于北京时间 2026 年 7 月 24 日 23:59 正式弃用。过渡期内,旧模型名称已自动重定向,deepseek-chat 指向 deepseek-v4-flash 的非思考模式,deepseek-reasoner 指向思考模式。官方建议开发者在截止日期前,将 API 请求中的 model 参数修改为 deepseek-v4-pro 或 deepseek-v4-flash,以确保业务不受影响。
DeepSeek 官方宣布 DeepSeek V4 正式版计划于 7 月中旬上线,并同步引入峰谷定价机制。在北京时间每日 9:00 至 12:00 以及 14:00 至 18:00 的高峰时段,API 计费价格将调整为平日的 2 倍。
在新定价机制下,高性能模型 deepseek-v4-pro 的平日每百万 tokens 输入缓存命中价格为 0.025 元,缓存未命中为 3.00 元,输出为 6.00 元。高峰时段,三项价格将分别上调至 0.05 元、6.00 元和 12.00 元。轻量级模型 deepseek-v4-flash 的平日每百万 tokens 输入缓存命中价格为 0.02 元,缓存未命中为 1.00 元,输出为 2.00 元。高峰时段,三项价格则对应调整为 0.04 元、2.00 元和 4.00 元。实际计费调整发生前 24 小时,官方将通过邮件通知用户。
旧有的两个 API 模型名称 deepseek-chat 与 deepseek-reasoner 将于北京时间 2026 年 7 月 24 日 23:59 正式弃用。过渡期内,旧模型名称已自动重定向,deepseek-chat 指向 deepseek-v4-flash 的非思考模式,deepseek-reasoner 指向思考模式。官方建议开发者在截止日期前,将 API 请求中的 model 参数修改为 deepseek-v4-pro 或 deepseek-v4-flash,以确保业务不受影响。
抓到Codex额度耗光真凶,OpenAI修复多项漏洞并第三次全员重置补偿
OpenAI 旗下编程智能体 Codex 的额度异常消耗的原因已正式查明。核心产品负责人 Tibo Sottiaux 宣布,团队已全量部署修复补丁。除即将再次重置全员限额之外,所有用户还将额外获得一张限时 24 小时启用的重置卡。
暴耗并非源于单一漏洞,而是多项后台小问题与显示误报叠加所致。在运行层面,系统因自动审查过频、意外触发了过多子智能体任务,且后台建议功能在失败后会重复运行与频繁重试,成倍吞噬了 Token。在显示层面,自动审查被错误归类为 GPT-5.4 消耗,而执行失败或被限流的请求也在前端图表中被错误显示为额度消耗,直接引发了全网用户的额度荒。
目前,官方已在计费后端、桌面端与 CLI 终端同步部署热修补丁。未来,仅有成功的交互请求会记入 Turn 统计图表。虽然历史图表中的错误数据无法更改,但更新后的实际 Token 消耗将明显降低。
信源:https://x.com/thsottiaux/status/2071740419030053227
OpenAI 旗下编程智能体 Codex 的额度异常消耗的原因已正式查明。核心产品负责人 Tibo Sottiaux 宣布,团队已全量部署修复补丁。除即将再次重置全员限额之外,所有用户还将额外获得一张限时 24 小时启用的重置卡。
暴耗并非源于单一漏洞,而是多项后台小问题与显示误报叠加所致。在运行层面,系统因自动审查过频、意外触发了过多子智能体任务,且后台建议功能在失败后会重复运行与频繁重试,成倍吞噬了 Token。在显示层面,自动审查被错误归类为 GPT-5.4 消耗,而执行失败或被限流的请求也在前端图表中被错误显示为额度消耗,直接引发了全网用户的额度荒。
目前,官方已在计费后端、桌面端与 CLI 终端同步部署热修补丁。未来,仅有成功的交互请求会记入 Turn 统计图表。虽然历史图表中的错误数据无法更改,但更新后的实际 Token 消耗将明显降低。
信源:https://x.com/thsottiaux/status/2071740419030053227
X (formerly Twitter)
Tibo (@thsottiaux) on X
Codex usage limits will be fully reset again in the next hour and we will credit one additional reset into your bank for your own usage over the next 24 hours.
We investigated reports that Codex usage was being consumed faster than expected. There wasn't…
We investigated reports that Codex usage was being consumed faster than expected. There wasn't…
OpenClaw移动端App正式上线,手机充当电脑伴侣与硬件延伸
开源 AI 智能体框架 OpenClaw 的移动端 App 正式上架 iOS 和 Android 应用商店。这款移动端应用并非独立的 AI 聊天软件,而是本地自托管网关(Gateway)的伴侣节点。
它的核心逻辑全部在用户的电脑上运行,手机只充当 Agent 的「物理延伸」,用于提供摄像头、地理定位、语音交互和通知推送。为了保护隐私,移动端采取了严格的授权指令控制,手机截图或拍照等敏感权限默认关闭,需在本地网关上显式授权。
目前首发版本仍存在部分页面闪退和卡死问题,且应用商店已出现 Logo 相同的山寨应用 ClawOS,下载时需认准官方龙虾图标。
信源:https://x.com/openclaw/status/2071688039114342592
开源 AI 智能体框架 OpenClaw 的移动端 App 正式上架 iOS 和 Android 应用商店。这款移动端应用并非独立的 AI 聊天软件,而是本地自托管网关(Gateway)的伴侣节点。
它的核心逻辑全部在用户的电脑上运行,手机只充当 Agent 的「物理延伸」,用于提供摄像头、地理定位、语音交互和通知推送。为了保护隐私,移动端采取了严格的授权指令控制,手机截图或拍照等敏感权限默认关闭,需在本地网关上显式授权。
目前首发版本仍存在部分页面闪退和卡死问题,且应用商店已出现 Logo 相同的山寨应用 ClawOS,下载时需认准官方龙虾图标。
信源:https://x.com/openclaw/status/2071688039114342592
把AI编程塞进手机:Cursor推出iOS应用,主力模型Composer 2.5限时2.5折
AI 代码编辑器 Cursor 推出 iOS 原生应用公测版,让开发者在手机上也能写代码。
App 解决了开发者必须守在电脑前才能运行 AI 任务的痛点。现在,你只需要在手机上选好代码仓库,用文字或语音说出想法,就能在云端启动全天候运行的 AI 助理。AI 会在云端虚拟环境中独立跑任务、测试代码,并生成合并申请。如果你想控制家里或办公室电脑上的任务,也可以通过手机远程控制。
为了提升移动体验,Cursor 接入了苹果的「实时活动(Live Activities)」锁屏通知。一旦 AI 跑完代码、需要人工确认,或者生成了合并代码的请求,手机锁屏就会直接提醒。你可以在手机上直观查看 AI 生成的网页效果、截图以及代码修改对比,甚至可以直接一键合并代码。
iOS 版现已向所有付费用户开放。在 7 月 5 日前,通过手机 App 运行核心编程功能 Composer 2.5 还能享受 2.5 折的限时优惠。
信源:https://cursor.com/blog/ios-mobile-app
AI 代码编辑器 Cursor 推出 iOS 原生应用公测版,让开发者在手机上也能写代码。
App 解决了开发者必须守在电脑前才能运行 AI 任务的痛点。现在,你只需要在手机上选好代码仓库,用文字或语音说出想法,就能在云端启动全天候运行的 AI 助理。AI 会在云端虚拟环境中独立跑任务、测试代码,并生成合并申请。如果你想控制家里或办公室电脑上的任务,也可以通过手机远程控制。
为了提升移动体验,Cursor 接入了苹果的「实时活动(Live Activities)」锁屏通知。一旦 AI 跑完代码、需要人工确认,或者生成了合并代码的请求,手机锁屏就会直接提醒。你可以在手机上直观查看 AI 生成的网页效果、截图以及代码修改对比,甚至可以直接一键合并代码。
iOS 版现已向所有付费用户开放。在 7 月 5 日前,通过手机 App 运行核心编程功能 Composer 2.5 还能享受 2.5 折的限时优惠。
信源:https://cursor.com/blog/ios-mobile-app
年化营收飙至5亿美元,视频生成应用Higgsfield AI估值拟翻四倍至50亿美元
视频生成初创公司 Higgsfield AI 正与投资者洽谈以 50 亿美元的投前估值融资 3 亿至 5 亿美元。该估值是其今年 1 月融资时的四倍以上。与此同时,这家成立于 2023 年的旧金山公司本月年化营收跑率已达到 5 亿美元,是 1 月份 2 亿美元跑率的 2.5 倍。
目前,DST Global 正在洽谈投资事宜,但该轮融资尚未正式交割。Higgsfield AI 的主要业务是提供 AI 图像与视频生成平台,订阅价格为每月 19 至 99 美元,近期还推出了一款名为 Supercomputer 的营销智能体。该公司早期主要依靠个人创作者,但目前已有 70% 的平台活跃度来自企业客户。
这一交易谈判进一步印证了视频 AI 领域的投资热度:谷歌近期向电影制片厂(A24)投资了约 7500 万美元开展 AI 合作,而另一家视频生成公司 Runway 也在今年 2 月以 53 亿美元估值完成了 3.15 亿美元的融资。此外,Meta 曾在 2025 年探讨过收购 Higgsfield 及其竞争对手 Runway 的可能性。
信源:https://www.theinformation.com/articles/ai-video-startup-talks-quadruple-valuation-5-billion
视频生成初创公司 Higgsfield AI 正与投资者洽谈以 50 亿美元的投前估值融资 3 亿至 5 亿美元。该估值是其今年 1 月融资时的四倍以上。与此同时,这家成立于 2023 年的旧金山公司本月年化营收跑率已达到 5 亿美元,是 1 月份 2 亿美元跑率的 2.5 倍。
目前,DST Global 正在洽谈投资事宜,但该轮融资尚未正式交割。Higgsfield AI 的主要业务是提供 AI 图像与视频生成平台,订阅价格为每月 19 至 99 美元,近期还推出了一款名为 Supercomputer 的营销智能体。该公司早期主要依靠个人创作者,但目前已有 70% 的平台活跃度来自企业客户。
这一交易谈判进一步印证了视频 AI 领域的投资热度:谷歌近期向电影制片厂(A24)投资了约 7500 万美元开展 AI 合作,而另一家视频生成公司 Runway 也在今年 2 月以 53 亿美元估值完成了 3.15 亿美元的融资。此外,Meta 曾在 2025 年探讨过收购 Higgsfield 及其竞争对手 Runway 的可能性。
信源:https://www.theinformation.com/articles/ai-video-startup-talks-quadruple-valuation-5-billion
The Information
AI Video Startup in Talks to Quadruple Valuation to $5 Billion
AI video startup Higgsfield AI is in talks with investors to raise $300 million to $500 million at a valuation of $5 billion before the investment, according to two people with knowledge of the fundraising efforts. A valuation at that level would be more…
动察Beating AI News
GPT-5.5、Codex和托管Agent三件套同日登陆AWS Bedrock OpenAI 与 AWS 宣布三项产品同步进入 limited preview:GPT-5.5 等 OpenAI 模型上线 Amazon Bedrock,Codex 可直接以 Bedrock 为后端运行,以及由 OpenAI 驱动的 Amazon Bedrock Managed Agents 托管 agent 服务。这是 OpenAI 闭源模型首次在微软 Azure 之外的云平台上直接可用。 Codex 目前周活超过 400…
微软与亚马逊「互拆地基」:Claude登陆Azure,OpenAI杀入Bedrock
AI 模型两大阵营的排他性云联盟正式解体。
Anthropic 宣布其 Claude 4.x 系列(包括 Claude Opus 4.8 和 Claude Haiku 4.5)在微软 Azure AI Foundry 正式可用,直接运行在 NVIDIA GB300 GPU 算力上;与之呼应,OpenAI 旗下的 GPT-5.5 和 GPT-5.4 也已经在两月前在亚马逊 AWS Bedrock 上架。
云巨头正从「独占模型」退守为「算力与流量入口」,而大模型则走向了多云分发的公用事业阶段。
信源:https://claude.com/blog/claude-in-microsoft-foundry
AI 模型两大阵营的排他性云联盟正式解体。
Anthropic 宣布其 Claude 4.x 系列(包括 Claude Opus 4.8 和 Claude Haiku 4.5)在微软 Azure AI Foundry 正式可用,直接运行在 NVIDIA GB300 GPU 算力上;与之呼应,OpenAI 旗下的 GPT-5.5 和 GPT-5.4 也已经在两月前在亚马逊 AWS Bedrock 上架。
云巨头正从「独占模型」退守为「算力与流量入口」,而大模型则走向了多云分发的公用事业阶段。
信源:https://claude.com/blog/claude-in-microsoft-foundry
Claude
Claude in Microsoft Foundry is now generally available | Claude by Anthropic
Starting today, Claude models are generally available in Microsoft Foundry, hosted on Azure.
前通义千问RL负责人朱天航加入AI智能体研发商FRL,负责大模型训练
前阿里通义千问(Qwen)创始团队成员、强化学习(RL)负责人朱天航宣布入驻社交平台 X。
目前,他在美国 AI 智能体初创公司 Fundamental Research Labs(FRL,前身为 Altera,旗下开发有针对 Excel 电子表格的智能体产品 Shortcut)负责大模型训练,并已在实验室任职近一年半。
朱天航表示,接下来将开源并分享在 FRL 期间训练针对电子表格和金融领域大模型的实战经验。
早期他还曾负责零一万物(01.ai)的 RL 训练。
信源:https://x.com/TianhangZhuzth/status/2071674444201021729
前阿里通义千问(Qwen)创始团队成员、强化学习(RL)负责人朱天航宣布入驻社交平台 X。
目前,他在美国 AI 智能体初创公司 Fundamental Research Labs(FRL,前身为 Altera,旗下开发有针对 Excel 电子表格的智能体产品 Shortcut)负责大模型训练,并已在实验室任职近一年半。
朱天航表示,接下来将开源并分享在 FRL 期间训练针对电子表格和金融领域大模型的实战经验。
早期他还曾负责零一万物(01.ai)的 RL 训练。
信源:https://x.com/TianhangZhuzth/status/2071674444201021729
首发原生适配昇腾:华为正式开源920亿参数openPangu-2.0-Flash
华为宣布正式开源盘古 openPangu-2.0-Flash 模型,并即将在 GitCode 的 Ascend Tribe 社区上线。
模型拥有 920 亿(92B)总参数,采用混合专家(MoE)架构,实际仅激活 60 亿参数,支持 512K 超长上下文。作为华为开源 AI 模型品牌,openPangu 致力于通过昇腾原生训练与推理技术,为业界提供昇腾算力开发实践参考。
根据开源规划,Flash 版本首批上线内容包括模型权重、基础推理代码和训推算子;性能更强的openPangu-2.0-Pro权重及推理代码将于7月推出,更多组件将在下半年陆续开源。
信源:https://mp.weixin.qq.com/s/03bfUULuB6wuWf4vCn6Deg
华为宣布正式开源盘古 openPangu-2.0-Flash 模型,并即将在 GitCode 的 Ascend Tribe 社区上线。
模型拥有 920 亿(92B)总参数,采用混合专家(MoE)架构,实际仅激活 60 亿参数,支持 512K 超长上下文。作为华为开源 AI 模型品牌,openPangu 致力于通过昇腾原生训练与推理技术,为业界提供昇腾算力开发实践参考。
根据开源规划,Flash 版本首批上线内容包括模型权重、基础推理代码和训推算子;性能更强的openPangu-2.0-Pro权重及推理代码将于7月推出,更多组件将在下半年陆续开源。
信源:https://mp.weixin.qq.com/s/03bfUULuB6wuWf4vCn6Deg
动察Beating AI News
月之暗面(Kimi)拟以300亿美元估值融资20亿美元,正拆除境外架构筹备赴港上市 据彭博社报道,月之暗面正与潜在投资者展开早期谈判,计划募集至多 20 亿美元,将估值推高至 300 亿美元。若新一轮融资成功,月之暗面估值相比 2025 年 12 月的 40 余亿美元将增长近七倍。这也是月之暗面半年来第三次融资,用于在白热化的中国人工智能竞争中追赶对手。 伴随 Kimi 聊天机器人及大语言模型的需求激增,月之暗面在 2026 年 4 月的年度经常性收入 (ARR) 已突破 2 亿美元。新一轮融资若成功,将使月之暗面超越估值约…
月之暗面(Kimi)估值升至315亿美元,ARR突破3亿美元
月之暗面(Kimi)上一轮 200 亿美元估值融资于近日完成交割,新一轮融资已经启动,投前估值涨至 315 亿美元。
据接近 Kimi 的机构人士介绍,Kimi 在本轮融资沟通中披露了其最新收入数据:6 月中旬,ARR(年度经常性收入)突破 3 亿美元。Kimi 此轮收入增长主要来自模型迭代带动的开发者使用和 API 收入提升。目前,API 收入已占 Kimi 整体收入 7 成以上并持续走高。
信源:https://www.chinastarmarket.cn/detail/2412708
月之暗面(Kimi)上一轮 200 亿美元估值融资于近日完成交割,新一轮融资已经启动,投前估值涨至 315 亿美元。
据接近 Kimi 的机构人士介绍,Kimi 在本轮融资沟通中披露了其最新收入数据:6 月中旬,ARR(年度经常性收入)突破 3 亿美元。Kimi 此轮收入增长主要来自模型迭代带动的开发者使用和 API 收入提升。目前,API 收入已占 Kimi 整体收入 7 成以上并持续走高。
信源:https://www.chinastarmarket.cn/detail/2412708
www.chinastarmarket.cn
独家|Kimi估值升至315亿美元 ARR突破3亿美元 收入曲线现Anthropic早期特征
最新动态、监管动向、公司热点,全方位无死角、精选头条,打造科创板资讯第一阵地
Vibe Coding平台Base44推出首个自研模型Base 1,用数千万真实开发记录训练「产品直觉」
网页开发平台 Wix 旗下 Vibe Coding 平台 Base44 宣布推出其首个自研大模型 Base 1,并已在生产环境中上线。与只调用通用模型接口的平台不同,Base44 试图通过自研模型实现从数据库、后端基础设施到智能层的全栈垂直整合。
Base 1 的核心优势在于其特有的数据训练来源:平台过去积累的数千万次真实用户开发记录。这包括用户的原始需求、智能体生成的代码、运行中的报错、用户做出的修改,以及应用最终是否成功运行的真实闭环信号。
Base44 创始人 Maor Shlomo 指出,通用大模型必须兼顾各种编程语言和广泛任务,而 Base 1 专注在特定的应用开发环境内。他们不仅训练模型编写代码,还训练它具备「产品决策能力」,使其能够参与产品讨论、预测用户下一步需求,甚至在开发路径不合理时进行规避。
目前 Base 1 已加入平台的模型选择器,与其它主流模型并列,系统会根据任务类型自动调度。Base44 计划在未来几周公布该模型的具体技术细节以及基准测试结果。
信源:https://x.com/MaorShlomo/status/2071579906383687685
网页开发平台 Wix 旗下 Vibe Coding 平台 Base44 宣布推出其首个自研大模型 Base 1,并已在生产环境中上线。与只调用通用模型接口的平台不同,Base44 试图通过自研模型实现从数据库、后端基础设施到智能层的全栈垂直整合。
Base 1 的核心优势在于其特有的数据训练来源:平台过去积累的数千万次真实用户开发记录。这包括用户的原始需求、智能体生成的代码、运行中的报错、用户做出的修改,以及应用最终是否成功运行的真实闭环信号。
Base44 创始人 Maor Shlomo 指出,通用大模型必须兼顾各种编程语言和广泛任务,而 Base 1 专注在特定的应用开发环境内。他们不仅训练模型编写代码,还训练它具备「产品决策能力」,使其能够参与产品讨论、预测用户下一步需求,甚至在开发路径不合理时进行规避。
目前 Base 1 已加入平台的模型选择器,与其它主流模型并列,系统会根据任务类型自动调度。Base44 计划在未来几周公布该模型的具体技术细节以及基准测试结果。
信源:https://x.com/MaorShlomo/status/2071579906383687685
X (formerly Twitter)
Maor Shlomo (@MaorShlomo) on X
Introducing: Base 1
Our first model in a series of models trained and optimised to create incredible web applications.
the bet, and why we made it:
Our first model in a series of models trained and optimised to create incredible web applications.
the bet, and why we made it:
Cognition推出Devin Fusion:主智能体带「副手」并行,开发成本降低35%
AI 编程公司 Cognition 发布了用于智能体编程的混合模型架构 Devin Fusion。
该系统通过两个核心设计实现前沿模型的性能与更低成本的平衡:首先是「副手(Sidekick)」机制,让经济的小模型智能体与前沿大模型智能体并行,大模型保留规划、需求澄清和最终审查的「判断权」,而代码探索、测试、格式校验等「体力活」则分派给小模型,双方各自维护独立的缓存上下文以避免昂贵的缓存失效开销;其次是动态路由,在会话中根据任务演进动态调整模型,并选择在上下文压缩时切换,以实现「零成本」模型升级。
测试表明,在衡量代码正确性与质量的 FrontierCode 基准测试中,Devin Fusion 在维持前沿模型性能的前提下,使 GPT-5.5 和 Opus 4.8 级别模型的开发成本平均降低 35%;若配合 Fable 5 使用,成本可降低 41%(注:受美国政府指令影响,Fable 5 访问已于 2026 年 6 月 12 日被暂停,此降幅基于历史测试数据)。
在内部开发中,团队最终合并的 PR 有 88% 完全由 Fusion 自动路由驱动。然而,当任务极度依赖复杂的微妙开发意图与主观判断(如涉及 React/Redux 的多文件跨功能开发)时,过度委托会导致表现显著下降,得分从 54 跌至 27。
信源:https://cognition.com/blog/devin-fusion
AI 编程公司 Cognition 发布了用于智能体编程的混合模型架构 Devin Fusion。
该系统通过两个核心设计实现前沿模型的性能与更低成本的平衡:首先是「副手(Sidekick)」机制,让经济的小模型智能体与前沿大模型智能体并行,大模型保留规划、需求澄清和最终审查的「判断权」,而代码探索、测试、格式校验等「体力活」则分派给小模型,双方各自维护独立的缓存上下文以避免昂贵的缓存失效开销;其次是动态路由,在会话中根据任务演进动态调整模型,并选择在上下文压缩时切换,以实现「零成本」模型升级。
测试表明,在衡量代码正确性与质量的 FrontierCode 基准测试中,Devin Fusion 在维持前沿模型性能的前提下,使 GPT-5.5 和 Opus 4.8 级别模型的开发成本平均降低 35%;若配合 Fable 5 使用,成本可降低 41%(注:受美国政府指令影响,Fable 5 访问已于 2026 年 6 月 12 日被暂停,此降幅基于历史测试数据)。
在内部开发中,团队最终合并的 PR 有 88% 完全由 Fusion 自动路由驱动。然而,当任务极度依赖复杂的微妙开发意图与主观判断(如涉及 React/Redux 的多文件跨功能开发)时,过度委托会导致表现显著下降,得分从 54 跌至 27。
信源:https://cognition.com/blog/devin-fusion
Cognition
Devin Fusion
Introducing Devin Fusion: a hybrid-model harness that keeps frontier-level coding intelligence while cutting costs with sidekick agents and dynamic routing.
动察Beating AI News
X推出官方MCP服务器,AI Agent可原生读写推文 X 开发者平台负责人 Chris Park 宣布 X API 完成四项升级: 1. 按量付费(Pay-Per-Use)模式全球正式上线,取代此前的固定月费套餐 2. 推出 XMCP Server 和命令行工具 xurl,让 AI Agent 通过 MCP 协议直接调用 150 余个 X API 端点 3. 发布官方 Python 和 TypeScript SDK(XDK),基于 Rust 从 OpenAPI 规范自动生成 4. 上线 API Pl…
X 推出官方托管 MCP 服务:AI 检索技术文档免凭证,调用 API 仍需本地桥接
继 4 月初推出本地 XMCP 方案后,X 开发者平台宣布正式上线官方托管(Hosted)的 MCP(模型上下文协议)服务。本次更新分为两个不同的托管端点,显著降低了 AI 助手调用 X API 和检索技术文档的配置门槛。
其中,用于检索官方 API 开发文档的 Docs MCP 服务完全免密且无需凭证,Cursor、Grok 等 AI 工具直接配置其云端 URL 即可在工作流中实时检索技术指南。
而对于涉及用户发帖、查贴等权限的 X API,X 官方采取了「云端协议托管 + 本地安全桥接」的架构:开发者仍需在 X 平台创建应用并配置自有的 Client ID 与 Client Secret 凭证,并在本地运行开源桥接工具
信源:https://x.com/XDevelopers/status/2071752389183647758
继 4 月初推出本地 XMCP 方案后,X 开发者平台宣布正式上线官方托管(Hosted)的 MCP(模型上下文协议)服务。本次更新分为两个不同的托管端点,显著降低了 AI 助手调用 X API 和检索技术文档的配置门槛。
其中,用于检索官方 API 开发文档的 Docs MCP 服务完全免密且无需凭证,Cursor、Grok 等 AI 工具直接配置其云端 URL 即可在工作流中实时检索技术指南。
而对于涉及用户发帖、查贴等权限的 X API,X 官方采取了「云端协议托管 + 本地安全桥接」的架构:开发者仍需在 X 平台创建应用并配置自有的 Client ID 与 Client Secret 凭证,并在本地运行开源桥接工具
xurl 处理 stdio JSON-RPC 通信。用户在首次启动时通过浏览器完成一次性 OAuth2 授权后,即可让 AI 助手在本地安全调用云端托管的 API 接口。信源:https://x.com/XDevelopers/status/2071752389183647758
X (formerly Twitter)
Developers (@XDevelopers) on X
Announcing the hosted X MCP.
Agents now have access to the best real-time information source in the world.
Connect Grok, Cursor, or any MCP-compatible AI tool to the X API without any setup!
Check it out here: https://t.co/5MzPYwGFzD
Agents now have access to the best real-time information source in the world.
Connect Grok, Cursor, or any MCP-compatible AI tool to the X API without any setup!
Check it out here: https://t.co/5MzPYwGFzD
Meta限制员工使用Claude与Codex,严防「模型蒸馏」违规
Meta 正在严格限制其应用 AI 工程团队使用 Anthropic 的 Claude Code和 OpenAI 的 Codex,甚至曾要求暂停部分相关任务以强化合规审查。Meta 担忧员工过度依赖外部工具开发内部替代品,导致竞品模型的输出渗入自身的训练数据中。这种「模型蒸馏」的做法可能会违反竞品的服务条款,引发与合作伙伴的严重冲突。
目前,Meta 仅允许员工将外部 AI 用于设置工作流、整理代码和构建测试基础设施等常规工作,且输出必须经人工严格审查;但严禁使用外部模型生成编程挑战来评估其内部模型,也禁止利用外部 AI 寻找代码漏洞或构思测试任务。
此举也是 Meta 试图通过推广自研编码助手 MetaCode(前称 DevMate)来重塑内部工具链、控制其高达数十亿美元的内部 AI 运营成本努力之一。
信源:https://www.theinformation.com/articles/internal-docs-show-meta-putting-limits-claude-codex-fearing-distillation
Meta 正在严格限制其应用 AI 工程团队使用 Anthropic 的 Claude Code和 OpenAI 的 Codex,甚至曾要求暂停部分相关任务以强化合规审查。Meta 担忧员工过度依赖外部工具开发内部替代品,导致竞品模型的输出渗入自身的训练数据中。这种「模型蒸馏」的做法可能会违反竞品的服务条款,引发与合作伙伴的严重冲突。
目前,Meta 仅允许员工将外部 AI 用于设置工作流、整理代码和构建测试基础设施等常规工作,且输出必须经人工严格审查;但严禁使用外部模型生成编程挑战来评估其内部模型,也禁止利用外部 AI 寻找代码漏洞或构思测试任务。
此举也是 Meta 试图通过推广自研编码助手 MetaCode(前称 DevMate)来重塑内部工具链、控制其高达数十亿美元的内部 AI 运营成本努力之一。
信源:https://www.theinformation.com/articles/internal-docs-show-meta-putting-limits-claude-codex-fearing-distillation
The Information
Internal Docs Show Meta Putting Limits on Claude and Codex, Fearing Distillation
As Meta Platforms tries to wean itself off expensive AI coding applications from Anthropic and OpenAI, it is confronting a difficult challenge: keeping employees from relying too much on those outside tools to build in-house replacements. Internal guidelines…
美团开源首个从训练到推理都用国产芯片的万亿大模型LongCat-2.0
美团开源超大规模混合专家(MoE)模型 LongCat-2.0。模型拥有 1.6 万亿总参数,单 token 激活参数约 480 亿,支持 1M 超长上下文。
这是业界首个依靠国产算力完成训练、推理全流程的万亿参数大模型。它在超过 5 万张国产 AI 芯片集群上完成了 35 万亿 token 的预训练,成功验证了国产算力承载前沿大模型的工程稳定性。
LongCat-2.0 的核心更新集中在长上下文和推理效率。LongCat Sparse Attention(LSA)针对稀疏注意力索引带来的显存读取和计算开销,引入流感知索引、跨层索引和分层索引,让长文本推理时的索引读取更连续,也能在相邻层之间复用部分索引结果。
模型还集成 1350 亿参数的 5-gram 嵌入模块,通过建模相邻 token 组合来扩展嵌入空间,增强局部上下文表达。相比只依赖 MoE 专家路由,这类前置嵌入可以在大 batch 推理中减少部分显存读写压力。
在 SWE-bench Pro 等主流 Agent 和代码评测中,LongCat-2.0 表现逼近甚至超越部分主流闭源模型。
信源:https://longcat.chat/blog/longcat-2.0/
美团开源超大规模混合专家(MoE)模型 LongCat-2.0。模型拥有 1.6 万亿总参数,单 token 激活参数约 480 亿,支持 1M 超长上下文。
这是业界首个依靠国产算力完成训练、推理全流程的万亿参数大模型。它在超过 5 万张国产 AI 芯片集群上完成了 35 万亿 token 的预训练,成功验证了国产算力承载前沿大模型的工程稳定性。
LongCat-2.0 的核心更新集中在长上下文和推理效率。LongCat Sparse Attention(LSA)针对稀疏注意力索引带来的显存读取和计算开销,引入流感知索引、跨层索引和分层索引,让长文本推理时的索引读取更连续,也能在相邻层之间复用部分索引结果。
模型还集成 1350 亿参数的 5-gram 嵌入模块,通过建模相邻 token 组合来扩展嵌入空间,增强局部上下文表达。相比只依赖 MoE 专家路由,这类前置嵌入可以在大 batch 推理中减少部分显存读写压力。
在 SWE-bench Pro 等主流 Agent 和代码评测中,LongCat-2.0 表现逼近甚至超越部分主流闭源模型。
信源:https://longcat.chat/blog/longcat-2.0/
Claude Fable 5或引入身份验证机制,并独立于订阅计划计费
据 AI 技术分析专家 @M1Astra 爆料,通过分析 Anthropic Claude 应用代码,显示新模型 Fable 5 需用户通过单独购买使用信用额度访问,且信用额度需用户完成身份验证后才可添加,与订阅计划独立计费。
6 月 27 日,Anthropic 公告称,「公司旗下最强的网络安全模型 Mythos 5 可重新部署至一批美国机构。同时正在继续与政府合作,扩大对 Mythos 5 的访问,并使 FABLE 5 再次可供公众使用。」
据 AI 技术分析专家 @M1Astra 爆料,通过分析 Anthropic Claude 应用代码,显示新模型 Fable 5 需用户通过单独购买使用信用额度访问,且信用额度需用户完成身份验证后才可添加,与订阅计划独立计费。
6 月 27 日,Anthropic 公告称,「公司旗下最强的网络安全模型 Mythos 5 可重新部署至一批美国机构。同时正在继续与政府合作,扩大对 Mythos 5 的访问,并使 FABLE 5 再次可供公众使用。」
Claude Code更新预告:下一版本将默认让子智能体在后台执行任务
Claude Code 创作者 Boris Cherny 官宣,下一版本将默认让子智能体在后台执行任务,用户可一边和 Claude 对话讨论方案,一边等待后台自动完成代码重构、测试运行、PR 提交等工作;若需要子智能体在前台运行,仅需口头告知即可。
该功能目前已向小部分用户灰度测试,此前 Claude Code 已陆续上线了定时任务 Routines(云端运行,合上电脑也能持续干活)、动态工作流 Dynamic workflows(针对复杂任务调度数十至上百个子智能体并行协作)两项能力,本次升级是把「后台运行」固化为默认配置,进一步降低操作门槛。
Claude Code 创作者 Boris Cherny 官宣,下一版本将默认让子智能体在后台执行任务,用户可一边和 Claude 对话讨论方案,一边等待后台自动完成代码重构、测试运行、PR 提交等工作;若需要子智能体在前台运行,仅需口头告知即可。
该功能目前已向小部分用户灰度测试,此前 Claude Code 已陆续上线了定时任务 Routines(云端运行,合上电脑也能持续干活)、动态工作流 Dynamic workflows(针对复杂任务调度数十至上百个子智能体并行协作)两项能力,本次升级是把「后台运行」固化为默认配置,进一步降低操作门槛。
OpenAI推出新优化方案,模型推理成本降低逾50%
据 The Information 报道,OpenAI 工程师开发出一系列新的模型优化技术,使模型推理成本降低超过 50%,并减少了对英伟达 GPU 的需求。
报道称,OpenAI 未来可能将部分成本节约用于下调 API 服务价格,或提高 ChatGPT 等产品的用户查询额度。
据 The Information 报道,OpenAI 工程师开发出一系列新的模型优化技术,使模型推理成本降低超过 50%,并减少了对英伟达 GPU 的需求。
报道称,OpenAI 未来可能将部分成本节约用于下调 API 服务价格,或提高 ChatGPT 等产品的用户查询额度。
Anthropic最强模型Fable 5和Mythos 5明日解封
Anthropic 发布公告称,美国商务部已解除对 Claude Fable 5 和 Mythos 5 的出口管制,将于明天开始恢复访问,并将很快分享更新。
信源:https://x.com/AnthropicAI/status/2072106151890809341
Anthropic 发布公告称,美国商务部已解除对 Claude Fable 5 和 Mythos 5 的出口管制,将于明天开始恢复访问,并将很快分享更新。
信源:https://x.com/AnthropicAI/status/2072106151890809341
X (formerly Twitter)
Anthropic (@AnthropicAI) on X
We’ve received notice that the Department of Commerce has lifted export controls on Claude Fable 5 and Mythos 5.
We'll begin restoring access tomorrow, and will share an update soon.
We’re grateful to our users for their patience, and to everyone who worked…
We'll begin restoring access tomorrow, and will share an update soon.
We’re grateful to our users for their patience, and to everyone who worked…
Claude Sonnet 5发布:智能体能力直逼旗舰,首发优惠对冲Token膨胀
Anthropic 正式推出中端主力模型 Claude Sonnet 5,主打强大的 Agent(智能体)自主规划、浏览器与终端工具调用等自动运行能力。新模型在 BrowseComp(智能搜索)和 OSWorld-Verified(电脑操作)等评估中大幅超越前代 Sonnet 4.6。用户可通过调整 effort(思考投入度)级别,使其性能表现直逼旗舰级模型 Opus 4.8。
安全性能方面,新模型相比 Sonnet 4.6 拥有更低的幻觉率,且提升了对恶意请求与提示词注入攻击的防御。虽然该模型未专门针对网络安全进行训练,安全能力远低于 Opus 4.8,但默认启用了实时网络安全防护机制。此外,模型升级了分词器,相同文本产生的 Token 数量较旧版增加 1.0 至 1.35 倍。为此,首发优惠价格设定为输入每百万 Token $2、输出 $10(持续至 2026 年 8 月 31 日,之后恢复 $3 与 $15 的标准价),旨在让用户切换模型时的实际成本基本持平。
目前该模型已向 Free、Pro、Max、Team 及 Enterprise 所有用户开放,并可在 Claude Code 中使用。
信源:https://www.anthropic.com/news/claude-sonnet-5
Anthropic 正式推出中端主力模型 Claude Sonnet 5,主打强大的 Agent(智能体)自主规划、浏览器与终端工具调用等自动运行能力。新模型在 BrowseComp(智能搜索)和 OSWorld-Verified(电脑操作)等评估中大幅超越前代 Sonnet 4.6。用户可通过调整 effort(思考投入度)级别,使其性能表现直逼旗舰级模型 Opus 4.8。
安全性能方面,新模型相比 Sonnet 4.6 拥有更低的幻觉率,且提升了对恶意请求与提示词注入攻击的防御。虽然该模型未专门针对网络安全进行训练,安全能力远低于 Opus 4.8,但默认启用了实时网络安全防护机制。此外,模型升级了分词器,相同文本产生的 Token 数量较旧版增加 1.0 至 1.35 倍。为此,首发优惠价格设定为输入每百万 Token $2、输出 $10(持续至 2026 年 8 月 31 日,之后恢复 $3 与 $15 的标准价),旨在让用户切换模型时的实际成本基本持平。
目前该模型已向 Free、Pro、Max、Team 及 Enterprise 所有用户开放,并可在 Claude Code 中使用。
信源:https://www.anthropic.com/news/claude-sonnet-5