动察Beating AI News
2.84K subscribers
617 photos
2.89K links
AI新闻信息流
Download Telegram
Token实际成本降至0.99美元,SemiAnalysis披露大模型消费已占薪酬30%

在企业端广泛落地的智能体 AI 正在颠覆专业服务业的单元经济。研究机构 SemiAnalysis 披露,内部大模型 Token 支出已占员工总薪资的 30%,人均月消费近 50 亿个 Token,核心贡献者月消耗更超 1000 亿个。原本需要分析师耗时数小时的 Excel 模型转换与财报图表制作,如今可在几分钟内以数美元的代币成本完成。

实际使用成本的骤降是重塑专业服务业单元经济的关键。虽然 Opus 4.7 官方标价高达每百万 Token 5 美元输入与 25 美元输出,但由于智能体任务高达 300 对 1 的输入输出比,以及 90% 以上的提示词缓存命中率,使得实际混合 Token 成本仅为 0.99 美元/百万。

软件与硬件的共同加速正在进一步压缩生成成本。在 B300 运行 DeepSeek R1 时,通过 wideEP、disagg 与 MTP 软件优化,单 GPU 吞吐量能从 baseline 的 1000 tokens/秒飙升至 14000 tokens/秒,实现 14 倍的纯软件吞吐量提升。而在硬件层面,最优化配置的 GB300 NVL72 吞吐量是 H100 的 17 倍(FP4 下达 32 倍),从而为大模型开发商毛利率的增长提供了结构性保障,并预示 2027 年 Token 价格将远低于当前水平。

信源:https://x.com/SemiAnalysis_/status/2070915305858007345
OpenAI升级Codex体验:支持长对话悬停跳转与缩放对齐

Codex 本周发布更新,解决了长对话导航不便与界面元素缩放错位问题。针对长对话场景, Codex 引入了导航轨,用户将光标悬停在槽位边缘即可预览并直接跳转至临近的对话轮次。同时,线程滚动表现得到平滑,在长对话中切换时可自动保持浏览位置。

界面在缩放时增加了对齐防护,确保 Tooltips 提示、菜单、对话框、选择气泡、拖拽预览和自动补全等元素不发生错位。设置搜索范围已得到扩展,包含更丰富的外观控制、主机过滤和自定义 Provider 设置等控制项,并新增了宠物专属面板。归档管理操作得到简化,并同步了 Dock 栏和侧边栏的未读徽标。

在底层性能与协作上,更新减少了线程切换的后台工作量,支持分段加载更深层的本地历史记录。在跨平台交互上,从 Codex 复制文本至 Slack 现可保留 Markdown 格式,并修复了粘贴大文本块时界面卡死的问题。同时,草稿文本在线程交接时不会丢失,粘贴的图片预览也支持使用方向键导航。

信源:https://x.com/OpenAIDevs/status/2070922791529091376
OpenRouter:中美开源大模型与闭源前沿差距仅剩3至6个月,极低成本加速全球平替潮

聚合服务商 OpenRouter 披露,开源模型与闭源前沿模型的性能差距已稳定在 3 至 6 个月。在过去 18 个月中,前沿闭源实验室未能如预期般拉开身位,而以中美新玩家为代表的开源力量正凭借极高的性价比加速平替闭源模型。

DeepSeek V4 Flash 发布仅两个月就成为平替首选。拥有 2840 亿参数的 DeepSeek V4 Flash 在 SWE-bench Verified 评测中取得 79.0% 的成绩,表现逼近 GPT-5.5 级别。官方第一方输入/输出定价仅为 0.14/0.28 美元/百万 token,输出成本比 GPT-5.5 便宜约 150 倍。即使加上不保留数据训练的西方云托管溢价,实际成本也仅在闭源前沿模型的 1.3% 左右。

除了价格优势,智谱 2026 年 6 月发布的 GLM 5.2 在 Artificial Analysis 开源权重智能指数中排名第一,并在真实智能体评测中比肩 GPT-5.5 级别,成为长程编程规划的替换方案。不过,GLM 5.2 在深度思考时较为消耗 token,企业部署时需平衡输出成本。多模态开源模型 MiniMax M3 则凭借创新的 MSA 稀疏注意力架构,以较低的 token 价格提供了原生图像与视频的长上下文处理能力,成为 Gemini Flash 的强劲开源对手。

同时,基于 Mamba-2 混合架构的英伟达 Nemotron 3 Ultra 成为最强的美国本土开源力量,旨在通过开放生态拉动英伟达硬件与微服务生态的市场需求。

OpenRouter 强调,虽然前沿闭源模型最终仍会向前推进,但固定智能水平的 token 成本将持续走低,为企业提供了重大的成本优化空间。

信源:https://openrouter.ai/blog/insights/the-open-weight-models-that-matter-june-2026/
1
在线策略自蒸馏与做梦模拟或成大模型持续学习新解法

大语言模型在部署后,普遍面临无法持续吸收新知识的难题。目前的优化技术主要集中在扩大上下文窗口和提升查找速度上,这只能让模型在单个对话内临时查找信息,一旦关闭对话框,知识就会被全部忘光。大模型持续学习的真正瓶颈并不在这些查找速度的优化上,而是在于如何将对话里学到的经验,物理性地改写进大模型底层的权重参数里。

在线策略自蒸馏(Online Policy Self-Distillation, OPSD)提供了一条全新的权重更新路径。大模型在面临任务时,其拥有完整长上下文的「教师状态」(Teacher State)会生成高质量的解答。随后,系统在云端通过反向传播(Backpropagation),计算基础状态(学生,Student)与教师状态在 Token 级别的概率差异来提供稠密的监督信号,让基础模型去逼近那个拿了高分的聪明状态。

相比于强行让模型死记硬背所有对话文字的监督微调(Supervised Fine-Tuning, SFT),自蒸馏仅提取维持性能所必需的决策经验。这种极度稀疏的参数更新能够避免灾难性遗忘(Catastrophic Forgetting),保护大模型原有的通用常识不被覆盖。

另一条更具前瞻性的学习路径是做梦模拟(Dreaming)。当大模型面对复杂任务时,会消耗巨大的推理期算力在脑海中自我博弈。模型会根据日常观察到的规律,自动构建一个虚拟的模拟器环境(Simulator),并在模拟器环境中进行上万次任务演练。如果演练成功,系统就会把成功的轨迹记录下来作为教材,更新基础模型的底层权重。相比于仅生成简短摘要的轻量压缩,做梦模拟会消耗巨大算力在云端反复预演,属于大模型扩展的第四个维度。

预计 2027 至 2028 年,AI 代理在与人类协同工作一周后将接受工作评估。一旦获得认可,系统便能在云端通过在线策略自蒸馏(OPSD)或做梦模拟,将当周积累的实战经验蒸馏内化至模型的底层权重中,实现部署后能力的在线扩张,让大模型越用越聪明。

信源:https://www.youtube.com/watch?v=20p5-kQXF_Q
谷歌Pixel部署零拷贝MTP,Gemini Nano推理提速超50%且省内存

谷歌在 Pixel 9 与 Pixel 10 系列设备中部署了多 Token 预测(MTP)架构,直接加速内置的 Gemini Nano v3 模型。通过将轻量级 Transformer 预测头附加到已冻结的主模型尾部,新架构在完全保留原有安全对齐与输出质量的同时,将设备端推理速度提升了 50% 以上。

传统的投机解码需要运行一个独立的草稿模型来预测候选 Token。这不仅额外抢占手机的运行内存,且由于独立模型无法访问主模型的内部隐藏状态,导致预测准确率受限。新架构通过在冻结的主模型尾部嵌入 MTP 头,成功复用主模型已计算的特征激活,显著提升了候选 Token 的预测准确率。

为避免草稿计算在自回归生成时产生重复的运行内存开销,谷歌设计了零拷贝(zero-copy)机制。传统方案中,草稿模型生成候选词时需要维护独立的键值缓存(KV cache)记忆,而零拷贝机制让外挂预测头直接通过交叉注意力(Cross-Attention)去读取主模型已有的缓存。这不仅消除了草稿预测的启动延迟,还为手机节省了约 130MB 的运行内存空间。

在通知摘要与文本校对等 Pixel 实际业务中,MTP 架构使模型单次推理平均能成功多预测近 2 个 Token,降低了主处理器因校验而频繁被唤醒的频率,从而节省了系统功耗。在智能回复等高度结构化文本生成任务中,Token 接受率提升达 55%。

信源:https://research.google/blog/accelerating-gemini-nano-models-on-pixel-with-frozen-multi-token-prediction/
马斯克再开「月更」空头支票:旧模型跳票两月,新大饼悄然登场

马斯克宣布 Grok 4.5 开启面向特斯拉与 SpaceX 员工的私有内测,并承诺年底前 SpaceX 计划每月发布一款从头训练的全新模型。然而,自从 4 月中旬发布 Grok 4.3 之后,xAI 已有两个月未推出任何新模型,先前的更新承诺早已沦为笑谈。

反复推迟的发版节奏,堪称教科书级的「套娃式跳票」。马斯克曾在 4 月 18 日高调宣称,大模型工厂将每两周升级一次。当时排好的课表是,1T 参数的 Grok 4.4 预定 5 月初发,1.5T 的 Grok 4.5 预定 5 月底发。

眼看 5 月初的 ddl 过去,Grok 4.4 毫无音讯,马斯克在 5 月中旬改口称,1.5T 的 V9 模型训练完毕,大概 3 到 4 周内发布。到了 5 月 25 日,他又把发版时间推迟到 2 至 3 周。

结果到了 6 月底,我们只等来了一份仅限特斯拉内部体验的测试版。至于原本定档 5 月初发布的 Grok 4.4,在研发团队慢性失血的状况下早已悄然废弃。

虽然 SpaceX 在 6 月高价收购了 Cursor 母公司,试图用买来的团队与代码数据紧急填补窟窿,但骨干流失的尴尬,显然让马斯克大模型工厂的轰鸣声,听起来远不如他画饼的声音响亮。

信源:https://x.com/elonmusk/status/2071184354756477041
🤡4
动察Beating AI News
马斯克再开「月更」空头支票:旧模型跳票两月,新大饼悄然登场 马斯克宣布 Grok 4.5 开启面向特斯拉与 SpaceX 员工的私有内测,并承诺年底前 SpaceX 计划每月发布一款从头训练的全新模型。然而,自从 4 月中旬发布 Grok 4.3 之后,xAI 已有两个月未推出任何新模型,先前的更新承诺早已沦为笑谈。 反复推迟的发版节奏,堪称教科书级的「套娃式跳票」。马斯克曾在 4 月 18 日高调宣称,大模型工厂将每两周升级一次。当时排好的课表是,1T 参数的 Grok 4.4 预定 5 月初发,1.5T…
马斯克紧急为Grok 4.5吹牛降温:已调火箭团队救场,2T新饼已排期八月

在宣布 Grok 4.5 开启内测后不到半天,马斯克就紧急发帖为之前的狂言降温。他前脚宣称新模型性能「或许已超过 Opus」,后脚又急忙找补,澄清 V9 基础模型并不是「惊人地好」,只是一款和 Opus 同档次的「主力工具」。这番迅速的自我否定,显然是在给尚未公测的模型降低期待。

马斯克透露,由于 1.5T 版本的训练仅将新收购的 Cursor 代码数据作为「追加训练」(效果不及初始训练),导致技术表现打了折扣。为了挽回颜面,xAI 几周前已启动了 2T 参数的大模型训练,将全部数据融入预训练中,并定档于 8 月发布。

除了 Cursor 团队在微调与强化学习上的技术贡献,为了按时端出 8 月的 2T 新饼,马斯克甚至跨界调兵。数十名来自星链(Starlink)和星舰(Starship)项目的顶尖工程师已被抽调来协助 AI 训练。在核心开发团队失血后,用造火箭的专家来补齐 AI 工程师的空缺,让这场模型狂欢显得愈发仓促。

另外,马斯克又画下了更大的新饼,声称真正的性能飞跃要等 3 个月后,届时整个训练与推理栈将用 C/C++ 重构,彻底精简掉绝大多数软件层,以实现与 GB300 芯片的极致硬件适配。

信源:https://x.com/elonmusk/status/2071357162195132454
1
动察Beating AI News
OpenAI Codex防滥用机制误判导致额度暴耗,官方紧急重置全员额度 OpenAI 核心产品负责人 Tibo Sottiaux 表示,因系统内置的防欺诈与防滥用机制误判导致用户额度加速消耗,官方已紧急为所有 Codex 用户免费重置使用限额。 额度异常消耗问题实际始于 6 月 16 日左右,并于 6 月 25 日在社交平台彻底爆发。数百名开发者在 GitHub 及社交平台上反馈, Codex 的 Token 消耗速度出现异常飙升,部分账户的额度消耗速度相比以往加快了 10 至 20 倍。有订阅 200…
Codex额度异常又崩了,OpenAI再次全员硬重置

OpenAI 旗下编程智能体 Codex 的额度异常消耗漏洞仍未根治。OpenAI 核心产品负责人 Tibo Sottiaux 宣布,团队在周日紧急开启作战室筛查日志,并对所有用户实施了第二次硬重置。

6 月 27 日的首次重置未能解决问题。有用户反馈,在手动重置额度后仅过 36 小时,限额便再次跌去 75%。独立开发者 nicdunz 批评 OpenAI 在故障响应上过于松懈。

Sottiaux 透露,由于故障仍在排查,团队决定直接刷新所有用户额度。鉴于部分用户先前已积攒了多达三次自行重置配额,这次改成了直接重置,而不是发放额度重置卡。

巧合的是,本周是 OpenAI 的休整福利周,内部称为 RESET week。本应放假放松的研发团队,最终却在作战室以重置(RESET)全网限额的方式度过了假期。

信源:https://x.com/thsottiaux/status/2071381664853319742
Lody上架App Store:基于Loro实现手机与团队共享Code Agent状态

智能体平台 Lody 正式上架苹果 App Store,支持用户随时随地运行 Code Agent 并与团队协同。

Lody 能够为每个独立任务创建独立的 Git Worktree 工作区。多任务并行运行得以互不干扰,开发者无需担心本地工作目录被污染。移动端原生应用支持实时推送任务状态,方便用户在手机或 iPad 上审阅代码的 Diff 差异、批准变更并直接合并 Pull Request。

团队协作时,不同设备间的运行状态可以通过底层高性能同步框架 Loro 实现秒级实时同步。Loro 基于冲突无解复制数据类型 CRDT,通过特定的合并算法让各端能够独立并发修改数据并自动无冲突合并。当团队成员在手机上接续任务时,可以直接看到一致的代码差异、审批权限记录以及 Agent 实时运行日志。

信源:https://x.com/lody_ai/status/2071184229925310912
1
传统程序员与设计师分工正被AI瓦解,Claude Code之父介绍未来五大研发角色

AI 编程工具正让传统的程序员、设计师与产品经理角色界限变得模糊。

Claude Code 之父 Boris Cherny 指出,未来的产品研发将被重构为五种角色:
1. 负责验证创意的原型探索 Prototyper
2. 将想法落地的代码构建 Builder
3. 清理界面与简化代码的系统清理 Sweeper
4. 迭代优化市场契合度的增长迭代 Grower
5. 保障系统安全扩展的系统维护 Maintainer

Claude Code 团队已率先实践人岗解绑的混编模式,团队成员不再受岗位头衔约束,能够自由跨越职能边界。

在产品生命周期的不同阶段,五种角色的配比直接决定了项目成败。未成型的早期产品需要团队全力聚焦于创意探索、代码构建与系统清理;进入成熟期后,研发重心则需转向增长迭代与维护。

新分工彻底打碎了传统的职能壁垒,例如在 Anthropic 内部,部分设计师正直接跨界编写代码以清理 UI ,而部分工程师则专注于提出全新创意。

信源:https://x.com/bcherny/status/2071379474277613732
🖕1
动察Beating AI News
OpenRouter又上匿名模型Owl Alpha,之前三个都是中国公司的 AI 模型路由平台 OpenRouter 上线新匿名模型 Owl Alpha,提供商标记为「Stealth」,不标注开发团队。模型定位 agent 工作负载,原生支持工具调用,上下文窗口约 105 万 token,最大输出 262K token,量化格式 int8,兼容 Claude Code、OpenClaw 等主流工具。免费使用,但所有 prompt 和输出会被提供商记录用于改进模型。 OpenRouter 此前至少三个匿…
OpenRouter 热门匿名模型 Owl Alpha 身份揭晓:美团 LongCat-2.0-Preview

模型路由平台 OpenRouter 上近期增长最快的匿名智能体模型 Owl Alpha 真实身份被证实。多方信源证实,模型实际是美团研发的 LongCat-2.0-Preview,已经在平台上默默测试了近两个月。

在架构设计上,LongCat-2.0-Preview 采用混合专家(MoE)架构,拥有 1.6T 的庞大总参数量,平均激活参数约 48B(动态激活范围在 33B 至 56B 之间),并原生支持 1M 字符的上下文窗口。模型针对智能体工作负载进行了专门优化,涵盖多步推理、工具调用、代码生成及 DevOps 任务。

根据 OpenRouter 数据统计,Owl Alpha 在未公开身份的情况下,已经冲上全球智能体模型使用排行前三,在 Hermes 智能体月调用量中位列第一,在 Claude Code 中位列第二,在 OpenClaw 中位列第三。模型月度 Token 吞吐量已达 11T,增长率高达 200%。

信源:https://x.com/rohanpaul_ai/status/2071123605694652737
1
动察Beating AI News
Anthropic递交密信指控阿里Qwen非法调用2880万次Claude数据 据彭博社报道,Anthropic 在致美国国会参议员及白宫官员的信中,指控阿里巴巴旗下 Qwen 实验室利用近 2.5 万个欺诈账户对 Claude 进行大规模非法访问。信中披露,在 2026 年 4 月至 6 月期间,关联账户与 Claude 进行了高达 2880 万次的交互,重点针对软件工程与智能体推理等核心能力。 Anthropic 警告称,阿里与中国实验室正在系统性、非法地利用美国前沿模型的输出,以极低研发成本训练…
Claude升级风控,引发中文用户封号潮

Anthropic 近日向美国国会提交指控信,声称阿里巴巴通义千问团队在 2026 年 4 月至 6 月期间,利用约 2.5 万个虚假账号对 Claude 进行大规模对抗性蒸馏攻击。受模型数据安全防范以及官方收紧合规政策影响,大批中文用户遭遇账号封禁。

开发社区反馈显示,风控系统近期的过滤算法更加严苛,检测维度从单纯的 IP 地址延伸至设备指纹、DNS 泄露、WebRTC 状态以及系统时区一致性。使用共享 VPN 节点、虚拟手机号或在中文问答交互中表现出自动化请求特征的账号,均被系统拦截封禁。同时,官方对使用 OAuth 令牌接入第三方中转服务的订阅账号实施了无差别清理,迫使大量依赖 API 代理的开发者转向 AWS Bedrock 等官方合规渠道。
Citrini提出AI监管对冲策略:做多能用上最新AI的上市公司并做空大盘

投研机构 Citrini Research 判断,前沿 AI 模型的分发将全面转向政府准入审批制,并建议做多更易获准接入最新模型的下游企业、做空宽基指数。

大模型监管准入将直接拉开企业间的生产力差距。随着 OpenAI 针对旗舰模型 GPT-5.6 Sol 的早期内测要求组织授权披露参与情况,前沿模型正在从通用基础设施退化为受政府管制的特许物资。由于宽基指数包含大批无缘 AI 赋能的传统企业,大盘指数表现将被拖累。

相反,少数获批接入的下游特许企业将实现超额增长。做多特许获批群体并做空大盘指数,能帮助投资者在对冲市场风险的同时,锁定监管壁垒带来的效率红利。

信源:https://x.com/citrini/status/2071387105096306956
👍1
GLM-5.2服务商实测:Parasail与智谱官方性能最强

模型聚合服务商 OpenRouter 会持续对每个大模型进行动态路由测评,以找出最优质的运行渠道。在智谱 AI 最新开源模型 GLM-5.2 的评测中,云服务商 Parasail.io 与智谱官方渠道 z-ai 并列性能表现首位。

动态路由系统能自动帮用户挑选服务商。对于包含工具调用(Tool Calling)的请求, OpenRouter 默认开启自动分流。如果是普通的聊天请求,用户需要在模型名称后面加上 :exacto 标识来手动开启。系统每 5 分钟自动测试一次所有的服务商,把表现不好、容易报错的通道往后排,自动把用户的请求分发给速度最快、最稳定的服务商。

实测评测用到了两套工具。第一套是 TauBench(也被称为 Top Bench,用来模拟航空公司客服,测试 AI 能不能边查数据库边帮用户订票、退票,也就是多步骤的动手干活能力)。第二套是 GPQA 科学问题集,包含物理、化学和生物等领域的博士级难题,专门用来测试 AI 的复杂推理能力。通过让不同服务商的 AI 答题,系统能测出各家提供服务的真实速度与准确率。

信源:https://openrouter.ai/z-ai/glm-5.2#performance
1
传长鑫存储与腾讯签超200亿元芯片供货协议,DRAM产能拟翻倍

知情人士透露,中国内存芯片制造商长鑫存储已与腾讯签署了一项价值超 200 亿元人民币的长期服务器 DRAM 芯片供货协议。两名知情人士称协议期跨度长达 3 年,另一名消息源则指长达 5 年。目前尚不清楚协议是否包含对高性能 AI 芯片至关重要的 HBM 内存,但合作旨在为腾讯云服务、数据库及 AI 工作负载提供稳定的服务器内存支持。长鑫存储目前正筹备在上海证券交易所科创板进行首次公开募股 (IPO),计划募集 295 亿元人民币。

长鑫存储正通过大举扩产应对全球内存供求偏紧与价格暴涨。受全球服务器内存供应短缺影响,2026 年第一季度 DRAM 合约价环比大涨约 95%,且行业上升周期预计将持续到 2027 年底。受行业景气推动,长鑫存储在 2026 年第一季度营收同比暴增 700% 至 508 亿元,并实现 250 亿元净利润,成功扭亏为盈。除现有的合肥、北京三座 12 英寸晶圆厂、以及上海现有的 HBM 封装设施外,长鑫存储已在上海开工建设一座新的 DRAM 晶圆厂。新厂建成投产后,长鑫存储的 DRAM 月产能将从现有的 30 万片翻倍至 60 万片。

目前,中国国内互联网巨头正加速锁定本土半导体供应链。除腾讯外,长鑫存储目前也在与另外几家中国大型互联网公司接触,招股说明书披露的客户还包括阿里云、字节跳动、联想和小米。不过长鑫存储依然面临良率瓶颈,下一代 DDR5 内存产品在 2026 年第一季度曾遭遇良率偏低问题,暴露出与三星、SK 海力士等国际一线厂商的技术差距。

信源:https://www.reuters.com/world/china/chinas-cxmt-wins-3-billion-memory-supply-deal-with-tencent-sources-say-2026-06-29/
🥰2
贾扬清入职仅一年从英伟达离职,DGX Lepton运营表现未达预期

在英伟达以数亿美元收购 AI 初创公司 LeptonAI 仅一年后,LeptonAI 创始人(后担任英伟达系统软件副总裁)贾扬清已从英伟达离职。据 SemiAnalysis 爆料,双方决裂的主要原因在于英伟达首席执行官黄仁勋对 DGX Cloud Lepton 项目的运营表现不佳感到不满,且双方在产品执行力与开源承诺上存在分歧。

英伟达于 2025 年 4 月收购 LeptonAI,并于同年 6 月将平台重塑为 DGX Cloud Lepton 重新发布,定位为统一的 AI 算力市场。英伟达最初承诺在 2026 年前开源 LeptonAI 的核心软件平台,但截至目前仍未兑现。外界猜测,黄仁勋在收购后改变了主意,拒绝批准开源计划,而为期数年的股权归属期协议也未能留住贾扬清。

除内部文化与策略分歧外,以 Cursor 和 Claude Code 为代表的 AI 智能体编程工具的兴起,也在重塑中间件市场。编程工具降低了开发者构建应用时的工程门槛,稀释了 LeptonAI 等基础设施平台的工程价值。

贾扬清本月上旬受邀担任了 GPU 云服务商 Hyperbolic 的顾问。

信源:https://x.com/SemiAnalysis_/status/2071337888059408701
Cognition CEO建议以实际产出评估代替Token刷量考核

AI 编程初创公司 Cognition 联合创始人兼 CEO Scott Wu 在 Founders 播客中指出,部分企业通过统计员工消耗 AI Token 数量来考核程序员表现的做法已「做过头了」,应当以实际完成的工单和产出为衡量标准。

这股风气在硅谷被称为 tokenmaxxing,即员工为了在内部 AI 使用率仪表盘或绩效评估中获得优势,反射性地大量调用 Claude、Codex 或 Cursor 等 AI 编程工具。法律 AI 创企 Legora 的技术总监 Jacob Lauritzen 本月在播客中同样批评称,不少人在绩效评估中展示 Token 使用量,导致员工单纯为了数据好看而刷量,属于愚蠢的评估方式。

芯片开发商 Cerebras Systems 的首席执行官 Andrew Feldman 在本月的彭博会议上表示,给员工提供无限 Token 额度从一开始就非常愚蠢。Feldman 建议企业在使用 AI 工具时应当更加注重成本效益,使用低成本的开源模型,而不是在普通任务中滥用顶级闭源模型。

信源:https://www.businessinsider.com/cognition-ceo-scott-wu-tokenmaxxing-leaderboards-opinion-ai-vibe-coding-2026-6
动察Beating AI News
彭博社:百度昆仑芯计划在科创板和香港双重上市,估值超30亿美元 百度旗下 AI 芯片公司昆仑芯正在推进两地上市计划。据彭博社报道,中金公司向中国证监会提交的文件显示,昆仑芯正寻求在上海科创板进行首次公开募股(IPO)。此前,昆仑芯已被曝在今年早些时候秘密提交了香港上市申请。 昆仑芯早年由百度内部成立,旨在为其 AI 业务提供算力支持,百度目前持有该公司 58% 的股份。在去年 12 月的报道中,昆仑芯的估值至少达到 30 亿美元。杰富瑞(Jefferies)分析师预计,昆仑芯的香港 IPO 有望在今年…
百度芯片部门昆仑芯冲刺500亿美元上市,被指绑定3至7倍认购额购芯协议

百度旗下 AI 芯片公司昆仑芯计划在香港首次公开募股,估值目标为 500 亿美元,但在路演中将芯片采购承诺列为认购的前提条件。多名参与路演的知情人士透露,昆仑芯在配售时优先考虑承诺购芯的买方,要求采购的芯片价值达到认购额的 3 至 7 倍,认购方主要为地方政府背景的 AI 与半导体投资基金。

500 亿美元的估值目标较母公司百度的市值高出近 40% ,百度目前持有昆仑芯 58% 的股份。先前昆仑芯曾计划通过首次公开募股融资至多 20 亿美元,但面临着在竞争激烈的中国 AI 芯片市场中建立外部客户群的压力。

昆仑芯成立于 2011 年,产品兼容英伟达的 CUDA 软件系统。百度已开始在昆仑芯芯片上训练新版文心大模型,部分替代英伟达的 GPU 。目前主力芯片为用于推理的 P800 系列, M100 系列已准备在今年进行大规模推理, M300 系列则计划于 2027 年用于训练和推理。除母公司外,腾讯也已成为主要的外部客户。

然而,昆仑芯并未进入中国 5 月公布的首批安全可靠测评芯片认证名单,而华为、沐曦 (MetaX) 、摩尔线程 (Moore Threads) 以及阿里旗下平头哥 (T-Head) 均已入选。未获认证主要受制于代工渠道,昆仑芯先前主要依赖三星电子进行芯片制造。为争取面向政府和国企的采购订单,昆仑芯正与中芯国际进行谈判,计划将部分芯片生产转移至国内代工厂。

信源:https://www.theinformation.com/articles/baidus-chip-unit-asked-ipo-investors-buy-semiconductors
🤡1
BinEval框架用是非题自动给AI打分,解决裁判模型虚报满分和不透明痛点

Capital One 的研究团队提出 BinEval 评估框架,将复杂的评分标准自动拆解为具体的「是或否」单选题,解决打分像黑盒子以及分数虚高的问题。框架让评估模型逐一回答各项是非题,最后用答对题目的比例计算得分。

在三个主流数据集的测试中,使用 Claude Sonnet 4 等大模型的 BinEval 打分质量匹配或超越了 UniEval 等主流评估工具,特别擅长揪出表面通顺但事实错误的回答。

以一则涉及飞机拦截的摘要评估为例,虽然摘要读起来流畅且实体与飞机型号都对,但摘要把五角大楼和俄罗斯的说法安反了,还瞎编了网址。旧的 AI 裁判因为只看表面,直接给了 5.0 的满分。而 BinEval 凭借七道是非题准确揪出四处事实错误,给出了 1.57 分,与人类给出的 2.0 分非常接近。

Capital One 的研究团队提出 BinEval 评估框架,将复杂的评分标准自动拆解为具体的「是或否」单选题,解决打分像黑盒子以及分数虚高的问题。框架让评估模型逐一回答各项是非题,最后用答对题目的比例计算得分。

在三个主流数据集的测试中,使用 Claude Sonnet 4 等大模型的 BinEval 打分质量匹配或超越了 UniEval 等主流评估工具,特别擅长揪出表面通顺但事实错误的回答。

以一则涉及飞机拦截的摘要评估为例,虽然摘要读起来流畅且实体与飞机型号都对,但摘要把五角大楼和俄罗斯的说法安反了,还瞎编了网址。旧的 AI 裁判因为只看表面,直接给了 5.0 的满分。而 BinEval 凭借七道是非题准确揪出四处事实错误,给出了 1.57 分,与人类给出的 2.0 分非常接近。

是非题反馈既能通过「强模型带弱模型」自动调教小裁判的评分标准,也能让写稿 AI 自动修改提示词进行自我纠错。实验表明,在指令遵循测试中,自动修改写稿提示词能将格式与句子结构的遵守率提升 17 个百分点。不过,对于限制字数等需要数学计算的硬实力,优化工具依然无能为力,且过度拆解相关性要求反而会让评估标准过于严苛。

信源:https://arxiv.org/abs/2606.27226
字节豆包上线内置轻导航功能:支持步骑行原生播报

字节跳动旗下的豆包 App 近日上线了内置导航功能「豆包导航」。用户通过语音或文字输入目的地,并在授权定位权限后,即可在 App 内基于实时位置生成一体化地图卡片,陈列驾车、公交、骑行、步行四种出行方案。

豆包导航采用分场景差异化服务逻辑。步行和骑行路线支持豆包 App 内的原生导航,并提供实时语音播报,直观展示剩余路程、预计耗时及预估抵达时间。驾车和公共交通路线则需点击跳转第三方地图 App 完成导航。
DeepSeek V4正式版定档7月中旬上线,引入峰谷双倍定价

DeepSeek 官方宣布 DeepSeek V4 正式版计划于 7 月中旬上线,并同步引入峰谷定价机制。在北京时间每日 9:00 至 12:00 以及 14:00 至 18:00 的高峰时段,API 计费价格将调整为平日的 2 倍。

在新定价机制下,高性能模型 deepseek-v4-pro 的平日每百万 tokens 输入缓存命中价格为 0.025 元,缓存未命中为 3.00 元,输出为 6.00 元。高峰时段,三项价格将分别上调至 0.05 元、6.00 元和 12.00 元。轻量级模型 deepseek-v4-flash 的平日每百万 tokens 输入缓存命中价格为 0.02 元,缓存未命中为 1.00 元,输出为 2.00 元。高峰时段,三项价格则对应调整为 0.04 元、2.00 元和 4.00 元。实际计费调整发生前 24 小时,官方将通过邮件通知用户。

旧有的两个 API 模型名称 deepseek-chat 与 deepseek-reasoner 将于北京时间 2026 年 7 月 24 日 23:59 正式弃用。过渡期内,旧模型名称已自动重定向,deepseek-chat 指向 deepseek-v4-flash 的非思考模式,deepseek-reasoner 指向思考模式。官方建议开发者在截止日期前,将 API 请求中的 model 参数修改为 deepseek-v4-pro 或 deepseek-v4-flash,以确保业务不受影响。