动察Beating AI News
2.29K subscribers
293 photos
1.58K links
AI新闻信息流
Download Telegram
此前白名单制曾催生千万级「拼盘」:Seedance 2.0 API面向企业开放公测

字节跳动旗下火山引擎在 AI 创新巡展·武汉站上宣布,视频生成模型 Seedance 2.0 的 API 面向企业用户开放公测。此前该 API 仅通过白名单向选定的商业合作伙伴开放,供不应求催生了二级转售市场,据 36 氪报道,有机构年付千万元购买「拼盘」式 API 额度。

API 定价约 28 元/百万 token(含视频素材输入)和 46 元/百万 token(不含视频输入),生成一条 15 秒 1080P 视频消耗约 30 万 token,成本约 15 元,折合 1 元/秒。火山引擎同步强调 API 提供覆盖全模态、全创作流程的版权与肖像安全保障,包含侵权检测和深度伪造防御。

信源:https://www.volcengine.com/contact/seedance2-0public
阶跃Step 3.5 Flash新增低推理模式,token降56%

AI 大模型公司阶跃星辰发布 Step 3.5 Flash 2603,是 Step 3.5 Flash 的优化版本,已面向所有 Step Plan 用户开放。

核心变化是新增 low think mode(低推理模式)。官方测试数据显示,默认推理模式(high)下推理分数基本持平,token 消耗降低 14%;切换到 low think mode 后,token 消耗降低 56%。模型同时针对编程框架和 Agent 框架做了优化训练,提升稳定性和 token 效率。

阶跃星辰在公告中观察到,OpenClaw 用户在 Agent 场景中大量任务频率高但复杂度不高,「聪明的用户已经在做按需分配:复杂环节用重型模型,中间步骤和高频任务用轻量模型」。API 同时支持 OpenAI 和 Anthropic 两种协议格式,通过 reasoning_effort 或 budget_tokens 参数控制推理强度。

信源:https://mp.weixin.qq.com/s/JhRl9x131pP8-g5bRr242w
给OpenAI和Anthropic训练模型的公司被黑了:Mercor确认遭攻击,Lapsus$称窃4TB数据

AI 模型评估与专家人力外包平台 Mercor 确认遭受网络攻击,起因是开源 Python 库 LiteLLM 的供应链被攻破。Mercor 称自己是「数千家受影响公司之一」,已聘请第三方取证专家调查。

LiteLLM 是一个月下载量达 9700 万次的 Python 库,开发者用它作为统一接口连接 OpenAI、Anthropic 等超过 100 家 AI 服务。一个名为 TeamPCP 的黑客组织向 PyPI 上传了被注入恶意代码的 1.82.7 和 1.82.8 版本,代码会窃取 SSH 密钥、API token、.env 文件和云服务商凭证,并建立持久后门。安全公司 Snyk 发现后恶意版本在数小时内被下架,但暴露窗口已足以让攻击者入侵下游系统。

勒索黑客组织 Lapsus$ 随后在其泄露站点宣称对 Mercor 的攻击负责,声称共窃取约 4TB 数据,包括:

1. 939GB 源代码
2. 211GB 数据库
3. 3TB 存储桶(据称包含视频面试录像、身份验证文件等)
4. TailScale VPN 全部数据

Lapsus$ 在帖子中还公布了部分数据样本,包括 Slack 通讯记录、工单系统信息,以及 Mercor AI 系统与平台承包商互动的视频。社交媒体上有安全研究者分析泄露样本后指出,数据中出现了疑似与亚马逊、苹果、Meta 相关的内部项目文件结构,但 Mercor 尚未确认具体哪些客户数据受到影响。

Mercor 成立于 2023 年,估值 100 亿美元(2025 年 10 月 C 轮),管理超过 3 万名专家承包商,日均向承包商支付超过 200 万美元,为 OpenAI、Anthropic、Google DeepMind 等 AI 实验室提供模型训练和评估所需的专家级人工反馈服务。Mercor 发言人确认已启动调查,但拒绝回答事件是否与 Lapsus$ 的声明有关,也未说明是否有客户或承包商数据被访问、泄露或滥用。如果 Lapsus$ 的说法属实,这将是一起直接触及多家头部 AI 实验室训练流程核心数据的重大安全事件。目前 TeamPCP 与 Lapsus$ 之间的关系尚不清楚。Cybernews 分析认为,Lapsus$ 对 Mercor 的攻击可能标志着 TeamPCP 与勒索组织开始实质协作,类似此前 ShinyHunters 利用 Salesforce 漏洞、Cl0p 利用 MOVEit 漏洞后的连锁效应。

信源:https://techcrunch.com/2026/03/31/mercor-says-it-was-hit-by-cyberattack-tied-to-compromise-of-open-source-litellm-project/
做「硬件版OpenClaw」的无界方舟获韶音投资,一年四轮累计数亿元

AI 硬件操作系统公司无界方舟(AutoArk)完成连续两轮 Pre-A 轮融资,投资方包括穿戴式设备品牌韶音(Shokz)、国瑞源基金、恒松资本和上海天使会,易凯资本担任独家财务顾问。加上去年由蚂蚁早期生态基金和小饭桌创投领投的 Pre-A 及柏睿资本独投的 Pre-A+ 轮,无界方舟过去一年内完成四轮融资,累计金额数亿元。

无界方舟 2024 年成立于珠海,核心产品是端侧 AI 操作系统 EVA OS。创始人曾晓东将其定位为「硬件端的 OpenClaw」:OpenClaw 是跑在云端和电脑上的 Agent 框架,EVA OS 则让 AI Agent 原生运行在机器人、耳机、眼镜等硬件设备上。开发者用自然语言描述需求,EVA OS 自动完成驱动调通、程序编写和部署,将此前需要 3 人、2-3 个月的端侧 AI 开发流程压缩到平均半小时。曾晓东把这套范式称为 Vibe Hardware。

技术上,EVA OS 采用端云协同架构,语音识别、TTS 和视觉感知等高频交互在端侧完成,复杂推理交给云端。语音延迟低于 250 毫秒,多模态反馈低于 350 毫秒,较行业通用方案约 600 毫秒有明显改善。感知模型完全跑在端侧,成本降低 70%-92%。EVA OS 1.0 发布三个多月以来,已有超过 2500 家企业和研发单位将其用于 AI 耳机、AI 眼镜、桌面机器人、智能腕带、车载智能管家、机械手臂等品类的产品研发。

曾晓东曾在阿里巴巴和蚂蚁集团任职约十年,从零孵化了刷脸支付、支付宝盒(千万级销量)和中国首家无人超市「淘咖啡」,2017 年入选 MIT Technology Review「35 岁以下科技创新 35 人」中国榜单。无界方舟首款硬件产品「奇多多 AI 学伴机」面向 3-10 岁儿童,售价千元级别且 AI 功能永久免费,用户日均使用时长达 145 分钟。本轮融资后,公司还将发布新硬件终端 EVA Pi,定位为可自主写代码、自主更新的端侧设备。

韶音此次以战略投资方身份入局。这家以开放式耳机闻名的全球穿戴品牌今年已在 AWE 2026 上展出 AI 眼镜产品线,投资无界方舟意味着硬件品牌正在为自家设备寻找端侧 Agent 能力的底座。

信源:https://mp.weixin.qq.com/s/KIZf4HrpytGghwuTmmC_fA
R1核心作者离职但团队未散,V4或4月发布:DeepSeek下一步是Agent

晚点LatePost 报道,DeepSeek V4 有可能在 4 月发布。一个小参数版本约在今年 1 月已交给部分开源框架社区做适配,大参数版此前曾预期 2 月中旬前后发布,推迟至今。晚点评估 V4 大概率仍是开源最强模型,但很难碾压级的强,因为不同场景的开发者和用户对「强」的标准已越来越多元,且进入 Agent 时代后,产品触手和长尾使用数据变得更重要,这恰恰是 DeepSeek 此前没有太多投入的地方。

从 2025 年下半年至今,四名核心成员已明确离开:

1. 王炳宣,DeepSeek 首代大语言模型核心作者,此后参与历代模型训练,去年底被腾讯姚顺雨挖走
2. 魏浩然,DeepSeek-OCR 系列核心作者,春节前后离开
3. 郭达雅,DeepSeek-R1 核心作者,近期正式离职
4. 阮翀,Janus-Pro 等多模态核心贡献者,今年 1 月加入自动驾驶公司元戎启行

晚点称团队并未成组流失。竞争对手开出总包翻 2-3 倍乃至 8 位数的邀约,更多人选择留下。DeepSeek 至今未融资,没有明确估值。2023 年创始人梁文锋曾小范围见过投资人,提出类似 OpenAI 与微软投资协议的回报上限条件,无机构接受,此后不再见投资人。MiniMax 和智谱相继上市并股价高涨,员工对手中无标价期权的疑问增多,梁文锋近期开始想办法给公司估值。

产品方向出现转向信号。DeepSeek 一位 HR 3 月中旬发布的招聘中首次提及具体产品名,要求 Agent 方向「模型策略产品经理」候选人「熟悉并深度使用过 Claude Code、OpenClaw、Manus 等知名 agent」。DeepSeek 已有小数十人产品团队,但此前尚未涉足 AI 编程和通用 Agent 方向,C 端仍只有 Chatbot。

信源:https://mp.weixin.qq.com/s/bYZrKp48Y7EpsU8_vd6TcQ
1
北卡团队开源Agent治理框架AutoHarness,部分设计参考Claude Code架构

北卡罗来纳大学教堂山分校 AIMING Lab 助理教授姚骅修在 X 上宣布开源 AutoHarness(简称 Aha),一个面向 AI Agent 的轻量级治理框架,MIT 许可证,不绑定任何 LLM 供应商,两行代码即可接入现有客户端。

AutoHarness 的核心理念是将 Agent 拆成两层:模型负责推理,Harness 负责其余一切。上下文管理、工具权限控制、成本追踪、可观测性、会话持久化,这些将 Agent 从演示品变成生产系统的工程能力,被统称为「harness engineering」。

治理管线分三档。Core 模式 6 步(解析验证→风险分类→权限检查→执行→输出清洗→审计日志),适合轻量场景;Standard 模式 8 步,增加风险分类器和前置钩子,面向生产环境;Enhanced 模式 14 步,支持多 Agent 分叉、集群和后台执行,为默认模式。每次工具调用都经过完整管线,内置风险模式匹配可拦截危险操作(如 `rm -rf /`)、密钥泄露和路径遍历,输出端做注入检测和敏感信息过滤。其他功能包括基于 YAML 的 constitution 配置(提供 SOC2、HIPAA、金融等合规模板)、token 预算管理与多层压缩、多 Agent 角色化权限、逐调用成本归因和 JSONL 审计日志。

项目在 README 免责声明中明确表示,Enhanced 模式的部分架构决策受到「Claude Code 源码于 2026 年 3 月 31 日通过 Anthropic npm 仓库意外公开后的公开分析和社区讨论」启发,同时强调未包含或翻译 Anthropic 的任何专有代码。项目首次提交时间为 4 月 1 日,距泄露事件不到 24 小时。如果说 Claw Code 是泄露事件催生的「从零重写」路线,AutoHarness 走的则是「提炼设计模式」路线,将 Claude Code 的工程实践抽象为可复用的治理框架。

信源:https://github.com/aiming-lab/AutoHarness
英伟达中国份额三年从95%跌至55%,国产AI芯片已拿下四成市场

IDC 最新报告显示,2025 年中国市场 AI 加速卡总出货量约 400 万张。国产厂商合计交付 165 万张,占比 41%。英伟达仍以约 220 万张位居首位,但份额已从制裁前的约 95% 降至 55%,三年丢掉 40 个百分点。AMD 出货约 16 万张,占比 4%。

国产阵营中,华为以约 81.2 万张排名首位,占全市场约 20%,贡献了国产出货量的近一半。其余厂商:

1. 平头哥(阿里巴巴旗下芯片设计公司)约 26.5 万张,国产第二
2. 百度昆仑芯与 AI 芯片公司寒武纪各约 11.6 万张,并列国产第三
3. 海光、GPU 初创公司沐曦和天数智芯分别占国产出货量的 5%、4%、3%

2025 年中央政府启动新一轮 AI 基础设施投入,各省加速建设智算中心,多地要求政府和国企数据中心优先采购国产芯片。黄仁勋此前公开表示英伟达在中国高端训练芯片市场的份额已「从 95% 跌到了零」,当前 55% 的整体份额主要依靠推理芯片和中低端市场支撑。出口管制切断了英伟达最先进产品的供应渠道,但也为国产厂商打开了此前不存在的市场空间。

信源:https://www.reuters.com/world/china/chinese-chipmakers-claim-nearly-half-of-local-market-nvidias-lead-shrinks-idc-2026-04-01/
AI来优化建AI数据中心的混凝土:Meta开源BOxCrete,强度达标快43%

Meta 开源混凝土配方优化模型 BOxCrete(Bayesian Optimization for Concrete),基于公司内部的自适应实验平台 Ax 构建,通过贝叶斯优化从历史配方数据中学习,逐步逼近最优配比。配套发布的开放数据集包含 69 种砂浆和 54 种混凝土配方在 5 个养护龄期的超过 500 条强度测量记录,模型和数据均以 MIT 许可证在 GitHub 开源。

实战验证在 Meta 位于明尼苏达州 Rosemount 的数据中心完成。该数据中心的地面板承载冷却系统和数千台服务器,是整个建筑中荷载要求最高的部分。BOxCrete 生成的混凝土配方达到完全结构强度的速度比原方案快 43%,开裂风险降低近 10%,已被批准用于该设施的更多区域。

合作方包括伊利诺伊大学厄巴纳-香槟分校和北美最大水泥制造商 Amrize(旗下 18 座水泥厂和 269 个预拌站点)。Amrize 已承诺 2026 年投入近 10 亿美元用于美国本土产能建设,并推出了「Made in America」水泥标签。宾夕法尼亚州的混凝土软件供应商 Quadrel 已将 Meta 的开源框架集成到其面向预拌生产商的 SaaS 平台中。

美国约 20%-25% 的水泥依赖进口,水泥和混凝土行业年贡献超过 1300 亿美元、支撑约 60 万个就业岗位。BOxCrete 的设计目标是帮助生产商在使用本土原材料的同时维持混凝土质量和可持续性。AI 正在优化建造 AI 基础设施本身所需的物理材料,这个闭环本身就是 AI 渗透传统工业的一个缩影。

信源:https://engineering.fb.com/2026/03/30/data-center-engineering/ai-for-american-produced-cement-and-concrete/
OpenAI下周将随Spud推出超智能政策提案,主张「重新思考社会契约」

OpenAI 下周将配合新模型 Spud 的发布,推出一批关于超智能的政策论文和提案,主题包括产业政策和 AI 带来的就业冲击,由 CEO Sam Altman、首席未来学家 Joshua Achiam 和全球事务副总裁 Chris Lehane 牵头。

知情人士透露,提案会涉及「重新思考社会契约」和「让超智能为所有人服务」,其中有些内容可能引发争议,目的是把 AI 讨论从技术圈拉到更大的公共层面。OpenAI 过去几周刚砍掉 Sora、退出迪士尼授权、取消情色伴侣计划,产品部门改名叫「AGI Deployment」,1220 亿美元融资到账,年内还要 IPO。在 2026 年中期选举即将到来、AI 民意支持率低迷的背景下,OpenAI 显然想抢在监管落地前定义议题。

不过 OpenAI 高层自己在 AI 政治上就没对齐。Achiam 此前在 X 上公开批评亲 AI 游说团体花钱攻击支持监管的纽约国会众议员候选人 Alex Bores,称这「日后会被视为毫无意义的自摆乌龙」。这被广泛解读为在说 OpenAI 总裁 Brockman,后者正是那个反监管超级政治行动委员会的主要金主。一边喊「重新思考社会契约」,一边砸钱打压主张监管的候选人,OpenAI 内部对怎么跟政府打交道,显然还没想清楚。

信源:https://www.vanityfair.com/news/story/openai-new-model-superintelligence-policy-push
分析:AI竞赛正从模型之争变成资本分配博弈,谁先算错账谁先出局

Axios 刊发分析文章称,AI 竞赛越来越不像模型竞争,而像一道资本分配题。算力采购需提前一到两年锁定,买多了亏到破产,买少了客户跑光。Anthropic CEO Dario Amodei 在 Dwarkesh Podcast 中的原话是:如果按每年 10 倍增速采购,实际只有 5 倍或晚了一年,「世上没有任何对冲工具能阻止破产」。而算力单位成本确实在降,但用量涨得更快,总支出持续攀升,是经典的杰文斯悖论。

文章指出,这道题目前没有人答对。Anthropic 选择克制,宁愿限流丢客户也不超买,训练任务避开用户高峰;OpenAI 选择激进,在算力上大举投入。两种策略各有代价:Anthropic 的付费用户频繁撞上限流和中断,半导体分析机构 SemiAnalysis 的 Dylan Patel 警告其可能被迫转向质量较低的算力;OpenAI 的支出纪律则已反映在二级市场上,投资者正从 OpenAI 转向 Anthropic。超大规模云厂商今年 AI 资本支出预计接近 7000 亿美元,即便在这个创纪录水平上,全行业的算力供应仍然追不上需求。越接近 IPO,这道题的答案就越难藏。

信源:https://www.axios.com/2026/04/02/anthropic-usage-limits-openai
仅710万参数的「记忆压缩器」:STILL毫秒内8倍压缩KV缓存,迈向无限上下文

AI 模型推理平台 Baseten 的模型开发团队发布 STILL,一种用单次前向传播将 LLM 的 KV 缓存(模型推理时存储的上下文信息)压缩 8 倍的方法。压缩 8K token 上下文仅需毫秒,抽取式问答准确率保留 85% 以上。此前的压缩方法质量不差,但每段新上下文都要做独立优化:MIT 的 Attention Matching 需秒到分钟,斯坦福的 Cartridges 需分钟到小时。STILL 的思路类似稀疏自编码器(SAE)对字典学习的摊销:不再为每段上下文单独优化,而是学一个固定编码器一次前向传播搞定,速度快了几个数量级。

架构是一个 Perceiver 瓶颈网络,在冻结 LLM 的每一层独立运作。一组可学习的查询向量通过交叉注意力「询问」完整 KV 缓存,经自注意力互相协调以避免信息重复捕获,最后投射出紧凑的键、值和偏置。LLM 可以像注意真实上下文一样注意这组紧凑缓存。整个 LLM 冻结,只训练约 710 万个参数(占基座模型 Qwen3-4B 的 0.18%),目标是让紧凑缓存下的输出分布逼近完整缓存(KL 蒸馏)。

方案能跑通依赖三个关键修复。LLM 的键带有旋转位置编码(RoPE),混合不同位置的键会破坏位置信号,团队用「反旋转→压缩→重旋转」流水线解决。标准 Perceiver 末端的归一化层会抹掉键值向量的范数变化,而 LLM 注意力依赖这些信息,移除后效果改善。最关键的是初始化:随机初始化将潜在向量数量上限锁死在 128,超过就发散。团队将压缩器初始化为近似恒等映射,让每个潜在向量起步就是邻域输入的近拷贝,此后从「位置复制」逐步过渡到「内容感知压缩」,上限从 128 扩展到 8192。

实验在 Qwen3-4B 上完成,8K 上下文,8 块 H200 训练。8 倍压缩下,金融和代码领域问答准确率 86%-90%,法律和文学文本稍低(信息更分散,更难压缩)。压缩比固定 8 倍时,上下文从 1K 到 8K 变化,准确率稳定在 85%-92%。跨领域迁移强于预期:金融训练的压缩器评估法律文本 74%,代码训练的在所有领域均达 78%-89%,说明压缩器捕获了 Qwen3-4B 注意力机制中某种跨领域通用的结构。

团队将 STILL 定位为 LLM 持续学习三步路线图的第一步。当前 LLM 记忆只有两个极端:无损但线性增长的 KV 缓存,和高度有损的权重更新及外挂存储。STILL 补上中间一层,即有损但高保真的压缩工作记忆。下一步是迭代压缩:逐块处理文档,每压缩一块就拼到下一块前面再压缩,理论上可用固定大小记忆处理任意长度文本。更远期的设想是让模型通过强化学习自主管理记忆,以及通过超网络将压缩记忆回写权重,实现跨会话知识积累。

研究由 Baseten 模型开发团队负责人 Charlie O'Neill 与 Alex Sandomirsky、Harry Partridge 合著。O'Neill 曾在牛津大学攻读机器学习博士,是 AI 模型公司 Parsed 联合创始人,Parsed 于 2025 年底被 Baseten 收购。

信源:https://www.baseten.co/research/towards-infinite-context-windows-neural-kv-cache-compaction/
👍1
年化收入半年翻5倍至5000万美元,AI模型路由平台OpenRouter估值逼近13亿

AI 模型路由平台 OpenRouter 正在洽谈一轮 1.2 亿美元新融资,由谷歌母公司 Alphabet 旗下面向成熟期初创公司的风投基金 CapitalG 领投,投后估值约 13 亿美元。OpenRouter 提供单一 API 接口,开发者可通过它访问 OpenAI、Anthropic、谷歌等厂商的 300 余款开源和闭源模型,并对比各模型的质量、价格和速度,按任务类型灵活调度。平台按开发者购买的模型调用积分收取小额手续费。

公司当前年化收入已超 5000 万美元(年化收入按上月收入乘以 12 计算),较去年 10 月的 1000 万美元出头增长约 5 倍。本轮估值对应约 24 倍前瞻收入倍数,在当前 AI 创业市场中属于偏低水平,The Information 去年 12 月报道的 AI 应用类公司平均前瞻收入倍数约为 53 倍。

OpenRouter 2023 年成立,CEO Alex Atallah 此前联合创立了早期 NFT 交易平台 OpenSea。公司 2025 年完成由 Andreessen Horowitz 和 Menlo Ventures 领投的 4000 万美元融资,估值约 5 亿美元,本轮若完成,估值将在不到一年内翻倍以上。CapitalG 此前投资了数据平台 Databricks 和开源模型推理服务商 Baseten 等 AI 相关公司。

竞争对手包括提供多模型访问的大型云厂商(但倾向推广自家模型)、初创公司 PortKey 和 Vercel 的模型路由服务,以及同样发布模型性能排行榜的 LMArena(今年 1 月以 17 亿美元估值融资 1.5 亿美元)。多模型调度正在成为行业标配,微软本周刚为 Office 365 Copilot 推出新功能,允许用户调用 OpenAI 模型编译研究资料、用 Anthropic 模型复核结果,并支持并排对比不同 AI 提供商的响应。

信源:https://www.theinformation.com/articles/startup-helps-developers-pick-ai-models-nears-1-3-billion-valuation
谷歌Gemma 4正式发布:4款尺寸首次Apache 2.0许可,31B全球开源第三

谷歌正式发布开源模型家族 Gemma 4,包含 4 款不同尺寸,全部采用 Apache 2.0 许可证。谷歌表示这是对社区反馈的回应。Apache 2.0 意味着开发者可自由商用、修改和分发,不受额外限制。Hugging Face 联合创始人兼 CEO Clément Delangue 称此举为「巨大的里程碑」。

4 款模型针对不同硬件场景:

1. 31B Dense:原始质量最高,适合微调,未量化权重可在单张 80GB H100 上运行,量化版支持消费级 GPU
2. 26B MoE(混合专家):总参数 26B 但推理时仅激活 3.8B,主打低延迟,适合对速度敏感的 Agent 场景
3. E4B 和 E2B:面向手机和 IoT 设备的边缘模型,推理时分别激活约 4B 和 2B 参数足以保持设备续航,原生支持音频输入(语音识别和理解),可完全离线运行

在大模型匿名对战评测平台 Arena AI 的文本排行榜上,31B 排名全球开源模型第三,26B 排名第六,谷歌称其「超越体量 20 倍的模型」。模型基于与 Gemini 3 相同的研究和技术构建。

核心能力涵盖多步推理与规划、原生函数调用和 JSON 结构化输出(面向 Agent 工作流)、代码生成、图像和视频理解(全系列)、原生训练超过 140 种语言。边缘模型支持 128K 上下文窗口,大模型支持最高 256K。E2B 和 E4B 与谷歌 Pixel 团队、高通和联发科联合优化,可在手机、树莓派、NVIDIA Jetson Orin Nano 等设备上运行,Android 开发者可通过 AICore Developer Preview 原型构建 Agent 应用,为后续 Gemini Nano 4 做兼容准备。

生态方面首日即支持 Hugging Face、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM、LM Studio、Unsloth 等主流框架,可在 Google AI Studio(31B 和 26B)和 AI Edge Gallery(E4B 和 E2B)直接体验。自初代发布以来,Gemma 系列已被下载超过 4 亿次,社区衍生超过 10 万个变体。

信源:https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/
1
微软发布三款自研MAI模型,称10人团队用一半GPU做到语音转录最佳

微软 AI 负责人 Mustafa Suleyman 宣布发布三款自研模型:语音转录模型 MAI-Transcribe-1、语音生成模型 MAI-Voice-1 和图像生成模型 MAI-Image-2,即日起通过 Microsoft Foundry 和 MAI Playground 向开发者开放。

MAI-Transcribe-1 是核心发布。根据微软公布的 FLEURS 基准测试(行业标准多语言评测)数据,该模型在按微软产品使用量排名的前 25 种语言上平均词错误率(WER)为 3.9%,在全部 25 种语言上胜过 OpenAI 的 Whisper-large-v3(7.6%),在 22 种语言上胜过谷歌 Gemini 3.1 Flash(4.9%)。批量转录速度是现有 Azure Fast 方案的 2.5 倍。Suleyman 对 VentureBeat 表示,该模型所需 GPU 仅为竞品的一半,开发团队只有 10 人。微软已在 Copilot 语音模式和 Teams 会议转录中测试该模型。

MAI-Voice-1 可在 1 秒内生成 60 秒自然语音,支持仅用数秒录音创建自定义声音。MAI-Image-2 在 Arena.ai 排行榜位列前三,生成速度较前代提升至少 2 倍,正向 Bing 和 PowerPoint 推广,广告传播集团 WPP 为首批企业客户。图像团队同样不到 10 人。

定价:

1. MAI-Transcribe-1:$0.36/小时
2. MAI-Voice-1:$22/百万字符
3. MAI-Image-2:文本输入 $5/百万 token,图像输出 $33/百万 token

Suleyman 称这是所有超大规模云厂商中最低的定价,并将微软定位为「仅次于 OpenAI 和 Gemini 的前三实验室」。他透露微软将在所有模态交付最先进模型,目标是在需要时能够「完全独立」。去年 9 月微软与 OpenAI 重新谈判合同后,获得了独立开发前沿模型的权利,同时保留了 OpenAI 模型至 2032 年的授权。

信源:https://microsoft.ai/news/today-were-announcing-3-new-world-class-mai-models-available-in-foundry/
OpenClaw 2026.4.2集中收紧供应商HTTP安全链路,安卓接入Google Assistant

开源 AI Agent 平台 OpenClaw 发布 2026.4.2 版。此版包含 2 项 breaking changes、约 15 项功能改进和 30 余项修复。

两项 breaking changes 延续 2026.3.31 启动的插件架构外部化:xAI 的 x_search 配置和 Firecrawl 的 web_fetch 配置从核心路径迁移至插件自有路径,旧配置可通过 openclaw doctor --fix 自动迁移。

本版最密集的单一主题是供应商 HTTP 链路的安全集中化,贡献者 vincentkoc 提交了 8 项相关修复。此前共享 HTTP、流式传输和 WebSocket 路径的请求鉴权、代理设置、TLS 策略和请求头处理分散在各供应商适配代码中,现已统一收敛:GitHub Copilot、Anthropic、OpenAI 兼容端点的原生/代理请求策略集中化,防止伪造或代理端点继承原生默认值;音频、图像等媒体请求路由通过共享 HTTP 路径;图像生成端点不再从配置的 base URL 推断私有网络访问权限;跨渠道 webhook 密钥比对统一使用时间安全比较函数。对于自托管或接入多个第三方供应商的用户,这批改动堵上了一系列请求伪造和策略继承漏洞。

新功能方面,安卓端新增 Google Assistant 接入,用户可从语音助手直接启动 OpenClaw 并将提示词送入对话界面。执行默认值有变化:网关和节点主机执行现默认 security=fullask=off`,即强制安全策略但不逐次弹窗确认。插件系统新增 `before_agent_reply 钩子,允许插件在 LLM 回复前用合成回复短路整个流程。Task Flow 继续完善,新增托管子任务生成和粘性取消意图,外部编排器可立即停止调度并等待活跃子任务自然结束。

其他修复:Anthropic 模型的 antml:thinking 内部思考标签此前会泄露到用户可见文本中,现已在输出端过滤;Kimi Coding 工具调用因 Anthropic 与 OpenAI 格式不兼容导致参数丢失,已做归一化;MS Teams 超过 4000 字符流式上限时不再重复输出已传输内容。

信源:https://github.com/openclaw/openclaw/releases/tag/v2026.4.2
OpenAI首次收购媒体公司,买下科技直播节目TBPN

OpenAI 应用业务 CEO Fidji Simo 在内部公告中宣布收购科技直播节目 TBPN(Technology Business Programming Network),交易金额未披露。这是 OpenAI 首次收购媒体公司。

TBPN 由连续创业者 Jordi Hays 和 John Coogan 联合创办并主持,工作日每天太平洋时间上午 11 点至下午 2 点在 YouTube 和 X 等平台直播,内容涵盖科技、商业、AI 和国防,曾采访 Mark Zuckerberg、Sam Altman、Mark Cuban 和微软 CEO Satya Nadella,被《纽约时报》称为「硅谷最新的痴迷」(Silicon Valley's newest obsession)。CNBC 报道称 TBPN 2025 年广告收入约 500 万美元,今年预计超过 3000 万美元。

Simo 在公告中表示,OpenAI 正在经历的技术变革让「标准的企业传播策略完全不适用」,TBPN 恰好建起了她想要的东西:一个围绕 AI 和建造者的每日真实对话空间。收购后 TBPN 将保留编辑独立权,自主决定节目内容、选题和嘉宾,这一条被写入协议。节目归入 OpenAI 战略部门,向全球事务副总裁 Chris Lehane 汇报。Simo 同时表示计划将 TBPN 团队的传播和营销能力用于节目之外的 OpenAI 产品推广。

TBPN 联合创始人 Hays 在声明中说:「过去一年我们坐在前排观察的不只是 OpenAI,而是整个生态系统。虽然我们有时会批评这个行业,但在了解 Sam 和 OpenAI 团队后,最打动我们的是他们对反馈的开放态度。从评论者变成真正影响这项技术如何被分发和理解的人,对我们至关重要。」

Sam Altman 在 X 上发文称「TBPN 是我最喜欢的科技节目」,并表示不指望他们会对 OpenAI 手下留情,「我确信我偶尔做的蠢事会为此提供素材」。Coogan 则回忆了与 Altman 超过十年的渊源:2013 年 Altman 投资了他的第一家公司(代餐品牌 Soylent),后来 Coogan 带第二家公司参加 YC 时 Altman 正担任 YC 总裁,再后来 Coogan 加入 Peter Thiel 的风投基金 Founders Fund,经手的第一笔交易就是 2022 年底 ChatGPT 发布后的 OpenAI 融资轮。去年 TBPN 起步时,Altman 是第一位上节目的 AI 实验室负责人。

OpenAI 三周内连续收购两家公司(3 月 19 日宣布收购 Python 代码质量工具 Astral),从开发者工具扩展到媒体领域。在 IPO 在即、AI 公共舆论仍不明朗的节点上,OpenAI 选择把话筒握在自己手里。

信源:https://openai.com/index/openai-acquires-tbpn/
1
Cursor 3发布:围绕Agent从零重建界面,不再只是VS Code分叉

AI 编程工具 Cursor 发布 3.0 版本,围绕 Agent 从零构建了一套全新界面,独立于此前基于 VS Code 分叉的 IDE。新界面原生支持多代码仓库工作区,用户可同时运行多个本地和云端 Agent,并在两者之间无缝切换:将云端任务拉到本地用自研编程模型 Composer 2 快速迭代,或将本地长任务推到云端在合上笔记本后继续运行。侧边栏统一展示所有 Agent,包括从手机、Web、桌面、Slack、GitHub 和 Linear 启动的任务,云端 Agent 会自动生成工作成果的演示和截图供用户确认。

同步上线的 Design Mode 允许用户在集成浏览器中直接标注和选取 UI 元素发送给 Agent,适合前端迭代。新命令 /worktree 在独立 git worktree 中隔离执行任务,`/best-of-n` 让同一任务在多个模型上并行运行并对比结果。其他更新包括 Agent Tabs 多对话并排查看、Cursor Marketplace 插件市场(支持 MCP、技能和子 Agent 扩展)、大文件 diff 渲染优化,以及企业管控功能。

Cursor 3 的发布正值 AI 编程工具竞争加剧。据 Menlo Ventures 数据,Anthropic 的 Claude Code 已占据 AI 编程市场最高达 54% 的份额,OpenAI 的 Codex 也在快速追赶并提供无限量使用拉拢用户。Cursor 上月发布的自研编程模型 Composer 2 被发现实质上基于月之暗面(Moonshot AI)的开源模型 Kimi 2.5 授权构建,且未在发布时主动披露,引发用户信任争议。Cursor 3 将用户角色从直接写代码推向管理和调度多个 Agent,是其在竞争格局变化中寻找差异化定位的产品回应。升级 Cursor 后输入 Cmd+Shift+P -> Agents Window 即可体验,原有 IDE 保留。

信源:https://cursor.com/blog/cursor-3
Anthropic回应Claude Code限额危机:建议别用Opus、别开100万上下文,不提补偿

Anthropic Claude Code 团队成员 Lydia Hallie 发布了对近两周限额争议的调查结果。结论是:高峰时段限额确实收紧了,100 万 token 上下文会话的消耗变大了,「这就是你们感受到的大部分原因」。她称团队修复了一些 bug,但强调「没有任何一个 bug 导致了多收费」。

随后她给出了省量建议:

1. Pro 用户默认用 Sonnet 4.6 而非 Opus,因为 Opus 消耗速度约为两倍
2. 不需要深度推理时降低推理强度或关闭 extended thinking
3. 闲置超过一小时的长会话不要恢复,重新开一个
4. 设置环境变量 CLAUDE_CODE_AUTO_COMPACT_WINDOW=200000 限制上下文窗口大小

没有提及任何形式的限额重置或补偿。

AI 播客主持人 Alex Volkov 将这份回应概括为「你拿的方式不对」(You're holding it wrong),指出 Anthropic 自己把 100 万上下文设为默认、把 Opus 作为旗舰模型推广,现在却建议付费用户不要使用这些功能。他还注意到,与 OpenAI Codex 此前出现类似问题后为用户重置配额不同,Anthropic 没有做任何追溯补偿。

「没有多收费」的说法也与 Claude Code 自己的更新记录存在张力。就在前一天发布的 v2.1.90 版本修复了一个自 v2.1.69 起存在的缓存回归 bug:使用 --resume 恢复会话时,本应命中缓存的请求会触发完整的 prompt cache miss,按全价计费。这个 bug 横跨约 20 个版本才被发现和修复。Lydia 的回应中没有提及这个已确认的计费异常。

自 3 月 23 日起,大量 Pro 和 Max 订阅用户反映限额异常快速耗尽。GitHub issue #41930 汇集了数百条报告,有用户称 Max 5x 计划的额度在 1 小时内用完,有用户称一条简单的单句回复就将使用率从 59% 拉到 100%。Anthropic 3 月 30 日曾在 Reddit 上承认「用户触达限额的速度远超预期」,并称已列为团队最高优先级。

这份回应的核心问题不在于技术细节是否准确,而在于它把责任几乎全部推给了用户的使用方式。Anthropic 卖的是「最强模型 + 最大上下文 + 最高推理能力」的 Pro/Max 订阅,收的是每月 20 到 200 美元的费用,现在告诉用户省着点用。

信源:https://x.com/lydiahallie/status/2039800715607187906
Karpathy分享用LLM构建个人知识库工作流:token大头不再花在写代码,而是操作知识

OpenAI 联合创始人 Andrej Karpathy 在 X 上分享了他近期的一个发现:用 LLM 构建个人知识库,比用它写代码更有价值。他目前的大部分 token 消耗已从操作代码转向操作知识。

完整工作流分五步:

1. 数据摄入:将文章、论文、代码仓库、数据集、图片等源文档索引到 raw/ 目录,用 LLM 增量「编译」成一个 markdown wiki,包含摘要、反向链接、概念分类和文章互联
2. 浏览界面:用 Obsidian 作为前端查看原始数据、编译后的 wiki 和衍生可视化,wiki 内容完全由 LLM 维护,人几乎不直接编辑
3. 问答查询:当 wiki 积累到一定规模(他的一个研究方向已有约 100 篇文章、40 万字),可以向 LLM 提出复杂问题,LLM 自行检索 wiki 内容作答。他原以为需要 RAG,但 LLM 自动维护的索引文件和摘要在这个规模下已经够用
4. 输出回流:查询结果以 markdown、Marp 幻灯片或 matplotlib 图表形式生成,在 Obsidian 中查看后归档回 wiki,让个人探索持续沉淀
5. 质量巡检:用 LLM 定期对 wiki 做「健康检查」,发现数据不一致、补全缺失信息、挖掘跨概念关联,增量提升数据完整性

Karpathy 称他还额外开发了一些工具,比如一个简易的 wiki 搜索引擎,既可以自己在网页界面上用,也可以作为命令行工具交给 LLM 处理更大的查询。他认为这套工作流目前还只是「一堆脚本的拼凑」,但背后藏着一个「不可思议的新产品」机会。更远的设想是:每一个向前沿模型提出的问题,都可以派出一组 LLM 自动构建一个临时 wiki、做质量巡检、迭代数轮,最终输出一份完整报告,「远超一次 .decode()」。

信源:https://x.com/karpathy/status/2039805659525644595
OpenAI Codex工程负责人公开问用户:高峰加价、低谷多给,你们觉得行不行?

OpenAI Codex 工程负责人 Thibault Sottiaux 在 X 上发帖称,Codex 目前高峰与低谷时段的负载差距很大,团队希望让流量分布更平滑,以更高效地利用算力。他直接向用户征求意见:低谷时段给更多用量、高峰时段引入倍率消耗,这样的方案是否合理?并表示团队已有一些想法,但想先听听用户怎么想。

同样是算力不够分的问题,OpenAI 选择在动手之前先问一句。而 Anthropic 对 Claude Code 限额危机的回应是一份使用指南:别用 Opus、别开 100 万上下文、闲置会话别恢复,不提补偿,不问用户意见。

信源:https://x.com/thsottiaux/status/2039893158952419779
不到10人、成立不到一年:Anthropic约4亿美元收购AI生物技术公司Coefficient Bio

Anthropic 以约 4 亿美元收购 AI 生物技术初创公司 Coefficient Bio,后者团队将加入 Anthropic 的医疗生命科学部门。该部门由 Eric Kauderer-Abrams 领导,他此前曾任医疗检测公司 Detect CEO 和生命科学公司 identifeye HEALTH 联合创始人。

Coefficient Bio 去年秋天成立,员工不到 10 人,此前一直处于隐身模式,由风投机构 Dimension 支持。公司开发的平台让 AI 处理生物技术任务,包括规划药物研发、管理临床监管策略和挖掘新药机遇。联合创始人包括 CEO Aris Theologis(此前在生命科学公司 Evozyne 和 Paragon Biosciences 担任高管)和 CTO Nathan Frey(此前是 Prescient Design 和基因泰克的研究科学家)。

Anthropic 近年在生命科学领域持续加码。去年 10 月为 Claude 添加了 Benchling 和 BioRender 等科研工具集成,今年 1 月新增自动化监管提交和临床试验方案起草功能,并在 HIPAA 合规环境中向医生和保险机构开放 Claude。合作伙伴包括赛诺菲、诺和诺德、Genmab、艾伯维、艾伦研究所和 HHMI。这是 Anthropic 迄今金额最大的一笔收购。

信源:https://www.theinformation.com/articles/anthropic-acquires-startup-coefficient-bio-400-million