1M AI News
1.56K subscribers
190 photos
969 links
AI新闻信息流
Download Telegram
谷歌开源模型Gemma 4疑似即将发布,DeepMind CEO与团队成员同步暗示

谷歌 DeepMind CEO Demis Hassabis 在 X 上发布了四颗钻石 emoji(💎💎💎💎),谷歌技术团队成员、Google AI Studio 和 Gemini API 负责人 Logan Kilpatrick 在更早些时候发帖仅写了一个词「Gemma」。两人几乎同时发帖,被广泛解读为谷歌开源模型 Gemma 4 即将发布的信号。

泄露迹象此前已有。LMSYS Chatbot Arena 上出现了一个代号「significant-otter」的匿名模型,被用户追问身份时自称「I am Gemma 4, a large language model developed by Google DeepMind」。Reddit 社区 r/LocalLLaMA 的用户反馈称该模型响应速度快,不属于推理模型,且通过了社区常用的基础能力测试。

谷歌尚未正式宣布 Gemma 4。前代 Gemma 3 是谷歌面向开源社区的轻量级模型家族,支持单 GPU 或 TPU 运行,具备多语言、多模态和长上下文能力,在开源社区口碑良好。

信源:https://x.com/demishassabis/status/2039489134465614068
三个月翻倍,两年千倍:豆包日均Token使用量破120万亿

字节跳动旗下云服务平台火山引擎总裁谭待在武汉举办的「2026 Force Link AI 创新巡展」上披露,豆包大模型日均 Token 使用量已突破 120 万亿。该数字过去三个月实现翻倍,相比 2024 年 5 月的日均 1200 亿增长了 1000 倍。

信源:https://www.jiemian.com/article/14200683.html
从车库到25亿台设备:库克发内部信庆苹果50周年,称「面前的机遇前所未有」

苹果公司 4 月 1 日迎来成立 50 周年,CEO Tim Cook 向全体员工发出内部备忘录。Cook 以乔布斯的一段话开篇:「你身边所有你称之为生活的东西,都是由并不比你聪明的人创造的。你可以改变它、影响它,可以创造出别人也能使用的东西。一旦你明白了这一点,你就再也回不去了。」

Cook 在信中回顾了苹果从车库里一台原型机起步,到如今全球有 25 亿台活跃设备的历程。他将苹果 50 年的文化内核总结为「未来不是你等来的,而是你建造出来的」,并对员工说「我们面前的机遇是我们所见过的最大的」,「没有任何一支团队比我们更有条件去迎接它们」。

信源:https://x.com/markgurman/status/2039385779491963302
Qwen3.6-Plus正式上线,100万上下文窗口,兼容Claude Code和OpenClaw

阿里巴巴通义千问团队发布 Qwen3.6-Plus,继今年 2 月 Qwen3.5 系列后的新一代旗舰模型,API 通过阿里云百炼即日开放调用。核心升级方向是 Agent 编程能力,同时强化了多模态感知与推理,默认支持 100 万 token 上下文窗口。

编程方面,Qwen3.6-Plus 在代码修复、终端操作和自动化任务执行等基准上表现突出,在多个长程规划和工具调用基准中取得最优成绩。前端开发能力也有增强,可处理 3D 场景和游戏等复杂项目。多模态方面,模型在复杂文档理解、视频推理、视觉编程等任务上均有提升,支持基于界面截图生成代码、根据设计稿还原前端页面等场景。

API 新增 preserve_thinking 参数,可在多轮对话中保留此前轮次的推理思考内容,官方推荐用于 Agent 任务,称完整推理上下文有助于提升决策一致性并减少重复推理带来的 token 消耗。阿里云百炼同时支持 OpenAI 兼容协议和 Anthropic 兼容协议,后者意味着可直接接入 Claude Code 使用。此外还兼容 OpenClaw、Qwen Code、Kilo Code、Cline 和 OpenCode 等编程工具。Qwen Code 使用 OAuth 登录每日可获 1000 次免费调用。

千问团队表示近期工作重心将转向 Qwen3.6 系列的整体发布,后续还将开源更小规模的模型版本。

信源:https://mp.weixin.qq.com/s/1uGdP4LkIiC8T0AE1U4VYg
Google AI Pro存储从2TB升至5TB不加价,此前与9.99美元档完全相同

谷歌宣布将 Google AI Pro 订阅(月费 19.99 美元)的云存储容量从 2TB 提升至 5TB,面向全球用户生效,价格不变。存储可用于 Gmail、Google Drive 和 Google Photos。

此前 AI Pro 与 9.99 美元档的存储容量同为 2TB,19.99 美元的溢价全靠 Gemini 3 的 AI 功能支撑。这次加量后,两档在基础存储上终于拉开差距。作为参照,谷歌存储阶梯的下一档是 10TB(月费 49.99 美元),最高档 AI Ultra(月费 249.99 美元)提供 30TB。最低档 AI Plus(月费 7.99 美元)仅有 200GB。

信源:https://x.com/shimritby/status/2039461584771440782
隐私不可谈判:Vitalik详述全本地AI方案,嫌DGX Spark「不过如此」

以太坊联合创始人 Vitalik Buterin 发表长文,公开了他以隐私和安全为不可谈判前提构建的个人 AI 工作环境。方案覆盖硬件选型、本地模型部署、沙箱隔离、通信防火墙和匿名远程推理五个层次。他在开篇写道:「端到端加密和本地优先软件刚取得进步,我们现在却因为把整个生活喂给云端 AI 而倒退十步。」

硬件上,他测试了三套方案运行 Qwen3.5:35B 模型:NVIDIA 5090 笔记本(24 GB 显存)达到 90 tokens/秒,AMD Ryzen AI Max Pro 笔记本(128 GB 统一内存)51 tokens/秒,NVIDIA DGX Spark(128 GB)60 tokens/秒。他的个人体感阈值是 50 tokens/秒以下「太烦了不值得」,90 tokens/秒最理想。对 DGX Spark 的评价很直率:号称「桌面 AI 超算」,推理速度还不如笔记本 GPU,还得额外折腾网络才能从工作设备连过去,「就是不行」(lame)。他的建议是 5090(乃至 4090、5080、5070)和 AMD 128 GB 统一内存方案都可行;买不起的可以几个朋友合买一台,放在固定 IP 地址上远程共用。

软件层,他运行 NixOS(一款可将系统配置文件化的 Linux 发行版),用本地推理服务 llama-server(经 llama-swap 管理模型切换)在 localhost 暴露 OpenAI 兼容端口,任何依赖云端模型的工具都可指向本地。Agent 框架使用 pi(开源 AI Agent 平台 OpenClaw 的底层框架),配合元搜索引擎 SearXNG 和自写的通信守护进程。他还在本地维护一个包含全量维基百科转储和技术文档的知识文件夹,目的是减少对外搜索,降低搜索引擎对其兴趣的画像能力。所有 LLM 进程通过 Linux 沙箱工具 bubblewrap 运行,可逐目录、逐端口控制访问范围。

安全设计中最核心的是通信防火墙。他为 Signal 和电子邮件写了一个守护进程,LLM 在自主状态下只能做两件事:读消息和给自己发消息。给他人发消息必须经过弹窗人工确认。他以此延伸出全文最有概念密度的判断:「新的双因素认证是人类加 LLM。」逻辑是人类会粗心、会被骗;LLM 会犯错、会被对抗性输入操控。但两者失败模式不同,要求双方同时确认高风险操作(发送消息、转账),比任一方单独决策安全得多。以太坊钱包接入也遵循同一思路,可设定每日免确认额度(如 100 美元),超出则人工审批。

他同时批评了当前开源 AI 领域对安全的忽视,引用安全研究指出 OpenClaw 的 Agent 可在无需用户确认的情况下修改系统提示、执行任意 shell 脚本,约 15% 的第三方技能包含恶意指令。他强调自己批评的不是 OpenClaw 团队,而是整个社区的文化。

对于本地模型能力不足的场景(如复杂编程),他提出分层隐私方案:用零知识证明实现匿名 API 调用使服务端无法识别请求者身份,用混合网络(mixnet)切断请求间的 IP 关联,在可信执行环境(TEE)中运行远程推理防止服务端读取明文数据,用本地模型在传递给远程模型前剥离隐私信息。长远方向是全同态加密(FHE),但目前「能用 FHE 跑的模型,你也能直接在本地跑」。

信源:https://vitalik.eth.limo/general/2026/04/02/secure_llms.html
AI搜索引擎Exa上线Monitors,定时搜全网只推新内容

AI 搜索引擎 Exa 推出 Monitors 功能,允许开发者设置定时搜索任务,搜索结果自动去重后通过 Webhook 推送,每次只返回上一次运行以来的新内容。Exa 的搜索 API 被 Cursor、Notion、AWS、Databricks 等公司使用,定位为面向 AI Agent 的搜索基础设施。

Monitors 支持自定义搜索频率(最短 1 小时),可通过 outputSchema 参数指定结构化 JSON 输出格式,如自动提取公司名、融资轮次、金额等字段,也可选择纯文本摘要。除定时触发外支持手动即时运行,提供 Python、JavaScript 和 cURL 三种接入方式。典型场景包括追踪竞品动态、监控特定领域的融资公告、跟进学术论文发表。

此前 AI Agent 获取外部信息主要靠主动调用搜索 API,Monitors 将这一模式从按需查询变为订阅推送,Agent 无需轮询即可持续获取增量信息。

信源:https://exa.ai/docs/changelog/exa-monitors-launch
1
此前白名单制曾催生千万级「拼盘」:Seedance 2.0 API面向企业开放公测

字节跳动旗下火山引擎在 AI 创新巡展·武汉站上宣布,视频生成模型 Seedance 2.0 的 API 面向企业用户开放公测。此前该 API 仅通过白名单向选定的商业合作伙伴开放,供不应求催生了二级转售市场,据 36 氪报道,有机构年付千万元购买「拼盘」式 API 额度。

API 定价约 28 元/百万 token(含视频素材输入)和 46 元/百万 token(不含视频输入),生成一条 15 秒 1080P 视频消耗约 30 万 token,成本约 15 元,折合 1 元/秒。火山引擎同步强调 API 提供覆盖全模态、全创作流程的版权与肖像安全保障,包含侵权检测和深度伪造防御。

信源:https://www.volcengine.com/contact/seedance2-0public
阶跃Step 3.5 Flash新增低推理模式,token降56%

AI 大模型公司阶跃星辰发布 Step 3.5 Flash 2603,是 Step 3.5 Flash 的优化版本,已面向所有 Step Plan 用户开放。

核心变化是新增 low think mode(低推理模式)。官方测试数据显示,默认推理模式(high)下推理分数基本持平,token 消耗降低 14%;切换到 low think mode 后,token 消耗降低 56%。模型同时针对编程框架和 Agent 框架做了优化训练,提升稳定性和 token 效率。

阶跃星辰在公告中观察到,OpenClaw 用户在 Agent 场景中大量任务频率高但复杂度不高,「聪明的用户已经在做按需分配:复杂环节用重型模型,中间步骤和高频任务用轻量模型」。API 同时支持 OpenAI 和 Anthropic 两种协议格式,通过 reasoning_effort 或 budget_tokens 参数控制推理强度。

信源:https://mp.weixin.qq.com/s/JhRl9x131pP8-g5bRr242w
给OpenAI和Anthropic训练模型的公司被黑了:Mercor确认遭攻击,Lapsus$称窃4TB数据

AI 模型评估与专家人力外包平台 Mercor 确认遭受网络攻击,起因是开源 Python 库 LiteLLM 的供应链被攻破。Mercor 称自己是「数千家受影响公司之一」,已聘请第三方取证专家调查。

LiteLLM 是一个月下载量达 9700 万次的 Python 库,开发者用它作为统一接口连接 OpenAI、Anthropic 等超过 100 家 AI 服务。一个名为 TeamPCP 的黑客组织向 PyPI 上传了被注入恶意代码的 1.82.7 和 1.82.8 版本,代码会窃取 SSH 密钥、API token、.env 文件和云服务商凭证,并建立持久后门。安全公司 Snyk 发现后恶意版本在数小时内被下架,但暴露窗口已足以让攻击者入侵下游系统。

勒索黑客组织 Lapsus$ 随后在其泄露站点宣称对 Mercor 的攻击负责,声称共窃取约 4TB 数据,包括:

1. 939GB 源代码
2. 211GB 数据库
3. 3TB 存储桶(据称包含视频面试录像、身份验证文件等)
4. TailScale VPN 全部数据

Lapsus$ 在帖子中还公布了部分数据样本,包括 Slack 通讯记录、工单系统信息,以及 Mercor AI 系统与平台承包商互动的视频。社交媒体上有安全研究者分析泄露样本后指出,数据中出现了疑似与亚马逊、苹果、Meta 相关的内部项目文件结构,但 Mercor 尚未确认具体哪些客户数据受到影响。

Mercor 成立于 2023 年,估值 100 亿美元(2025 年 10 月 C 轮),管理超过 3 万名专家承包商,日均向承包商支付超过 200 万美元,为 OpenAI、Anthropic、Google DeepMind 等 AI 实验室提供模型训练和评估所需的专家级人工反馈服务。Mercor 发言人确认已启动调查,但拒绝回答事件是否与 Lapsus$ 的声明有关,也未说明是否有客户或承包商数据被访问、泄露或滥用。如果 Lapsus$ 的说法属实,这将是一起直接触及多家头部 AI 实验室训练流程核心数据的重大安全事件。目前 TeamPCP 与 Lapsus$ 之间的关系尚不清楚。Cybernews 分析认为,Lapsus$ 对 Mercor 的攻击可能标志着 TeamPCP 与勒索组织开始实质协作,类似此前 ShinyHunters 利用 Salesforce 漏洞、Cl0p 利用 MOVEit 漏洞后的连锁效应。

信源:https://techcrunch.com/2026/03/31/mercor-says-it-was-hit-by-cyberattack-tied-to-compromise-of-open-source-litellm-project/
做「硬件版OpenClaw」的无界方舟获韶音投资,一年四轮累计数亿元

AI 硬件操作系统公司无界方舟(AutoArk)完成连续两轮 Pre-A 轮融资,投资方包括穿戴式设备品牌韶音(Shokz)、国瑞源基金、恒松资本和上海天使会,易凯资本担任独家财务顾问。加上去年由蚂蚁早期生态基金和小饭桌创投领投的 Pre-A 及柏睿资本独投的 Pre-A+ 轮,无界方舟过去一年内完成四轮融资,累计金额数亿元。

无界方舟 2024 年成立于珠海,核心产品是端侧 AI 操作系统 EVA OS。创始人曾晓东将其定位为「硬件端的 OpenClaw」:OpenClaw 是跑在云端和电脑上的 Agent 框架,EVA OS 则让 AI Agent 原生运行在机器人、耳机、眼镜等硬件设备上。开发者用自然语言描述需求,EVA OS 自动完成驱动调通、程序编写和部署,将此前需要 3 人、2-3 个月的端侧 AI 开发流程压缩到平均半小时。曾晓东把这套范式称为 Vibe Hardware。

技术上,EVA OS 采用端云协同架构,语音识别、TTS 和视觉感知等高频交互在端侧完成,复杂推理交给云端。语音延迟低于 250 毫秒,多模态反馈低于 350 毫秒,较行业通用方案约 600 毫秒有明显改善。感知模型完全跑在端侧,成本降低 70%-92%。EVA OS 1.0 发布三个多月以来,已有超过 2500 家企业和研发单位将其用于 AI 耳机、AI 眼镜、桌面机器人、智能腕带、车载智能管家、机械手臂等品类的产品研发。

曾晓东曾在阿里巴巴和蚂蚁集团任职约十年,从零孵化了刷脸支付、支付宝盒(千万级销量)和中国首家无人超市「淘咖啡」,2017 年入选 MIT Technology Review「35 岁以下科技创新 35 人」中国榜单。无界方舟首款硬件产品「奇多多 AI 学伴机」面向 3-10 岁儿童,售价千元级别且 AI 功能永久免费,用户日均使用时长达 145 分钟。本轮融资后,公司还将发布新硬件终端 EVA Pi,定位为可自主写代码、自主更新的端侧设备。

韶音此次以战略投资方身份入局。这家以开放式耳机闻名的全球穿戴品牌今年已在 AWE 2026 上展出 AI 眼镜产品线,投资无界方舟意味着硬件品牌正在为自家设备寻找端侧 Agent 能力的底座。

信源:https://mp.weixin.qq.com/s/KIZf4HrpytGghwuTmmC_fA
R1核心作者离职但团队未散,V4或4月发布:DeepSeek下一步是Agent

晚点LatePost 报道,DeepSeek V4 有可能在 4 月发布。一个小参数版本约在今年 1 月已交给部分开源框架社区做适配,大参数版此前曾预期 2 月中旬前后发布,推迟至今。晚点评估 V4 大概率仍是开源最强模型,但很难碾压级的强,因为不同场景的开发者和用户对「强」的标准已越来越多元,且进入 Agent 时代后,产品触手和长尾使用数据变得更重要,这恰恰是 DeepSeek 此前没有太多投入的地方。

从 2025 年下半年至今,四名核心成员已明确离开:

1. 王炳宣,DeepSeek 首代大语言模型核心作者,此后参与历代模型训练,去年底被腾讯姚顺雨挖走
2. 魏浩然,DeepSeek-OCR 系列核心作者,春节前后离开
3. 郭达雅,DeepSeek-R1 核心作者,近期正式离职
4. 阮翀,Janus-Pro 等多模态核心贡献者,今年 1 月加入自动驾驶公司元戎启行

晚点称团队并未成组流失。竞争对手开出总包翻 2-3 倍乃至 8 位数的邀约,更多人选择留下。DeepSeek 至今未融资,没有明确估值。2023 年创始人梁文锋曾小范围见过投资人,提出类似 OpenAI 与微软投资协议的回报上限条件,无机构接受,此后不再见投资人。MiniMax 和智谱相继上市并股价高涨,员工对手中无标价期权的疑问增多,梁文锋近期开始想办法给公司估值。

产品方向出现转向信号。DeepSeek 一位 HR 3 月中旬发布的招聘中首次提及具体产品名,要求 Agent 方向「模型策略产品经理」候选人「熟悉并深度使用过 Claude Code、OpenClaw、Manus 等知名 agent」。DeepSeek 已有小数十人产品团队,但此前尚未涉足 AI 编程和通用 Agent 方向,C 端仍只有 Chatbot。

信源:https://mp.weixin.qq.com/s/bYZrKp48Y7EpsU8_vd6TcQ
1
北卡团队开源Agent治理框架AutoHarness,部分设计参考Claude Code架构

北卡罗来纳大学教堂山分校 AIMING Lab 助理教授姚骅修在 X 上宣布开源 AutoHarness(简称 Aha),一个面向 AI Agent 的轻量级治理框架,MIT 许可证,不绑定任何 LLM 供应商,两行代码即可接入现有客户端。

AutoHarness 的核心理念是将 Agent 拆成两层:模型负责推理,Harness 负责其余一切。上下文管理、工具权限控制、成本追踪、可观测性、会话持久化,这些将 Agent 从演示品变成生产系统的工程能力,被统称为「harness engineering」。

治理管线分三档。Core 模式 6 步(解析验证→风险分类→权限检查→执行→输出清洗→审计日志),适合轻量场景;Standard 模式 8 步,增加风险分类器和前置钩子,面向生产环境;Enhanced 模式 14 步,支持多 Agent 分叉、集群和后台执行,为默认模式。每次工具调用都经过完整管线,内置风险模式匹配可拦截危险操作(如 `rm -rf /`)、密钥泄露和路径遍历,输出端做注入检测和敏感信息过滤。其他功能包括基于 YAML 的 constitution 配置(提供 SOC2、HIPAA、金融等合规模板)、token 预算管理与多层压缩、多 Agent 角色化权限、逐调用成本归因和 JSONL 审计日志。

项目在 README 免责声明中明确表示,Enhanced 模式的部分架构决策受到「Claude Code 源码于 2026 年 3 月 31 日通过 Anthropic npm 仓库意外公开后的公开分析和社区讨论」启发,同时强调未包含或翻译 Anthropic 的任何专有代码。项目首次提交时间为 4 月 1 日,距泄露事件不到 24 小时。如果说 Claw Code 是泄露事件催生的「从零重写」路线,AutoHarness 走的则是「提炼设计模式」路线,将 Claude Code 的工程实践抽象为可复用的治理框架。

信源:https://github.com/aiming-lab/AutoHarness
英伟达中国份额三年从95%跌至55%,国产AI芯片已拿下四成市场

IDC 最新报告显示,2025 年中国市场 AI 加速卡总出货量约 400 万张。国产厂商合计交付 165 万张,占比 41%。英伟达仍以约 220 万张位居首位,但份额已从制裁前的约 95% 降至 55%,三年丢掉 40 个百分点。AMD 出货约 16 万张,占比 4%。

国产阵营中,华为以约 81.2 万张排名首位,占全市场约 20%,贡献了国产出货量的近一半。其余厂商:

1. 平头哥(阿里巴巴旗下芯片设计公司)约 26.5 万张,国产第二
2. 百度昆仑芯与 AI 芯片公司寒武纪各约 11.6 万张,并列国产第三
3. 海光、GPU 初创公司沐曦和天数智芯分别占国产出货量的 5%、4%、3%

2025 年中央政府启动新一轮 AI 基础设施投入,各省加速建设智算中心,多地要求政府和国企数据中心优先采购国产芯片。黄仁勋此前公开表示英伟达在中国高端训练芯片市场的份额已「从 95% 跌到了零」,当前 55% 的整体份额主要依靠推理芯片和中低端市场支撑。出口管制切断了英伟达最先进产品的供应渠道,但也为国产厂商打开了此前不存在的市场空间。

信源:https://www.reuters.com/world/china/chinese-chipmakers-claim-nearly-half-of-local-market-nvidias-lead-shrinks-idc-2026-04-01/
AI来优化建AI数据中心的混凝土:Meta开源BOxCrete,强度达标快43%

Meta 开源混凝土配方优化模型 BOxCrete(Bayesian Optimization for Concrete),基于公司内部的自适应实验平台 Ax 构建,通过贝叶斯优化从历史配方数据中学习,逐步逼近最优配比。配套发布的开放数据集包含 69 种砂浆和 54 种混凝土配方在 5 个养护龄期的超过 500 条强度测量记录,模型和数据均以 MIT 许可证在 GitHub 开源。

实战验证在 Meta 位于明尼苏达州 Rosemount 的数据中心完成。该数据中心的地面板承载冷却系统和数千台服务器,是整个建筑中荷载要求最高的部分。BOxCrete 生成的混凝土配方达到完全结构强度的速度比原方案快 43%,开裂风险降低近 10%,已被批准用于该设施的更多区域。

合作方包括伊利诺伊大学厄巴纳-香槟分校和北美最大水泥制造商 Amrize(旗下 18 座水泥厂和 269 个预拌站点)。Amrize 已承诺 2026 年投入近 10 亿美元用于美国本土产能建设,并推出了「Made in America」水泥标签。宾夕法尼亚州的混凝土软件供应商 Quadrel 已将 Meta 的开源框架集成到其面向预拌生产商的 SaaS 平台中。

美国约 20%-25% 的水泥依赖进口,水泥和混凝土行业年贡献超过 1300 亿美元、支撑约 60 万个就业岗位。BOxCrete 的设计目标是帮助生产商在使用本土原材料的同时维持混凝土质量和可持续性。AI 正在优化建造 AI 基础设施本身所需的物理材料,这个闭环本身就是 AI 渗透传统工业的一个缩影。

信源:https://engineering.fb.com/2026/03/30/data-center-engineering/ai-for-american-produced-cement-and-concrete/
OpenAI下周将随Spud推出超智能政策提案,主张「重新思考社会契约」

OpenAI 下周将配合新模型 Spud 的发布,推出一批关于超智能的政策论文和提案,主题包括产业政策和 AI 带来的就业冲击,由 CEO Sam Altman、首席未来学家 Joshua Achiam 和全球事务副总裁 Chris Lehane 牵头。

知情人士透露,提案会涉及「重新思考社会契约」和「让超智能为所有人服务」,其中有些内容可能引发争议,目的是把 AI 讨论从技术圈拉到更大的公共层面。OpenAI 过去几周刚砍掉 Sora、退出迪士尼授权、取消情色伴侣计划,产品部门改名叫「AGI Deployment」,1220 亿美元融资到账,年内还要 IPO。在 2026 年中期选举即将到来、AI 民意支持率低迷的背景下,OpenAI 显然想抢在监管落地前定义议题。

不过 OpenAI 高层自己在 AI 政治上就没对齐。Achiam 此前在 X 上公开批评亲 AI 游说团体花钱攻击支持监管的纽约国会众议员候选人 Alex Bores,称这「日后会被视为毫无意义的自摆乌龙」。这被广泛解读为在说 OpenAI 总裁 Brockman,后者正是那个反监管超级政治行动委员会的主要金主。一边喊「重新思考社会契约」,一边砸钱打压主张监管的候选人,OpenAI 内部对怎么跟政府打交道,显然还没想清楚。

信源:https://www.vanityfair.com/news/story/openai-new-model-superintelligence-policy-push
分析:AI竞赛正从模型之争变成资本分配博弈,谁先算错账谁先出局

Axios 刊发分析文章称,AI 竞赛越来越不像模型竞争,而像一道资本分配题。算力采购需提前一到两年锁定,买多了亏到破产,买少了客户跑光。Anthropic CEO Dario Amodei 在 Dwarkesh Podcast 中的原话是:如果按每年 10 倍增速采购,实际只有 5 倍或晚了一年,「世上没有任何对冲工具能阻止破产」。而算力单位成本确实在降,但用量涨得更快,总支出持续攀升,是经典的杰文斯悖论。

文章指出,这道题目前没有人答对。Anthropic 选择克制,宁愿限流丢客户也不超买,训练任务避开用户高峰;OpenAI 选择激进,在算力上大举投入。两种策略各有代价:Anthropic 的付费用户频繁撞上限流和中断,半导体分析机构 SemiAnalysis 的 Dylan Patel 警告其可能被迫转向质量较低的算力;OpenAI 的支出纪律则已反映在二级市场上,投资者正从 OpenAI 转向 Anthropic。超大规模云厂商今年 AI 资本支出预计接近 7000 亿美元,即便在这个创纪录水平上,全行业的算力供应仍然追不上需求。越接近 IPO,这道题的答案就越难藏。

信源:https://www.axios.com/2026/04/02/anthropic-usage-limits-openai
仅710万参数的「记忆压缩器」:STILL毫秒内8倍压缩KV缓存,迈向无限上下文

AI 模型推理平台 Baseten 的模型开发团队发布 STILL,一种用单次前向传播将 LLM 的 KV 缓存(模型推理时存储的上下文信息)压缩 8 倍的方法。压缩 8K token 上下文仅需毫秒,抽取式问答准确率保留 85% 以上。此前的压缩方法质量不差,但每段新上下文都要做独立优化:MIT 的 Attention Matching 需秒到分钟,斯坦福的 Cartridges 需分钟到小时。STILL 的思路类似稀疏自编码器(SAE)对字典学习的摊销:不再为每段上下文单独优化,而是学一个固定编码器一次前向传播搞定,速度快了几个数量级。

架构是一个 Perceiver 瓶颈网络,在冻结 LLM 的每一层独立运作。一组可学习的查询向量通过交叉注意力「询问」完整 KV 缓存,经自注意力互相协调以避免信息重复捕获,最后投射出紧凑的键、值和偏置。LLM 可以像注意真实上下文一样注意这组紧凑缓存。整个 LLM 冻结,只训练约 710 万个参数(占基座模型 Qwen3-4B 的 0.18%),目标是让紧凑缓存下的输出分布逼近完整缓存(KL 蒸馏)。

方案能跑通依赖三个关键修复。LLM 的键带有旋转位置编码(RoPE),混合不同位置的键会破坏位置信号,团队用「反旋转→压缩→重旋转」流水线解决。标准 Perceiver 末端的归一化层会抹掉键值向量的范数变化,而 LLM 注意力依赖这些信息,移除后效果改善。最关键的是初始化:随机初始化将潜在向量数量上限锁死在 128,超过就发散。团队将压缩器初始化为近似恒等映射,让每个潜在向量起步就是邻域输入的近拷贝,此后从「位置复制」逐步过渡到「内容感知压缩」,上限从 128 扩展到 8192。

实验在 Qwen3-4B 上完成,8K 上下文,8 块 H200 训练。8 倍压缩下,金融和代码领域问答准确率 86%-90%,法律和文学文本稍低(信息更分散,更难压缩)。压缩比固定 8 倍时,上下文从 1K 到 8K 变化,准确率稳定在 85%-92%。跨领域迁移强于预期:金融训练的压缩器评估法律文本 74%,代码训练的在所有领域均达 78%-89%,说明压缩器捕获了 Qwen3-4B 注意力机制中某种跨领域通用的结构。

团队将 STILL 定位为 LLM 持续学习三步路线图的第一步。当前 LLM 记忆只有两个极端:无损但线性增长的 KV 缓存,和高度有损的权重更新及外挂存储。STILL 补上中间一层,即有损但高保真的压缩工作记忆。下一步是迭代压缩:逐块处理文档,每压缩一块就拼到下一块前面再压缩,理论上可用固定大小记忆处理任意长度文本。更远期的设想是让模型通过强化学习自主管理记忆,以及通过超网络将压缩记忆回写权重,实现跨会话知识积累。

研究由 Baseten 模型开发团队负责人 Charlie O'Neill 与 Alex Sandomirsky、Harry Partridge 合著。O'Neill 曾在牛津大学攻读机器学习博士,是 AI 模型公司 Parsed 联合创始人,Parsed 于 2025 年底被 Baseten 收购。

信源:https://www.baseten.co/research/towards-infinite-context-windows-neural-kv-cache-compaction/
👍1
年化收入半年翻5倍至5000万美元,AI模型路由平台OpenRouter估值逼近13亿

AI 模型路由平台 OpenRouter 正在洽谈一轮 1.2 亿美元新融资,由谷歌母公司 Alphabet 旗下面向成熟期初创公司的风投基金 CapitalG 领投,投后估值约 13 亿美元。OpenRouter 提供单一 API 接口,开发者可通过它访问 OpenAI、Anthropic、谷歌等厂商的 300 余款开源和闭源模型,并对比各模型的质量、价格和速度,按任务类型灵活调度。平台按开发者购买的模型调用积分收取小额手续费。

公司当前年化收入已超 5000 万美元(年化收入按上月收入乘以 12 计算),较去年 10 月的 1000 万美元出头增长约 5 倍。本轮估值对应约 24 倍前瞻收入倍数,在当前 AI 创业市场中属于偏低水平,The Information 去年 12 月报道的 AI 应用类公司平均前瞻收入倍数约为 53 倍。

OpenRouter 2023 年成立,CEO Alex Atallah 此前联合创立了早期 NFT 交易平台 OpenSea。公司 2025 年完成由 Andreessen Horowitz 和 Menlo Ventures 领投的 4000 万美元融资,估值约 5 亿美元,本轮若完成,估值将在不到一年内翻倍以上。CapitalG 此前投资了数据平台 Databricks 和开源模型推理服务商 Baseten 等 AI 相关公司。

竞争对手包括提供多模型访问的大型云厂商(但倾向推广自家模型)、初创公司 PortKey 和 Vercel 的模型路由服务,以及同样发布模型性能排行榜的 LMArena(今年 1 月以 17 亿美元估值融资 1.5 亿美元)。多模型调度正在成为行业标配,微软本周刚为 Office 365 Copilot 推出新功能,允许用户调用 OpenAI 模型编译研究资料、用 Anthropic 模型复核结果,并支持并排对比不同 AI 提供商的响应。

信源:https://www.theinformation.com/articles/startup-helps-developers-pick-ai-models-nears-1-3-billion-valuation