动察Beating AI News
OpenAI Codex防滥用机制误判导致额度暴耗,官方紧急重置全员额度 OpenAI 核心产品负责人 Tibo Sottiaux 表示,因系统内置的防欺诈与防滥用机制误判导致用户额度加速消耗,官方已紧急为所有 Codex 用户免费重置使用限额。 额度异常消耗问题实际始于 6 月 16 日左右,并于 6 月 25 日在社交平台彻底爆发。数百名开发者在 GitHub 及社交平台上反馈, Codex 的 Token 消耗速度出现异常飙升,部分账户的额度消耗速度相比以往加快了 10 至 20 倍。有订阅 200…
Codex额度异常又崩了,OpenAI再次全员硬重置
OpenAI 旗下编程智能体 Codex 的额度异常消耗漏洞仍未根治。OpenAI 核心产品负责人 Tibo Sottiaux 宣布,团队在周日紧急开启作战室筛查日志,并对所有用户实施了第二次硬重置。
6 月 27 日的首次重置未能解决问题。有用户反馈,在手动重置额度后仅过 36 小时,限额便再次跌去 75%。独立开发者 nicdunz 批评 OpenAI 在故障响应上过于松懈。
Sottiaux 透露,由于故障仍在排查,团队决定直接刷新所有用户额度。鉴于部分用户先前已积攒了多达三次自行重置配额,这次改成了直接重置,而不是发放额度重置卡。
巧合的是,本周是 OpenAI 的休整福利周,内部称为 RESET week。本应放假放松的研发团队,最终却在作战室以重置(RESET)全网限额的方式度过了假期。
信源:https://x.com/thsottiaux/status/2071381664853319742
OpenAI 旗下编程智能体 Codex 的额度异常消耗漏洞仍未根治。OpenAI 核心产品负责人 Tibo Sottiaux 宣布,团队在周日紧急开启作战室筛查日志,并对所有用户实施了第二次硬重置。
6 月 27 日的首次重置未能解决问题。有用户反馈,在手动重置额度后仅过 36 小时,限额便再次跌去 75%。独立开发者 nicdunz 批评 OpenAI 在故障响应上过于松懈。
Sottiaux 透露,由于故障仍在排查,团队决定直接刷新所有用户额度。鉴于部分用户先前已积攒了多达三次自行重置配额,这次改成了直接重置,而不是发放额度重置卡。
巧合的是,本周是 OpenAI 的休整福利周,内部称为 RESET week。本应放假放松的研发团队,最终却在作战室以重置(RESET)全网限额的方式度过了假期。
信源:https://x.com/thsottiaux/status/2071381664853319742
X (formerly Twitter)
Tibo (@thsottiaux) on X
As we are still investigating, I have reset everyone's Codex usage limits. This is a hard reset given some users had stacked up to three banked resets already that they can apply on their own schedule.
Funnily enough, this week at OpenAI is called the RESET…
Funnily enough, this week at OpenAI is called the RESET…
Lody上架App Store:基于Loro实现手机与团队共享Code Agent状态
智能体平台 Lody 正式上架苹果 App Store,支持用户随时随地运行 Code Agent 并与团队协同。
Lody 能够为每个独立任务创建独立的 Git Worktree 工作区。多任务并行运行得以互不干扰,开发者无需担心本地工作目录被污染。移动端原生应用支持实时推送任务状态,方便用户在手机或 iPad 上审阅代码的 Diff 差异、批准变更并直接合并 Pull Request。
团队协作时,不同设备间的运行状态可以通过底层高性能同步框架 Loro 实现秒级实时同步。Loro 基于冲突无解复制数据类型 CRDT,通过特定的合并算法让各端能够独立并发修改数据并自动无冲突合并。当团队成员在手机上接续任务时,可以直接看到一致的代码差异、审批权限记录以及 Agent 实时运行日志。
信源:https://x.com/lody_ai/status/2071184229925310912
智能体平台 Lody 正式上架苹果 App Store,支持用户随时随地运行 Code Agent 并与团队协同。
Lody 能够为每个独立任务创建独立的 Git Worktree 工作区。多任务并行运行得以互不干扰,开发者无需担心本地工作目录被污染。移动端原生应用支持实时推送任务状态,方便用户在手机或 iPad 上审阅代码的 Diff 差异、批准变更并直接合并 Pull Request。
团队协作时,不同设备间的运行状态可以通过底层高性能同步框架 Loro 实现秒级实时同步。Loro 基于冲突无解复制数据类型 CRDT,通过特定的合并算法让各端能够独立并发修改数据并自动无冲突合并。当团队成员在手机上接续任务时,可以直接看到一致的代码差异、审批权限记录以及 Agent 实时运行日志。
信源:https://x.com/lody_ai/status/2071184229925310912
X (formerly Twitter)
lody (@lody_ai) on X
Lody is live on App Store.
Same experience as the Codex app and mobile — but for all code agents and teams.
Same experience as the Codex app and mobile — but for all code agents and teams.
❤1
传统程序员与设计师分工正被AI瓦解,Claude Code之父介绍未来五大研发角色
AI 编程工具正让传统的程序员、设计师与产品经理角色界限变得模糊。
Claude Code 之父 Boris Cherny 指出,未来的产品研发将被重构为五种角色:
1. 负责验证创意的原型探索 Prototyper
2. 将想法落地的代码构建 Builder
3. 清理界面与简化代码的系统清理 Sweeper
4. 迭代优化市场契合度的增长迭代 Grower
5. 保障系统安全扩展的系统维护 Maintainer
Claude Code 团队已率先实践人岗解绑的混编模式,团队成员不再受岗位头衔约束,能够自由跨越职能边界。
在产品生命周期的不同阶段,五种角色的配比直接决定了项目成败。未成型的早期产品需要团队全力聚焦于创意探索、代码构建与系统清理;进入成熟期后,研发重心则需转向增长迭代与维护。
新分工彻底打碎了传统的职能壁垒,例如在 Anthropic 内部,部分设计师正直接跨界编写代码以清理 UI ,而部分工程师则专注于提出全新创意。
信源:https://x.com/bcherny/status/2071379474277613732
AI 编程工具正让传统的程序员、设计师与产品经理角色界限变得模糊。
Claude Code 之父 Boris Cherny 指出,未来的产品研发将被重构为五种角色:
1. 负责验证创意的原型探索 Prototyper
2. 将想法落地的代码构建 Builder
3. 清理界面与简化代码的系统清理 Sweeper
4. 迭代优化市场契合度的增长迭代 Grower
5. 保障系统安全扩展的系统维护 Maintainer
Claude Code 团队已率先实践人岗解绑的混编模式,团队成员不再受岗位头衔约束,能够自由跨越职能边界。
在产品生命周期的不同阶段,五种角色的配比直接决定了项目成败。未成型的早期产品需要团队全力聚焦于创意探索、代码构建与系统清理;进入成熟期后,研发重心则需转向增长迭代与维护。
新分工彻底打碎了传统的职能壁垒,例如在 Anthropic 内部,部分设计师正直接跨界编写代码以清理 UI ,而部分工程师则专注于提出全新创意。
信源:https://x.com/bcherny/status/2071379474277613732
🖕1
动察Beating AI News
OpenRouter又上匿名模型Owl Alpha,之前三个都是中国公司的 AI 模型路由平台 OpenRouter 上线新匿名模型 Owl Alpha,提供商标记为「Stealth」,不标注开发团队。模型定位 agent 工作负载,原生支持工具调用,上下文窗口约 105 万 token,最大输出 262K token,量化格式 int8,兼容 Claude Code、OpenClaw 等主流工具。免费使用,但所有 prompt 和输出会被提供商记录用于改进模型。 OpenRouter 此前至少三个匿…
OpenRouter 热门匿名模型 Owl Alpha 身份揭晓:美团 LongCat-2.0-Preview
模型路由平台 OpenRouter 上近期增长最快的匿名智能体模型 Owl Alpha 真实身份被证实。多方信源证实,模型实际是美团研发的 LongCat-2.0-Preview,已经在平台上默默测试了近两个月。
在架构设计上,LongCat-2.0-Preview 采用混合专家(MoE)架构,拥有 1.6T 的庞大总参数量,平均激活参数约 48B(动态激活范围在 33B 至 56B 之间),并原生支持 1M 字符的上下文窗口。模型针对智能体工作负载进行了专门优化,涵盖多步推理、工具调用、代码生成及 DevOps 任务。
根据 OpenRouter 数据统计,Owl Alpha 在未公开身份的情况下,已经冲上全球智能体模型使用排行前三,在 Hermes 智能体月调用量中位列第一,在 Claude Code 中位列第二,在 OpenClaw 中位列第三。模型月度 Token 吞吐量已达 11T,增长率高达 200%。
信源:https://x.com/rohanpaul_ai/status/2071123605694652737
模型路由平台 OpenRouter 上近期增长最快的匿名智能体模型 Owl Alpha 真实身份被证实。多方信源证实,模型实际是美团研发的 LongCat-2.0-Preview,已经在平台上默默测试了近两个月。
在架构设计上,LongCat-2.0-Preview 采用混合专家(MoE)架构,拥有 1.6T 的庞大总参数量,平均激活参数约 48B(动态激活范围在 33B 至 56B 之间),并原生支持 1M 字符的上下文窗口。模型针对智能体工作负载进行了专门优化,涵盖多步推理、工具调用、代码生成及 DevOps 任务。
根据 OpenRouter 数据统计,Owl Alpha 在未公开身份的情况下,已经冲上全球智能体模型使用排行前三,在 Hermes 智能体月调用量中位列第一,在 Claude Code 中位列第二,在 OpenClaw 中位列第三。模型月度 Token 吞吐量已达 11T,增长率高达 200%。
信源:https://x.com/rohanpaul_ai/status/2071123605694652737
❤1
动察Beating AI News
Anthropic递交密信指控阿里Qwen非法调用2880万次Claude数据 据彭博社报道,Anthropic 在致美国国会参议员及白宫官员的信中,指控阿里巴巴旗下 Qwen 实验室利用近 2.5 万个欺诈账户对 Claude 进行大规模非法访问。信中披露,在 2026 年 4 月至 6 月期间,关联账户与 Claude 进行了高达 2880 万次的交互,重点针对软件工程与智能体推理等核心能力。 Anthropic 警告称,阿里与中国实验室正在系统性、非法地利用美国前沿模型的输出,以极低研发成本训练…
Claude升级风控,引发中文用户封号潮
Anthropic 近日向美国国会提交指控信,声称阿里巴巴通义千问团队在 2026 年 4 月至 6 月期间,利用约 2.5 万个虚假账号对 Claude 进行大规模对抗性蒸馏攻击。受模型数据安全防范以及官方收紧合规政策影响,大批中文用户遭遇账号封禁。
开发社区反馈显示,风控系统近期的过滤算法更加严苛,检测维度从单纯的 IP 地址延伸至设备指纹、DNS 泄露、WebRTC 状态以及系统时区一致性。使用共享 VPN 节点、虚拟手机号或在中文问答交互中表现出自动化请求特征的账号,均被系统拦截封禁。同时,官方对使用 OAuth 令牌接入第三方中转服务的订阅账号实施了无差别清理,迫使大量依赖 API 代理的开发者转向 AWS Bedrock 等官方合规渠道。
Anthropic 近日向美国国会提交指控信,声称阿里巴巴通义千问团队在 2026 年 4 月至 6 月期间,利用约 2.5 万个虚假账号对 Claude 进行大规模对抗性蒸馏攻击。受模型数据安全防范以及官方收紧合规政策影响,大批中文用户遭遇账号封禁。
开发社区反馈显示,风控系统近期的过滤算法更加严苛,检测维度从单纯的 IP 地址延伸至设备指纹、DNS 泄露、WebRTC 状态以及系统时区一致性。使用共享 VPN 节点、虚拟手机号或在中文问答交互中表现出自动化请求特征的账号,均被系统拦截封禁。同时,官方对使用 OAuth 令牌接入第三方中转服务的订阅账号实施了无差别清理,迫使大量依赖 API 代理的开发者转向 AWS Bedrock 等官方合规渠道。
Citrini提出AI监管对冲策略:做多能用上最新AI的上市公司并做空大盘
投研机构 Citrini Research 判断,前沿 AI 模型的分发将全面转向政府准入审批制,并建议做多更易获准接入最新模型的下游企业、做空宽基指数。
大模型监管准入将直接拉开企业间的生产力差距。随着 OpenAI 针对旗舰模型 GPT-5.6 Sol 的早期内测要求组织授权披露参与情况,前沿模型正在从通用基础设施退化为受政府管制的特许物资。由于宽基指数包含大批无缘 AI 赋能的传统企业,大盘指数表现将被拖累。
相反,少数获批接入的下游特许企业将实现超额增长。做多特许获批群体并做空大盘指数,能帮助投资者在对冲市场风险的同时,锁定监管壁垒带来的效率红利。
信源:https://x.com/citrini/status/2071387105096306956
投研机构 Citrini Research 判断,前沿 AI 模型的分发将全面转向政府准入审批制,并建议做多更易获准接入最新模型的下游企业、做空宽基指数。
大模型监管准入将直接拉开企业间的生产力差距。随着 OpenAI 针对旗舰模型 GPT-5.6 Sol 的早期内测要求组织授权披露参与情况,前沿模型正在从通用基础设施退化为受政府管制的特许物资。由于宽基指数包含大批无缘 AI 赋能的传统企业,大盘指数表现将被拖累。
相反,少数获批接入的下游特许企业将实现超额增长。做多特许获批群体并做空大盘指数,能帮助投资者在对冲市场风险的同时,锁定监管壁垒带来的效率红利。
信源:https://x.com/citrini/status/2071387105096306956
👍1
GLM-5.2服务商实测:Parasail与智谱官方性能最强
模型聚合服务商 OpenRouter 会持续对每个大模型进行动态路由测评,以找出最优质的运行渠道。在智谱 AI 最新开源模型 GLM-5.2 的评测中,云服务商 Parasail.io 与智谱官方渠道 z-ai 并列性能表现首位。
动态路由系统能自动帮用户挑选服务商。对于包含工具调用(Tool Calling)的请求, OpenRouter 默认开启自动分流。如果是普通的聊天请求,用户需要在模型名称后面加上 :exacto 标识来手动开启。系统每 5 分钟自动测试一次所有的服务商,把表现不好、容易报错的通道往后排,自动把用户的请求分发给速度最快、最稳定的服务商。
实测评测用到了两套工具。第一套是 TauBench(也被称为 Top Bench,用来模拟航空公司客服,测试 AI 能不能边查数据库边帮用户订票、退票,也就是多步骤的动手干活能力)。第二套是 GPQA 科学问题集,包含物理、化学和生物等领域的博士级难题,专门用来测试 AI 的复杂推理能力。通过让不同服务商的 AI 答题,系统能测出各家提供服务的真实速度与准确率。
信源:https://openrouter.ai/z-ai/glm-5.2#performance
模型聚合服务商 OpenRouter 会持续对每个大模型进行动态路由测评,以找出最优质的运行渠道。在智谱 AI 最新开源模型 GLM-5.2 的评测中,云服务商 Parasail.io 与智谱官方渠道 z-ai 并列性能表现首位。
动态路由系统能自动帮用户挑选服务商。对于包含工具调用(Tool Calling)的请求, OpenRouter 默认开启自动分流。如果是普通的聊天请求,用户需要在模型名称后面加上 :exacto 标识来手动开启。系统每 5 分钟自动测试一次所有的服务商,把表现不好、容易报错的通道往后排,自动把用户的请求分发给速度最快、最稳定的服务商。
实测评测用到了两套工具。第一套是 TauBench(也被称为 Top Bench,用来模拟航空公司客服,测试 AI 能不能边查数据库边帮用户订票、退票,也就是多步骤的动手干活能力)。第二套是 GPQA 科学问题集,包含物理、化学和生物等领域的博士级难题,专门用来测试 AI 的复杂推理能力。通过让不同服务商的 AI 答题,系统能测出各家提供服务的真实速度与准确率。
信源:https://openrouter.ai/z-ai/glm-5.2#performance
❤1
传长鑫存储与腾讯签超200亿元芯片供货协议,DRAM产能拟翻倍
知情人士透露,中国内存芯片制造商长鑫存储已与腾讯签署了一项价值超 200 亿元人民币的长期服务器 DRAM 芯片供货协议。两名知情人士称协议期跨度长达 3 年,另一名消息源则指长达 5 年。目前尚不清楚协议是否包含对高性能 AI 芯片至关重要的 HBM 内存,但合作旨在为腾讯云服务、数据库及 AI 工作负载提供稳定的服务器内存支持。长鑫存储目前正筹备在上海证券交易所科创板进行首次公开募股 (IPO),计划募集 295 亿元人民币。
长鑫存储正通过大举扩产应对全球内存供求偏紧与价格暴涨。受全球服务器内存供应短缺影响,2026 年第一季度 DRAM 合约价环比大涨约 95%,且行业上升周期预计将持续到 2027 年底。受行业景气推动,长鑫存储在 2026 年第一季度营收同比暴增 700% 至 508 亿元,并实现 250 亿元净利润,成功扭亏为盈。除现有的合肥、北京三座 12 英寸晶圆厂、以及上海现有的 HBM 封装设施外,长鑫存储已在上海开工建设一座新的 DRAM 晶圆厂。新厂建成投产后,长鑫存储的 DRAM 月产能将从现有的 30 万片翻倍至 60 万片。
目前,中国国内互联网巨头正加速锁定本土半导体供应链。除腾讯外,长鑫存储目前也在与另外几家中国大型互联网公司接触,招股说明书披露的客户还包括阿里云、字节跳动、联想和小米。不过长鑫存储依然面临良率瓶颈,下一代 DDR5 内存产品在 2026 年第一季度曾遭遇良率偏低问题,暴露出与三星、SK 海力士等国际一线厂商的技术差距。
信源:https://www.reuters.com/world/china/chinas-cxmt-wins-3-billion-memory-supply-deal-with-tencent-sources-say-2026-06-29/
知情人士透露,中国内存芯片制造商长鑫存储已与腾讯签署了一项价值超 200 亿元人民币的长期服务器 DRAM 芯片供货协议。两名知情人士称协议期跨度长达 3 年,另一名消息源则指长达 5 年。目前尚不清楚协议是否包含对高性能 AI 芯片至关重要的 HBM 内存,但合作旨在为腾讯云服务、数据库及 AI 工作负载提供稳定的服务器内存支持。长鑫存储目前正筹备在上海证券交易所科创板进行首次公开募股 (IPO),计划募集 295 亿元人民币。
长鑫存储正通过大举扩产应对全球内存供求偏紧与价格暴涨。受全球服务器内存供应短缺影响,2026 年第一季度 DRAM 合约价环比大涨约 95%,且行业上升周期预计将持续到 2027 年底。受行业景气推动,长鑫存储在 2026 年第一季度营收同比暴增 700% 至 508 亿元,并实现 250 亿元净利润,成功扭亏为盈。除现有的合肥、北京三座 12 英寸晶圆厂、以及上海现有的 HBM 封装设施外,长鑫存储已在上海开工建设一座新的 DRAM 晶圆厂。新厂建成投产后,长鑫存储的 DRAM 月产能将从现有的 30 万片翻倍至 60 万片。
目前,中国国内互联网巨头正加速锁定本土半导体供应链。除腾讯外,长鑫存储目前也在与另外几家中国大型互联网公司接触,招股说明书披露的客户还包括阿里云、字节跳动、联想和小米。不过长鑫存储依然面临良率瓶颈,下一代 DDR5 内存产品在 2026 年第一季度曾遭遇良率偏低问题,暴露出与三星、SK 海力士等国际一线厂商的技术差距。
信源:https://www.reuters.com/world/china/chinas-cxmt-wins-3-billion-memory-supply-deal-with-tencent-sources-say-2026-06-29/
🥰2
贾扬清入职仅一年从英伟达离职,DGX Lepton运营表现未达预期
在英伟达以数亿美元收购 AI 初创公司 LeptonAI 仅一年后,LeptonAI 创始人(后担任英伟达系统软件副总裁)贾扬清已从英伟达离职。据 SemiAnalysis 爆料,双方决裂的主要原因在于英伟达首席执行官黄仁勋对 DGX Cloud Lepton 项目的运营表现不佳感到不满,且双方在产品执行力与开源承诺上存在分歧。
英伟达于 2025 年 4 月收购 LeptonAI,并于同年 6 月将平台重塑为 DGX Cloud Lepton 重新发布,定位为统一的 AI 算力市场。英伟达最初承诺在 2026 年前开源 LeptonAI 的核心软件平台,但截至目前仍未兑现。外界猜测,黄仁勋在收购后改变了主意,拒绝批准开源计划,而为期数年的股权归属期协议也未能留住贾扬清。
除内部文化与策略分歧外,以 Cursor 和 Claude Code 为代表的 AI 智能体编程工具的兴起,也在重塑中间件市场。编程工具降低了开发者构建应用时的工程门槛,稀释了 LeptonAI 等基础设施平台的工程价值。
贾扬清本月上旬受邀担任了 GPU 云服务商 Hyperbolic 的顾问。
信源:https://x.com/SemiAnalysis_/status/2071337888059408701
在英伟达以数亿美元收购 AI 初创公司 LeptonAI 仅一年后,LeptonAI 创始人(后担任英伟达系统软件副总裁)贾扬清已从英伟达离职。据 SemiAnalysis 爆料,双方决裂的主要原因在于英伟达首席执行官黄仁勋对 DGX Cloud Lepton 项目的运营表现不佳感到不满,且双方在产品执行力与开源承诺上存在分歧。
英伟达于 2025 年 4 月收购 LeptonAI,并于同年 6 月将平台重塑为 DGX Cloud Lepton 重新发布,定位为统一的 AI 算力市场。英伟达最初承诺在 2026 年前开源 LeptonAI 的核心软件平台,但截至目前仍未兑现。外界猜测,黄仁勋在收购后改变了主意,拒绝批准开源计划,而为期数年的股权归属期协议也未能留住贾扬清。
除内部文化与策略分歧外,以 Cursor 和 Claude Code 为代表的 AI 智能体编程工具的兴起,也在重塑中间件市场。编程工具降低了开发者构建应用时的工程门槛,稀释了 LeptonAI 等基础设施平台的工程价值。
贾扬清本月上旬受邀担任了 GPU 云服务商 Hyperbolic 的顾问。
信源:https://x.com/SemiAnalysis_/status/2071337888059408701
X (formerly Twitter)
SemiAnalysis (@SemiAnalysis_) on X
BREAKING NEWS: The Founder/CEO of LeptonAI has left only a year after LeptonAI’s acquisition. This is quite shocking, as Jensen reportedly spent $700M acquiring LeptonAI. What did he see? DGX Lepton flopped and got nowhere near the success Jensen expected.…
Cognition CEO建议以实际产出评估代替Token刷量考核
AI 编程初创公司 Cognition 联合创始人兼 CEO Scott Wu 在 Founders 播客中指出,部分企业通过统计员工消耗 AI Token 数量来考核程序员表现的做法已「做过头了」,应当以实际完成的工单和产出为衡量标准。
这股风气在硅谷被称为 tokenmaxxing,即员工为了在内部 AI 使用率仪表盘或绩效评估中获得优势,反射性地大量调用 Claude、Codex 或 Cursor 等 AI 编程工具。法律 AI 创企 Legora 的技术总监 Jacob Lauritzen 本月在播客中同样批评称,不少人在绩效评估中展示 Token 使用量,导致员工单纯为了数据好看而刷量,属于愚蠢的评估方式。
芯片开发商 Cerebras Systems 的首席执行官 Andrew Feldman 在本月的彭博会议上表示,给员工提供无限 Token 额度从一开始就非常愚蠢。Feldman 建议企业在使用 AI 工具时应当更加注重成本效益,使用低成本的开源模型,而不是在普通任务中滥用顶级闭源模型。
信源:https://www.businessinsider.com/cognition-ceo-scott-wu-tokenmaxxing-leaderboards-opinion-ai-vibe-coding-2026-6
AI 编程初创公司 Cognition 联合创始人兼 CEO Scott Wu 在 Founders 播客中指出,部分企业通过统计员工消耗 AI Token 数量来考核程序员表现的做法已「做过头了」,应当以实际完成的工单和产出为衡量标准。
这股风气在硅谷被称为 tokenmaxxing,即员工为了在内部 AI 使用率仪表盘或绩效评估中获得优势,反射性地大量调用 Claude、Codex 或 Cursor 等 AI 编程工具。法律 AI 创企 Legora 的技术总监 Jacob Lauritzen 本月在播客中同样批评称,不少人在绩效评估中展示 Token 使用量,导致员工单纯为了数据好看而刷量,属于愚蠢的评估方式。
芯片开发商 Cerebras Systems 的首席执行官 Andrew Feldman 在本月的彭博会议上表示,给员工提供无限 Token 额度从一开始就非常愚蠢。Feldman 建议企业在使用 AI 工具时应当更加注重成本效益,使用低成本的开源模型,而不是在普通任务中滥用顶级闭源模型。
信源:https://www.businessinsider.com/cognition-ceo-scott-wu-tokenmaxxing-leaderboards-opinion-ai-vibe-coding-2026-6
Business Insider
Cognition's CEO says token spend leaderboards are 'directionally correct' — but some people get carried away
Cognition CEO Scott Wu said there are better ways to incentivize employees to use AI.
动察Beating AI News
彭博社:百度昆仑芯计划在科创板和香港双重上市,估值超30亿美元 百度旗下 AI 芯片公司昆仑芯正在推进两地上市计划。据彭博社报道,中金公司向中国证监会提交的文件显示,昆仑芯正寻求在上海科创板进行首次公开募股(IPO)。此前,昆仑芯已被曝在今年早些时候秘密提交了香港上市申请。 昆仑芯早年由百度内部成立,旨在为其 AI 业务提供算力支持,百度目前持有该公司 58% 的股份。在去年 12 月的报道中,昆仑芯的估值至少达到 30 亿美元。杰富瑞(Jefferies)分析师预计,昆仑芯的香港 IPO 有望在今年…
百度芯片部门昆仑芯冲刺500亿美元上市,被指绑定3至7倍认购额购芯协议
百度旗下 AI 芯片公司昆仑芯计划在香港首次公开募股,估值目标为 500 亿美元,但在路演中将芯片采购承诺列为认购的前提条件。多名参与路演的知情人士透露,昆仑芯在配售时优先考虑承诺购芯的买方,要求采购的芯片价值达到认购额的 3 至 7 倍,认购方主要为地方政府背景的 AI 与半导体投资基金。
500 亿美元的估值目标较母公司百度的市值高出近 40% ,百度目前持有昆仑芯 58% 的股份。先前昆仑芯曾计划通过首次公开募股融资至多 20 亿美元,但面临着在竞争激烈的中国 AI 芯片市场中建立外部客户群的压力。
昆仑芯成立于 2011 年,产品兼容英伟达的 CUDA 软件系统。百度已开始在昆仑芯芯片上训练新版文心大模型,部分替代英伟达的 GPU 。目前主力芯片为用于推理的 P800 系列, M100 系列已准备在今年进行大规模推理, M300 系列则计划于 2027 年用于训练和推理。除母公司外,腾讯也已成为主要的外部客户。
然而,昆仑芯并未进入中国 5 月公布的首批安全可靠测评芯片认证名单,而华为、沐曦 (MetaX) 、摩尔线程 (Moore Threads) 以及阿里旗下平头哥 (T-Head) 均已入选。未获认证主要受制于代工渠道,昆仑芯先前主要依赖三星电子进行芯片制造。为争取面向政府和国企的采购订单,昆仑芯正与中芯国际进行谈判,计划将部分芯片生产转移至国内代工厂。
信源:https://www.theinformation.com/articles/baidus-chip-unit-asked-ipo-investors-buy-semiconductors
百度旗下 AI 芯片公司昆仑芯计划在香港首次公开募股,估值目标为 500 亿美元,但在路演中将芯片采购承诺列为认购的前提条件。多名参与路演的知情人士透露,昆仑芯在配售时优先考虑承诺购芯的买方,要求采购的芯片价值达到认购额的 3 至 7 倍,认购方主要为地方政府背景的 AI 与半导体投资基金。
500 亿美元的估值目标较母公司百度的市值高出近 40% ,百度目前持有昆仑芯 58% 的股份。先前昆仑芯曾计划通过首次公开募股融资至多 20 亿美元,但面临着在竞争激烈的中国 AI 芯片市场中建立外部客户群的压力。
昆仑芯成立于 2011 年,产品兼容英伟达的 CUDA 软件系统。百度已开始在昆仑芯芯片上训练新版文心大模型,部分替代英伟达的 GPU 。目前主力芯片为用于推理的 P800 系列, M100 系列已准备在今年进行大规模推理, M300 系列则计划于 2027 年用于训练和推理。除母公司外,腾讯也已成为主要的外部客户。
然而,昆仑芯并未进入中国 5 月公布的首批安全可靠测评芯片认证名单,而华为、沐曦 (MetaX) 、摩尔线程 (Moore Threads) 以及阿里旗下平头哥 (T-Head) 均已入选。未获认证主要受制于代工渠道,昆仑芯先前主要依赖三星电子进行芯片制造。为争取面向政府和国企的采购订单,昆仑芯正与中芯国际进行谈判,计划将部分芯片生产转移至国内代工厂。
信源:https://www.theinformation.com/articles/baidus-chip-unit-asked-ipo-investors-buy-semiconductors
The Information
Baidu’s Chip Unit Asked IPO Investors to Buy Its Semiconductors
In China, chip companies may have found a new clientele for their semiconductors: IPO investors. Kunlunxin Technology, an AI chip firm majority owned by search engine company Baidu, is planning to go public in Hong Kong at a target valuation of $50 billion…
🤡1
BinEval框架用是非题自动给AI打分,解决裁判模型虚报满分和不透明痛点
Capital One 的研究团队提出 BinEval 评估框架,将复杂的评分标准自动拆解为具体的「是或否」单选题,解决打分像黑盒子以及分数虚高的问题。框架让评估模型逐一回答各项是非题,最后用答对题目的比例计算得分。
在三个主流数据集的测试中,使用 Claude Sonnet 4 等大模型的 BinEval 打分质量匹配或超越了 UniEval 等主流评估工具,特别擅长揪出表面通顺但事实错误的回答。
以一则涉及飞机拦截的摘要评估为例,虽然摘要读起来流畅且实体与飞机型号都对,但摘要把五角大楼和俄罗斯的说法安反了,还瞎编了网址。旧的 AI 裁判因为只看表面,直接给了 5.0 的满分。而 BinEval 凭借七道是非题准确揪出四处事实错误,给出了 1.57 分,与人类给出的 2.0 分非常接近。
Capital One 的研究团队提出 BinEval 评估框架,将复杂的评分标准自动拆解为具体的「是或否」单选题,解决打分像黑盒子以及分数虚高的问题。框架让评估模型逐一回答各项是非题,最后用答对题目的比例计算得分。
在三个主流数据集的测试中,使用 Claude Sonnet 4 等大模型的 BinEval 打分质量匹配或超越了 UniEval 等主流评估工具,特别擅长揪出表面通顺但事实错误的回答。
以一则涉及飞机拦截的摘要评估为例,虽然摘要读起来流畅且实体与飞机型号都对,但摘要把五角大楼和俄罗斯的说法安反了,还瞎编了网址。旧的 AI 裁判因为只看表面,直接给了 5.0 的满分。而 BinEval 凭借七道是非题准确揪出四处事实错误,给出了 1.57 分,与人类给出的 2.0 分非常接近。
是非题反馈既能通过「强模型带弱模型」自动调教小裁判的评分标准,也能让写稿 AI 自动修改提示词进行自我纠错。实验表明,在指令遵循测试中,自动修改写稿提示词能将格式与句子结构的遵守率提升 17 个百分点。不过,对于限制字数等需要数学计算的硬实力,优化工具依然无能为力,且过度拆解相关性要求反而会让评估标准过于严苛。
信源:https://arxiv.org/abs/2606.27226
Capital One 的研究团队提出 BinEval 评估框架,将复杂的评分标准自动拆解为具体的「是或否」单选题,解决打分像黑盒子以及分数虚高的问题。框架让评估模型逐一回答各项是非题,最后用答对题目的比例计算得分。
在三个主流数据集的测试中,使用 Claude Sonnet 4 等大模型的 BinEval 打分质量匹配或超越了 UniEval 等主流评估工具,特别擅长揪出表面通顺但事实错误的回答。
以一则涉及飞机拦截的摘要评估为例,虽然摘要读起来流畅且实体与飞机型号都对,但摘要把五角大楼和俄罗斯的说法安反了,还瞎编了网址。旧的 AI 裁判因为只看表面,直接给了 5.0 的满分。而 BinEval 凭借七道是非题准确揪出四处事实错误,给出了 1.57 分,与人类给出的 2.0 分非常接近。
Capital One 的研究团队提出 BinEval 评估框架,将复杂的评分标准自动拆解为具体的「是或否」单选题,解决打分像黑盒子以及分数虚高的问题。框架让评估模型逐一回答各项是非题,最后用答对题目的比例计算得分。
在三个主流数据集的测试中,使用 Claude Sonnet 4 等大模型的 BinEval 打分质量匹配或超越了 UniEval 等主流评估工具,特别擅长揪出表面通顺但事实错误的回答。
以一则涉及飞机拦截的摘要评估为例,虽然摘要读起来流畅且实体与飞机型号都对,但摘要把五角大楼和俄罗斯的说法安反了,还瞎编了网址。旧的 AI 裁判因为只看表面,直接给了 5.0 的满分。而 BinEval 凭借七道是非题准确揪出四处事实错误,给出了 1.57 分,与人类给出的 2.0 分非常接近。
是非题反馈既能通过「强模型带弱模型」自动调教小裁判的评分标准,也能让写稿 AI 自动修改提示词进行自我纠错。实验表明,在指令遵循测试中,自动修改写稿提示词能将格式与句子结构的遵守率提升 17 个百分点。不过,对于限制字数等需要数学计算的硬实力,优化工具依然无能为力,且过度拆解相关性要求反而会让评估标准过于严苛。
信源:https://arxiv.org/abs/2606.27226
arXiv.org
Ask, Don't Judge: Binary Questions for Interpretable LLM...
Evaluating LLM outputs remains a major bottleneck in NLP: human evaluation is expensive and slow, lexical metrics correlate poorly with human judgments on open-ended generation, and holistic LLM...
字节豆包上线内置轻导航功能:支持步骑行原生播报
字节跳动旗下的豆包 App 近日上线了内置导航功能「豆包导航」。用户通过语音或文字输入目的地,并在授权定位权限后,即可在 App 内基于实时位置生成一体化地图卡片,陈列驾车、公交、骑行、步行四种出行方案。
豆包导航采用分场景差异化服务逻辑。步行和骑行路线支持豆包 App 内的原生导航,并提供实时语音播报,直观展示剩余路程、预计耗时及预估抵达时间。驾车和公共交通路线则需点击跳转第三方地图 App 完成导航。
字节跳动旗下的豆包 App 近日上线了内置导航功能「豆包导航」。用户通过语音或文字输入目的地,并在授权定位权限后,即可在 App 内基于实时位置生成一体化地图卡片,陈列驾车、公交、骑行、步行四种出行方案。
豆包导航采用分场景差异化服务逻辑。步行和骑行路线支持豆包 App 内的原生导航,并提供实时语音播报,直观展示剩余路程、预计耗时及预估抵达时间。驾车和公共交通路线则需点击跳转第三方地图 App 完成导航。
DeepSeek V4正式版定档7月中旬上线,引入峰谷双倍定价
DeepSeek 官方宣布 DeepSeek V4 正式版计划于 7 月中旬上线,并同步引入峰谷定价机制。在北京时间每日 9:00 至 12:00 以及 14:00 至 18:00 的高峰时段,API 计费价格将调整为平日的 2 倍。
在新定价机制下,高性能模型 deepseek-v4-pro 的平日每百万 tokens 输入缓存命中价格为 0.025 元,缓存未命中为 3.00 元,输出为 6.00 元。高峰时段,三项价格将分别上调至 0.05 元、6.00 元和 12.00 元。轻量级模型 deepseek-v4-flash 的平日每百万 tokens 输入缓存命中价格为 0.02 元,缓存未命中为 1.00 元,输出为 2.00 元。高峰时段,三项价格则对应调整为 0.04 元、2.00 元和 4.00 元。实际计费调整发生前 24 小时,官方将通过邮件通知用户。
旧有的两个 API 模型名称 deepseek-chat 与 deepseek-reasoner 将于北京时间 2026 年 7 月 24 日 23:59 正式弃用。过渡期内,旧模型名称已自动重定向,deepseek-chat 指向 deepseek-v4-flash 的非思考模式,deepseek-reasoner 指向思考模式。官方建议开发者在截止日期前,将 API 请求中的 model 参数修改为 deepseek-v4-pro 或 deepseek-v4-flash,以确保业务不受影响。
DeepSeek 官方宣布 DeepSeek V4 正式版计划于 7 月中旬上线,并同步引入峰谷定价机制。在北京时间每日 9:00 至 12:00 以及 14:00 至 18:00 的高峰时段,API 计费价格将调整为平日的 2 倍。
在新定价机制下,高性能模型 deepseek-v4-pro 的平日每百万 tokens 输入缓存命中价格为 0.025 元,缓存未命中为 3.00 元,输出为 6.00 元。高峰时段,三项价格将分别上调至 0.05 元、6.00 元和 12.00 元。轻量级模型 deepseek-v4-flash 的平日每百万 tokens 输入缓存命中价格为 0.02 元,缓存未命中为 1.00 元,输出为 2.00 元。高峰时段,三项价格则对应调整为 0.04 元、2.00 元和 4.00 元。实际计费调整发生前 24 小时,官方将通过邮件通知用户。
旧有的两个 API 模型名称 deepseek-chat 与 deepseek-reasoner 将于北京时间 2026 年 7 月 24 日 23:59 正式弃用。过渡期内,旧模型名称已自动重定向,deepseek-chat 指向 deepseek-v4-flash 的非思考模式,deepseek-reasoner 指向思考模式。官方建议开发者在截止日期前,将 API 请求中的 model 参数修改为 deepseek-v4-pro 或 deepseek-v4-flash,以确保业务不受影响。
抓到Codex额度耗光真凶,OpenAI修复多项漏洞并第三次全员重置补偿
OpenAI 旗下编程智能体 Codex 的额度异常消耗的原因已正式查明。核心产品负责人 Tibo Sottiaux 宣布,团队已全量部署修复补丁。除即将再次重置全员限额之外,所有用户还将额外获得一张限时 24 小时启用的重置卡。
暴耗并非源于单一漏洞,而是多项后台小问题与显示误报叠加所致。在运行层面,系统因自动审查过频、意外触发了过多子智能体任务,且后台建议功能在失败后会重复运行与频繁重试,成倍吞噬了 Token。在显示层面,自动审查被错误归类为 GPT-5.4 消耗,而执行失败或被限流的请求也在前端图表中被错误显示为额度消耗,直接引发了全网用户的额度荒。
目前,官方已在计费后端、桌面端与 CLI 终端同步部署热修补丁。未来,仅有成功的交互请求会记入 Turn 统计图表。虽然历史图表中的错误数据无法更改,但更新后的实际 Token 消耗将明显降低。
信源:https://x.com/thsottiaux/status/2071740419030053227
OpenAI 旗下编程智能体 Codex 的额度异常消耗的原因已正式查明。核心产品负责人 Tibo Sottiaux 宣布,团队已全量部署修复补丁。除即将再次重置全员限额之外,所有用户还将额外获得一张限时 24 小时启用的重置卡。
暴耗并非源于单一漏洞,而是多项后台小问题与显示误报叠加所致。在运行层面,系统因自动审查过频、意外触发了过多子智能体任务,且后台建议功能在失败后会重复运行与频繁重试,成倍吞噬了 Token。在显示层面,自动审查被错误归类为 GPT-5.4 消耗,而执行失败或被限流的请求也在前端图表中被错误显示为额度消耗,直接引发了全网用户的额度荒。
目前,官方已在计费后端、桌面端与 CLI 终端同步部署热修补丁。未来,仅有成功的交互请求会记入 Turn 统计图表。虽然历史图表中的错误数据无法更改,但更新后的实际 Token 消耗将明显降低。
信源:https://x.com/thsottiaux/status/2071740419030053227
X (formerly Twitter)
Tibo (@thsottiaux) on X
Codex usage limits will be fully reset again in the next hour and we will credit one additional reset into your bank for your own usage over the next 24 hours.
We investigated reports that Codex usage was being consumed faster than expected. There wasn't…
We investigated reports that Codex usage was being consumed faster than expected. There wasn't…
OpenClaw移动端App正式上线,手机充当电脑伴侣与硬件延伸
开源 AI 智能体框架 OpenClaw 的移动端 App 正式上架 iOS 和 Android 应用商店。这款移动端应用并非独立的 AI 聊天软件,而是本地自托管网关(Gateway)的伴侣节点。
它的核心逻辑全部在用户的电脑上运行,手机只充当 Agent 的「物理延伸」,用于提供摄像头、地理定位、语音交互和通知推送。为了保护隐私,移动端采取了严格的授权指令控制,手机截图或拍照等敏感权限默认关闭,需在本地网关上显式授权。
目前首发版本仍存在部分页面闪退和卡死问题,且应用商店已出现 Logo 相同的山寨应用 ClawOS,下载时需认准官方龙虾图标。
信源:https://x.com/openclaw/status/2071688039114342592
开源 AI 智能体框架 OpenClaw 的移动端 App 正式上架 iOS 和 Android 应用商店。这款移动端应用并非独立的 AI 聊天软件,而是本地自托管网关(Gateway)的伴侣节点。
它的核心逻辑全部在用户的电脑上运行,手机只充当 Agent 的「物理延伸」,用于提供摄像头、地理定位、语音交互和通知推送。为了保护隐私,移动端采取了严格的授权指令控制,手机截图或拍照等敏感权限默认关闭,需在本地网关上显式授权。
目前首发版本仍存在部分页面闪退和卡死问题,且应用商店已出现 Logo 相同的山寨应用 ClawOS,下载时需认准官方龙虾图标。
信源:https://x.com/openclaw/status/2071688039114342592
把AI编程塞进手机:Cursor推出iOS应用,主力模型Composer 2.5限时2.5折
AI 代码编辑器 Cursor 推出 iOS 原生应用公测版,让开发者在手机上也能写代码。
App 解决了开发者必须守在电脑前才能运行 AI 任务的痛点。现在,你只需要在手机上选好代码仓库,用文字或语音说出想法,就能在云端启动全天候运行的 AI 助理。AI 会在云端虚拟环境中独立跑任务、测试代码,并生成合并申请。如果你想控制家里或办公室电脑上的任务,也可以通过手机远程控制。
为了提升移动体验,Cursor 接入了苹果的「实时活动(Live Activities)」锁屏通知。一旦 AI 跑完代码、需要人工确认,或者生成了合并代码的请求,手机锁屏就会直接提醒。你可以在手机上直观查看 AI 生成的网页效果、截图以及代码修改对比,甚至可以直接一键合并代码。
iOS 版现已向所有付费用户开放。在 7 月 5 日前,通过手机 App 运行核心编程功能 Composer 2.5 还能享受 2.5 折的限时优惠。
信源:https://cursor.com/blog/ios-mobile-app
AI 代码编辑器 Cursor 推出 iOS 原生应用公测版,让开发者在手机上也能写代码。
App 解决了开发者必须守在电脑前才能运行 AI 任务的痛点。现在,你只需要在手机上选好代码仓库,用文字或语音说出想法,就能在云端启动全天候运行的 AI 助理。AI 会在云端虚拟环境中独立跑任务、测试代码,并生成合并申请。如果你想控制家里或办公室电脑上的任务,也可以通过手机远程控制。
为了提升移动体验,Cursor 接入了苹果的「实时活动(Live Activities)」锁屏通知。一旦 AI 跑完代码、需要人工确认,或者生成了合并代码的请求,手机锁屏就会直接提醒。你可以在手机上直观查看 AI 生成的网页效果、截图以及代码修改对比,甚至可以直接一键合并代码。
iOS 版现已向所有付费用户开放。在 7 月 5 日前,通过手机 App 运行核心编程功能 Composer 2.5 还能享受 2.5 折的限时优惠。
信源:https://cursor.com/blog/ios-mobile-app
年化营收飙至5亿美元,视频生成应用Higgsfield AI估值拟翻四倍至50亿美元
视频生成初创公司 Higgsfield AI 正与投资者洽谈以 50 亿美元的投前估值融资 3 亿至 5 亿美元。该估值是其今年 1 月融资时的四倍以上。与此同时,这家成立于 2023 年的旧金山公司本月年化营收跑率已达到 5 亿美元,是 1 月份 2 亿美元跑率的 2.5 倍。
目前,DST Global 正在洽谈投资事宜,但该轮融资尚未正式交割。Higgsfield AI 的主要业务是提供 AI 图像与视频生成平台,订阅价格为每月 19 至 99 美元,近期还推出了一款名为 Supercomputer 的营销智能体。该公司早期主要依靠个人创作者,但目前已有 70% 的平台活跃度来自企业客户。
这一交易谈判进一步印证了视频 AI 领域的投资热度:谷歌近期向电影制片厂(A24)投资了约 7500 万美元开展 AI 合作,而另一家视频生成公司 Runway 也在今年 2 月以 53 亿美元估值完成了 3.15 亿美元的融资。此外,Meta 曾在 2025 年探讨过收购 Higgsfield 及其竞争对手 Runway 的可能性。
信源:https://www.theinformation.com/articles/ai-video-startup-talks-quadruple-valuation-5-billion
视频生成初创公司 Higgsfield AI 正与投资者洽谈以 50 亿美元的投前估值融资 3 亿至 5 亿美元。该估值是其今年 1 月融资时的四倍以上。与此同时,这家成立于 2023 年的旧金山公司本月年化营收跑率已达到 5 亿美元,是 1 月份 2 亿美元跑率的 2.5 倍。
目前,DST Global 正在洽谈投资事宜,但该轮融资尚未正式交割。Higgsfield AI 的主要业务是提供 AI 图像与视频生成平台,订阅价格为每月 19 至 99 美元,近期还推出了一款名为 Supercomputer 的营销智能体。该公司早期主要依靠个人创作者,但目前已有 70% 的平台活跃度来自企业客户。
这一交易谈判进一步印证了视频 AI 领域的投资热度:谷歌近期向电影制片厂(A24)投资了约 7500 万美元开展 AI 合作,而另一家视频生成公司 Runway 也在今年 2 月以 53 亿美元估值完成了 3.15 亿美元的融资。此外,Meta 曾在 2025 年探讨过收购 Higgsfield 及其竞争对手 Runway 的可能性。
信源:https://www.theinformation.com/articles/ai-video-startup-talks-quadruple-valuation-5-billion
The Information
AI Video Startup in Talks to Quadruple Valuation to $5 Billion
AI video startup Higgsfield AI is in talks with investors to raise $300 million to $500 million at a valuation of $5 billion before the investment, according to two people with knowledge of the fundraising efforts. A valuation at that level would be more…
动察Beating AI News
GPT-5.5、Codex和托管Agent三件套同日登陆AWS Bedrock OpenAI 与 AWS 宣布三项产品同步进入 limited preview:GPT-5.5 等 OpenAI 模型上线 Amazon Bedrock,Codex 可直接以 Bedrock 为后端运行,以及由 OpenAI 驱动的 Amazon Bedrock Managed Agents 托管 agent 服务。这是 OpenAI 闭源模型首次在微软 Azure 之外的云平台上直接可用。 Codex 目前周活超过 400…
微软与亚马逊「互拆地基」:Claude登陆Azure,OpenAI杀入Bedrock
AI 模型两大阵营的排他性云联盟正式解体。
Anthropic 宣布其 Claude 4.x 系列(包括 Claude Opus 4.8 和 Claude Haiku 4.5)在微软 Azure AI Foundry 正式可用,直接运行在 NVIDIA GB300 GPU 算力上;与之呼应,OpenAI 旗下的 GPT-5.5 和 GPT-5.4 也已经在两月前在亚马逊 AWS Bedrock 上架。
云巨头正从「独占模型」退守为「算力与流量入口」,而大模型则走向了多云分发的公用事业阶段。
信源:https://claude.com/blog/claude-in-microsoft-foundry
AI 模型两大阵营的排他性云联盟正式解体。
Anthropic 宣布其 Claude 4.x 系列(包括 Claude Opus 4.8 和 Claude Haiku 4.5)在微软 Azure AI Foundry 正式可用,直接运行在 NVIDIA GB300 GPU 算力上;与之呼应,OpenAI 旗下的 GPT-5.5 和 GPT-5.4 也已经在两月前在亚马逊 AWS Bedrock 上架。
云巨头正从「独占模型」退守为「算力与流量入口」,而大模型则走向了多云分发的公用事业阶段。
信源:https://claude.com/blog/claude-in-microsoft-foundry
Claude
Claude in Microsoft Foundry is now generally available | Claude by Anthropic
Starting today, Claude models are generally available in Microsoft Foundry, hosted on Azure.
前通义千问RL负责人朱天航加入AI智能体研发商FRL,负责大模型训练
前阿里通义千问(Qwen)创始团队成员、强化学习(RL)负责人朱天航宣布入驻社交平台 X。
目前,他在美国 AI 智能体初创公司 Fundamental Research Labs(FRL,前身为 Altera,旗下开发有针对 Excel 电子表格的智能体产品 Shortcut)负责大模型训练,并已在实验室任职近一年半。
朱天航表示,接下来将开源并分享在 FRL 期间训练针对电子表格和金融领域大模型的实战经验。
早期他还曾负责零一万物(01.ai)的 RL 训练。
信源:https://x.com/TianhangZhuzth/status/2071674444201021729
前阿里通义千问(Qwen)创始团队成员、强化学习(RL)负责人朱天航宣布入驻社交平台 X。
目前,他在美国 AI 智能体初创公司 Fundamental Research Labs(FRL,前身为 Altera,旗下开发有针对 Excel 电子表格的智能体产品 Shortcut)负责大模型训练,并已在实验室任职近一年半。
朱天航表示,接下来将开源并分享在 FRL 期间训练针对电子表格和金融领域大模型的实战经验。
早期他还曾负责零一万物(01.ai)的 RL 训练。
信源:https://x.com/TianhangZhuzth/status/2071674444201021729
首发原生适配昇腾:华为正式开源920亿参数openPangu-2.0-Flash
华为宣布正式开源盘古 openPangu-2.0-Flash 模型,并即将在 GitCode 的 Ascend Tribe 社区上线。
模型拥有 920 亿(92B)总参数,采用混合专家(MoE)架构,实际仅激活 60 亿参数,支持 512K 超长上下文。作为华为开源 AI 模型品牌,openPangu 致力于通过昇腾原生训练与推理技术,为业界提供昇腾算力开发实践参考。
根据开源规划,Flash 版本首批上线内容包括模型权重、基础推理代码和训推算子;性能更强的openPangu-2.0-Pro权重及推理代码将于7月推出,更多组件将在下半年陆续开源。
信源:https://mp.weixin.qq.com/s/03bfUULuB6wuWf4vCn6Deg
华为宣布正式开源盘古 openPangu-2.0-Flash 模型,并即将在 GitCode 的 Ascend Tribe 社区上线。
模型拥有 920 亿(92B)总参数,采用混合专家(MoE)架构,实际仅激活 60 亿参数,支持 512K 超长上下文。作为华为开源 AI 模型品牌,openPangu 致力于通过昇腾原生训练与推理技术,为业界提供昇腾算力开发实践参考。
根据开源规划,Flash 版本首批上线内容包括模型权重、基础推理代码和训推算子;性能更强的openPangu-2.0-Pro权重及推理代码将于7月推出,更多组件将在下半年陆续开源。
信源:https://mp.weixin.qq.com/s/03bfUULuB6wuWf4vCn6Deg