动察Beating AI News – Telegram

动察Beating AI News

2.84K subscribers

617 photos

2.89K links

AI新闻信息流

Download Telegram

About

Blog

Apps

Platform

动察Beating AI News

2.84K subscribers

动察Beating AI News

动察Beating AI News

终端变交互画布：Anthropic推出Claude Code版Artifacts Anthropic 为 Claude Code（包含 CLI 命令行及桌面应用）推出 Artifacts 预览支持（面向 Claude Team 和 Enterprise 组织开放 Beta 测试）。该功能将 Artifacts 的实时交互体验从 Web 端延伸至本地终端，允许开发者将长期的终端会话进程（如故障排查、服务重构等）一键捕获并转化为实时的交互式网页。依托包含本地代码库、已连接监控工具（Connectors）…

Claude Code实时协作功能向个人用户开放，Pro与Max订阅可生成实时网页看板

Anthropic 宣布将终端 Agent 编程工具 Claude Code 的 Live Artifacts 功能推送到 Pro 和 Max 个人订阅账户。此前，这项能够把命令行交互实时转化为网页看板的能力仅限团队和企业用户使用。

现在个人开发者在终端使用 Claude Code 编写代码或分析数据时，可以直接在终端下达指令，将 session 产出的数据、原型或架构图发布为独立的网页。生成的网页会随着终端任务的执行而实时刷新。通过分享私有链接，团队成员或客户能随时查看最新进展，不需要开发者反复发送截图或共享终端屏幕。

当前这类网页属于静态内容托管，无法在页面内向外部发送网络请求，也不能保存表单输入或进行多路由跳转。用户在终端完成登录后即可使用这项功能。

信源：https://x.com/ClaudeDevs/status/2072770790114914317

X (formerly Twitter)

ClaudeDevs (@ClaudeDevs) on X

Artifacts in Claude Code are now also available on Pro and Max plans.

Ask for an artifact, Claude writes the code, publishes it live to claude.a‍i, and updates it in real time while it keeps working. Pages are private to your account and fully self-contained.

❤2

239 views02:44

动察Beating AI News

英伟达 CEO 黄仁勋拍卖标志性汤姆·福特皮衣，估价达 6 万美元

英伟达首席执行官黄仁勋的一件标志性黑色汤姆·福特皮衣即将登上苏富比拍卖行。

这次拍卖由风投 Long Journey Ventures 发起，竞拍将于 2026 年 7 月 7 日至 17 日进行，拍卖行估价在 4 万至 6 万美元之间。这件皮衣不仅有黄仁勋的亲笔签名，还经过了专业机构的图像比对认证，确认是他在 2023 年 10 月 18 日参加台北鸿海科技日（Hon Hai Tech Day）时所穿的那件。拍卖所得将全部捐赠给非营利机构 The Edge Institute，用于支持青年建设者的奖学金、研究资助和跨学科合作项目。

皮衣在拍卖前将在苏富比纽约展厅公开展示。作为英伟达万亿美元市值的象征以及 AI 时代的代表性符号，这件皮衣吸引了科技界与收藏界的广泛关注。

信源：https://www.businessinsider.com/jensen-huang-nvidia-ceo-black-leather-jacket-auction-sothebys-2026-7

🤡3

235 views02:58

动察Beating AI News

代码也做实体版？GitHub推出「代码刻录CD光碟」限时包邮活动

GitHub 推出限时活动，为前 1000 名申请者免费刻录并邮寄一张包含个人公开仓库的 CD-ROM 光碟。开发者在 2026 年 7 月 6 日前填写微软表单，提供 GitHub 账号、仓库链接以及姓名、邮箱、收货地址、电话即可申请。

GitHub 在公告中称「让你的代码在物理上永远属于你」，外界普遍认为这在调侃游戏主机厂商取消实体光碟、强推数字版游戏的做法。不过，这次活动在 Hacker News 和 4chan 等社区引发了关于隐私的质疑。部分开发者指出，GitHub 使用 Microsoft Forms 表单收集住址和电话等敏感信息，有变相将虚拟账号与现实身份绑定的嫌疑。

GitHub 官方则在表单中明确承诺，收集的个人信息仅用于发货，不作他用，且在光碟发货后会立即彻底删除相关数据。

信源：https://x.com/github/status/2072801888525840476

218 views03:22

动察Beating AI News

扎克伯格内部认错：Meta智能体开发慢于预期，重组阵痛仍在持续

在周四的内部员工大会上，Meta 首席执行官 Mark Zuckerberg 承认公司近期的大规模重组存在失误。近四个月来 AI 智能体的开发进度并未如预期般加速，前期的重组投资与架构调整也尚未转化为实际成果。

为了给昂贵的 AI 基础设施建设腾出资金，Meta 在今年五月裁减了约 10% 的员工，并将大约 7000 名员工调往 AI 团队。Mark Zuckerberg 坦言管理层在重组时机上估算错误，导致调整过程不够干净利落，但他预计未来三到六个月内将开始显现 AI 投资带来的效益。

针对上个月因数据安全隐患而被叫停的员工鼠标及数字活动监控项目，技术官 Andrew Bosworth 在会上透露，调查显示员工数据并未泄露给 AI 训练。若后续重启这个项目，将改为自愿加入，不再像四月份刚推出时那样强制全员运行。

信源：https://www.reuters.com/business/zuckerberg-says-ai-agent-development-going-slower-than-expected-2026-07-02/

230 views03:40

动察Beating AI News

动察Beating AI News

4 秒一张图、千张成本仅 0.034 美元，谷歌发布超轻量图像模型并开放视频模型 Omni Flash 公测谷歌发布了两款全新的多媒体生成模型。其中，针对图像生成的 Nano Banana 2 Lite（API 命名为 gemini-3.1-flash-lite-image`）主打超低延迟，生成单张 1K 图像仅需约 4 秒，且每千张生成成本仅为 0.034 美元，是上一代 `gemini-2.5-flash-image 的高速低成本替代方案。此外，在 Google I/O 2026 亮相的视频模型…

Google视频模型重回榜首：Gemini Omni Flash登顶Video Arena

Google DeepMind 新近公测的视频生成模型 Gemini Omni Flash，在 Video Arena 盲测天梯榜以 1404 的 Elo 评分登顶第一。新模型领先此前霸榜的字节跳动 Seedance 2.0 Mini 整整 101 分，刷新了这一榜单的最大分差纪录。

Video Arena 作为基于人类盲测投票的偏好榜单，此前一直由字节跳动旗下的 Seedance 系列模型占据前三。其中，Seedance 2.0 Mini 凭借更好的多镜头画面稳定性与更快的生成速度，以 1303 分位居第一。

此次 Gemini Omni Flash 的登顶标志着 Google 视频生成模型在半年内实现了对字节跳动等竞争对手的反超，从 Veo 时代的落后地位一举跃升至领跑位置。

信源：https://x.com/Designarena/status/2072759122366509130

221 viewsedited 04:09

动察Beating AI News

Anthropic发起生命科学黑客松：首度向开发者开放新科研工具Claude Science

Anthropic 联合旧金山 Gladstone 研究所与 Cerebral Valley，宣布举办名为 Built with Claude: Life Sciences 的全球线上黑客松。这次比赛定于 2026 年 7 月 7 日至 13 日举办，主要面向研究人员、医生、生物信息学专家与生物技术开发者，申请截止时间为 7 月 5 日。这是 Anthropic 发布 AI 科学工作台 Claude Science 以来的首次重大落地活动。

黑客松设置了两个赛道。「实验室赛道」要求选手使用科学工作台 Claude Science，针对具体生物学问题进行探索，并提交可复现的分析结果或训练模型。为了支持这一赛道，Gladstone 研究所等实验室向选手开放了独特的真实科研数据集，包含免疫 T 细胞测序、DNA 调控活性预测以及蛋白质相互作用网络数据。「开发赛道」则要求选手使用开发工具 Claude Code，为科研人员、诊所或生物技术企业开发实用的软件工具。

主办方将选拔 500 名申请者入围，为每人提供为期一个月的 Claude Max 20x 权限与 200 美元 API 额度。优胜团队将瓜分总额 10 万美元的 API 及使用额度。

信源：https://x.com/claudeai/status/2072681853971001849

X (formerly Twitter)

Claude (@claudeai) on X

Announcing Built with Claude: Life Sciences, a global virtual hackathon.

Join us and @GladstoneInst for a week of researching and building with Claude Science and Claude Code, with a prize pool of $100k in credits.

224 views05:08

动察Beating AI News

传阿里全面禁用Claude，员工被要求卸载Claude Code等Anthropic产品

阿里巴巴今日内部通知，将全面停止使用 Anthropic 相关产品，要求员工卸载 Claude Sonnet、Claude Opus、Claude Code 等模型与 Agent 工具，禁令预计于 7 月 10 日正式生效。

自今年初起，阿里一直鼓励员工使用 AI，不仅提供内部模型免费额度，还报销 Claude、GPT、Gemini 等外部模型费用，不少研发人员长期将 Claude Code、OpenAI Codex 与阿里自研 Qoder 混合使用。此次禁令意味着 Claude 将退出阿里内部研发工具链。

此次调整与 Anthropic 近期持续收紧中国用户风控有关。今年 6 月，Anthropic 曾向美国参议院提交材料，指控阿里通过大量账号与 Claude 进行高频交互，并将其定性为「工业级模型蒸馏攻击」。随后，双方关系持续趋于紧张，大量中国用户账号也在近期遭遇封禁。

信源：https://mp.weixin.qq.com/s/OPKdMtGNTx2gdZ3vA3G5Jw

238 views06:11

动察Beating AI News

Meta悄悄推出AI应用Pocket：用文字指令生成并分享小游戏

Meta 低调上架了一款名为 Pocket 的实验性 AI 应用。用户只需输入文字指令，即可生成交互式的「小玩意」（gizmos，即小应用或小游戏），并在类似 TikTok 的滚动信息流中分享与试玩。这款应用是 Meta 在 2026 年初收购 Gizmo 团队后的落地成果。原 Gizmo 是一款氛围编程（vibe-coding）应用，曾获得超 60 万次下载。

Pocket 的推出标志着 Meta 正在将 AI 创作工具推向主流社交娱乐。此前，Meta 已在 Meta AI 应用中推出 AI 制图功能、AI 生成视频应用 Vibes，并在剪辑应用 Edits 中加入了 AI 助手。

信源：https://techcrunch.com/2026/07/02/meta-quietly-launches-vibe-coded-gaming-app-pocket/

Meta quietly launches vibe-coded gaming app Pocket | TechCrunch

Meta has quietly launched Pocket, an experimental AI app that lets users generate and share interactive mini games using text prompts.

225 views06:30

动察Beating AI News

Meta AI主管内部透露：在训新模型「西瓜」已追平 GPT-5.5

Meta 超级智能实验室（Superintelligence Labs）负责人 Alexandr Wang 在内部员工大会上透露，正在训练的下一代大模型（代号「西瓜」，Watermelon）已在基准测试中追平 OpenAI 的旗舰模型 GPT-5.5。

新模型是 Meta 在 4 月发布的 Muse Spark（内部代号「鳄梨」，Avocado）的继任者，训练算力消耗比前代提升了一个数量级。

Alexandr Wang 同时在社交平台 X 上表示，Muse Spark 即将迎来更新，重点提升编程与智能体能力。当被用户问及何时能追平 Anthropic 的 Claude Opus 时，他回复称「很快」。

信源：https://www.businessinsider.com/meta-ai-model-catches-up-openai-gpt-5-says-2026-7

Business Insider

Meta is finally catching up to OpenAI, its AI leader says

Meta's superintelligence chief says its upcoming Watermelon model now matches GPT-5.5 on key AI benchmarks.

201 views06:54

动察Beating AI News

阿里告别内部赛马：三大智能体合并，90后总裁陈宇森打造统一拳头产品

阿里巴巴正式宣布合并旗下的三款核心 AI 智能体产品。这次调整以桌面端智能体工具 QoderWork 作为基础底座，深度融合钉钉孵化的企业协同办公智能体「悟空」，以及阿里云内部创业的 Agent 执行引擎 MuleRun。新产品由 2026 年 6 月新上任的钉钉总裁兼悟空事业部总经理陈宇森全面统管。

这次合并标志着阿里巴巴在企业端 AI 战略上结束内部赛马，从多点试探转向重点突破。作为底座的 QoderWork 是阿里目前日活与 Token 用量最高的桌面智能体，主打本地化执行与 MCP 协议；悟空侧重企业组织协同；MuleRun 则专注于流程复用与执行。新架构将通过「桌面交互前台、引擎中台和组织后台」的分层模式，打造统一的面向企业生产力场景的全新 AI 产品。

阿里巴巴官方回应称，三款产品的现有服务会无缝升级，用户的订阅权益与数据资产不受影响。新平台体验预计从 2026 年第三季度起分阶段推送。

信源：https://mp.weixin.qq.com/s/T6WlVcSuBkKqbBLovcMf2A

202 views07:12

动察Beating AI News

动察Beating AI News

年化营收已破3.3亿美元：AI语音平台ElevenLabs拟2-3年内IPO AI 语音生成平台 ElevenLabs 联合创始人兼 CEO Mati Staniszewski 近日在波兰 Bukowina Tatrzańska 的会议上表示，公司正准备在 2 至 3 年内完成 IPO，正考虑在华沙证券交易所进行双重上市。据知情人士透露，纽约和伦敦交易所也在考虑范围内。Staniszewski 表示，「我们非常希望让下一波创新成为可能，尝试创造并回馈一些东西，所以在华沙的双重上市是我们正在考虑的方向。」…

AI语音独角兽 ElevenLabs洽谈老股要约收购，估值或达220亿美元

知情人士透露，人工智能语音初创公司 ElevenLabs 正在与投资者进行早期谈判，计划允许员工与早期投资者通过老股要约收购（tender offer）出售股份。这笔交易预计在 2026 年 9 月前完成，估值可能达到约 220 亿美元。

这一数字意味着 ElevenLabs 的估值在短短五个月内再次翻倍。2026 年 2 月，ElevenLabs 在红杉资本、Andreessen Horowitz 和 Iconiq 领投的 5 亿美元融资中，估值达到 110 亿美元。而 2025 年初，估值仅为 33 亿美元。

ElevenLabs 成立于 2022 年，专注于开发高质量、多语言的写实语音克隆软件。截至 2026 年 5 月，ElevenLabs 的年化经常性收入（ARR）已突破 5 亿美元，并已与德国电信、波士顿咨询集团和 Revolut 等全球企业达成商业合作。

尽管面临来自 OpenAI 和谷歌等巨头的激烈竞争，投资者依然对这类专注特定领域的垂直语音 AI 表现出强烈的投资兴趣。针对传闻，ElevenLabs 拒绝发表评论。

信源：https://www.bloomberg.com/news/articles/2026-07-02/elevenlabs-in-talks-for-tender-offer-at-22-billion-valuation

ElevenLabs in Talks for Tender Offer at $22 Billion Valuation

ElevenLabs has held early talks with investors to let employees sell shares in a secondary offering that would value the artificial intelligence startup at roughly $22 billion, according to people familiar with the matter.

197 views07:32

动察Beating AI News

告别单步工具调用：Browser Use CLI 3.0让AI通过本地Python脚本直控浏览器

网页自动化工具 Browser Use 推出命令行工具 3.0 版本（Browser Use CLI 3.0）。新版本一改传统 AI 浏览器智能体「点击、输入、等待、再次生成」的单步工具调用方式，转向基于开源 Browser Harness 的「脚本直接执行」模式。

在新模式下，Claude Code 等 AI 编程助手可以通过终端运行一段完整的 Python 脚本。脚本在本地运行，并通过 CDP（Chrome 开发者工具协议）直连浏览器，支持循环逻辑和报错自愈，无需为每一个简单动作频繁往返调用大模型。这种设计让工具接口的提示词体积缩小为原来的六分之一，大幅降低了 token 消耗和操作延迟。

新工具提供三种连接模式：默认直接接管用户本地运行的 Chrome 浏览器（保留已有 Cookie、插件和登录态），同时也支持无头运行的云端浏览器，或连接任意 CDP 调试端口。

AI 编程助手通过安装这一技能，能够直接在本地运行脚本来执行网页测试、自动表单填写、数据抓取等任务，打通了终端开发和网页操作之间的界限。

信源：https://x.com/browser_use/status/2072699513228378262

X (formerly Twitter)

Browser Use (@browser_use) on X

Introducing: Browser Use CLI 3.0 🌐

Turn any model into a SOTA browser agent
> Direct CDP control via browser-harness
> Run on cloud browsers or real Chrome
> 6× smaller, fewer tokens

Try it now 🔗↓

208 views08:08

动察Beating AI News

阿里云Qoder推出企业版，让AI读懂十万级文件超大代码库

阿里云今天发布 AI 编程平台 Qoder 企业版，主打团队协同、超大项目上下文理解以及敏感数据安全。

新版本引入云端知识库 QMind，支持跨产品、跨设备和人员的知识共享。配合 RepoWiki 模块，它可以解析十万级文件的超大代码库，理清沉淀多年的模块功能与业务逻辑。开发者在跨库开发时，可以直接调用不同仓库的代码语义和文档上下文，也能在客户端中通过对话调用 Skill，对知识库进行增删改查。

在安全维度，Qoder 提供传输加密和审计合规等五大领域防护，并通过命令拦截、语义分析、风险判定到沙箱隔离的逐层防护体系，阻止针对 AI 智能体的提示词或代码注入攻击。在费用管理上，企业采用资源包形式持有额度，管理员可根据代码库敏感度动态配置可用模型，并为成员按需分配 Credits。

目前 Qoder 已服务中国一汽、中信证券等企业，全系产品全球用户已突破 500 万。

信源：https://mp.weixin.qq.com/s/fCS0bMfHGjCQRE5egn263Q

221 views08:40

动察Beating AI News

Sakana AI统一黑盒优化理论：十余种算法原来只是两个「旋钮」

在合并两个大模型或者教机器人走路时，AI 往往无法直接计算目标函数的梯度，只能不断尝试不同参数，再根据结果一步步逼近最优解。这类在不知道内部规律的情况下，仅靠结果反复试错来寻找最佳答案的方法，被称为「黑盒优化」。

此前，进化策略、共识优化等黑盒优化算法一直各自发展，缺乏统一的理论联系。Sakana AI 团队在入选 ICML 2026 的论文中，首次将这些算法统一到同一个数学框架下，并指出它们的区别其实主要来自两个设计选择：一是更追求稳定可靠，还是追求最高性能；二是所有搜索都朝同一个答案收敛，还是同时探索多个可能的答案。

基于这一发现，研究团队提出了两类混合优化算法。其中，ES-OVI 允许开发者通过一个参数，自由决定算法更偏向「求稳」还是「冲高分」。另一类算法（AdaPol、SchedPol）则允许算法在「所有搜索都朝同一个答案收敛」和「同时探索多个可能答案」之间动态切换，把单点搜索和多点搜索结合起来。

不过，这套统一框架目前只适用于一类围绕当前答案均匀试探的优化器（球面高斯分布），还无法覆盖 CMA-ES 等会自动学习搜索方向的更复杂算法。

信源：https://x.com/SakanaAILabs/status/2072930178003779928

X (formerly Twitter)

Sakana AI (@SakanaAILabs) on X

We are pleased to present our latest research at #ICML2026, “Bridging Spherical Black-Box Optimizers”

https://t.co/IIHbVSYLbU

When optimizing through simulators, external APIs, or in reinforcement learning, gradients are often unavailable. Black-Box Optimization…

👍1

201 viewsedited 09:17

动察Beating AI News

报告：固定算力掩盖了AI真实能力，前沿智能体进化速度被低估60%

英国 AI 安全研究所指出，当前主流的 AI 智能体测试存在重大盲区，固定算力上限的评估方法严重低估了模型的真实能力与迭代速度。

研究团队测试了多款前沿大模型在网络安全、软件工程和数学等基准中的表现。测试结果显示，智能体的表现并不是一个固定得分，而是一条随着测试时算力（Test-time compute）增加而持续爬升的曲线。在网络攻防测试中，当算力预算从 250 万 tokens 提升至 5000 万 tokens 时，最前沿智能体可攻克任务的复杂度上限（折合人类工时）从 2 小时飙升至 14 小时。许多在低算力下失败的尝试，只要给予充足算力允许智能体探索和纠错，就能最终完成任务。

新模型对测试时算力的利用效率显著高于旧模型。在充足预算下评估，测得的前沿能力演进趋势（拟合曲线斜率）比低算力测试要陡峭约 60%，证明传统评估严重低估了 AI 真实的迭代速度。但这种算力红利存在边界，在缺乏即时反馈的医疗等领域，增加算力并不能提升智能体的表现。

随着推理成本下降，低预算评估可能会让决策者低估 AI 智能体在实际应用中的风险。

信源：https://www.aisi.gov.uk/blog/more-compute-more-capability-why-ai-agent-evals-need-to-account-for-test-time-compute

AI Security Institute

More compute, more capability: Why AI agent evaluations need to account for test-time compute | AISI Work

Standard evaluations cap how much compute AI agents can use. We show that raising those caps changes measured capability, the difficulty of tasks agents can solve, and how fast the frontier appears to move.

200 views10:14

动察Beating AI News

腾讯爆款龙虾应用QClaw负责人张舒昱离职，否认内部赛马

年初火爆出圈的腾讯龙虾助手 QClaw 产品负责人张舒昱在社交平台宣布，已于 6 月 29 日正式结束在腾讯的工作。

张舒昱出生于 1999 年，于 2025 年 9 月加入腾讯，在职仅 10 个月。她曾带领 5 人团队在零预算情况下开发出 QClaw，内测一周即吸引数百万用户，成为腾讯的核心战略项目。

对外界关于腾讯内部赛马的传闻，张舒昱明确予以否认。她透露，QClaw 与腾讯另一款 AI 工具 WorkBuddy 属于同一位负责人，部分阶段的增长团队也是同一批成员。在她看来，大型组织内部的不同产品路线各自承担着不同的使命，在不同阶段的最优解也不同，争夺个人英雄主义并无意义。

对于未来去向，张舒昱表示，她曾经设定的「30 岁前做出现象级产品」目标已在 26 岁提前达成，下一阶段希望去解决困扰人类的难题。

信源：http://xhslink.com/o/3xRMBaMi9Lr

Shuyu is Free！（1/2） - 小红书

3 亿人的生活经验，都在小红书

👎1

221 viewsedited 10:34

动察Beating AI News

桥水微调小模型横扫前沿巨无霸：金融过滤准确率反超，推理成本仅十四分之一

桥水基金旗下人工智能应用实验室（Bridgewater AIA Labs）与 Thinking Machines 合作，成功将微调模型应用于金融信息筛选，实现了超越前沿大模型（GPT 5.5 和 Claude Opus 4.8）的准确率。在金融文章相关性、央行文件分析等六项日常投资任务中，这款微调模型将错误率降低了近三成，而推理成本仅为前沿大模型的十四分之一左右（实现了 13.8 倍的降幅）。这一研究展示了企业通过特定领域微调实现「差异化智能」的潜力。

研究团队在 Tinker 平台微调 Qwen3-235B 基础模型。由于直接从非专业标注员获取的标签存在大量错误，团队设计了验证纠错机制，将模型预测与标签不一致的困难样本交由投资专家重审。最终，训练出的模型准确率从基线模型的 44.8% 提升至 84.66%，超过了 GPT 5.5 的 78.2% 和 Claude Opus 4.8 的 78.0%。在显著提升准确率的同时，推理成本也实现了 13.8 倍的断崖式下跌。

微调方案包含三项核心改进：一是交错批处理，按顺序交替训练不同任务，避免混合训练带来的干扰；二是引入非对称裁剪的损失函数优化采样；三是使用在线策略蒸馏，在模型偏离教师分布时进行惩罚，且每 20 步在验证集表现创新高时动态更新教师模型。

信源：https://thinkingmachines.ai/news/learning-to-replicate-expert-judgment-in-financial-tasks/

Thinking Machines Lab

Learning to Replicate Expert Judgment in Financial Tasks

With expert-labeled data and fine-tuning on Tinker, a custom model outperforms frontier LLMs on financial information-filtering tasks at a fraction of the cost.

255 views11:09

动察Beating AI News

大模型到底能不能「边做边学」？字节跳动与 Epoch AI 同日发表相反结论

字节跳动 Seed 团队发布智能体基准测试 EdgeBench，用于研究 AI 在 12 至 72 小时超长周期任务中的环境学习表现。在分析超过 3.8 万小时的智能体运行记录后，研究团队发现 AI 的学习曲线高度可预测，智能体性能随交互时间延长而提升，精准拟合对数逻辑斯蒂 log-sigmoid 曲线。研究者借用图搜索理论解释这一规律，认为智能体的进步如同在技能图谱上向外扩张边界。Seed 团队已将基准测试框架及首批 51 个任务开源。

与之相反，研究机构 Epoch AI 同日发布 EBR-bench 评估结果得出不同结论。在对桌游环境的测试中，即使提供策略指南，AI 在重复尝试后也几乎没有表现出学习和自我改进行为。

这一分歧表明，AI 的自主学习潜力受任务环境和反馈链路设计影响极大。在系统级工程或科学探索等需要连续环境回馈的场景中，智能体能够建立起累积优势，但在策略相对复杂的离散规则游戏中，当前的在轨学习仍然举步维艰。

信源：https://edge-bench.org/

262 viewsedited 11:28

动察Beating AI News

Mistral AI创始人警告：闭源模型会偷企业数据并抢夺客户

Mistral AI 创始人 Arthur Mensch 对企业 AI 选型发出严厉警告。在他看来，闭源大模型厂商强制留存数据是个巨大陷阱，企业数据一旦接入就会被厂商看光并学走，从而对企业获得巨大的商业杠杆优势。他甚至声称，闭源巨头历史上早有利用这些敏感信息跨界直接成为其最成功客户竞争对手的前科。

为了防止被软件巨头困在围墙花园中，他建议企业必须将数据存放在开放系统里；如果供应商拒绝提供完全的数据访问权，企业则应利用 AI 快速迁移出逃。拿到数据后，企业必须精细化管理访问权限，结合刚性规则系统与软性大模型防范员工越权。最关键的是要建立专有的持续训练飞轮，根据交互反馈把业务优势打磨成对手无法复制的专属系统，并通过模型压缩省下高昂的部署成本。

Mensch 坦言，这套涵盖 IT 架构与开发模式的重构非常复杂，企业既要懂人类行为，又要懂梯度下降。为了降低落地门槛，Mistral 提供 Studio 控制台与 Forge 训练平台，并派遣专家手把手帮客户落地，待系统运转后便功成身退。他强调，前沿 AI 固然能加速业务增长，但如果控制开关不握在企业自己手里，这种增长就无法转化为企业自身的红利。

信源：https://x.com/arthurmensch/status/2073157738276749354

X (formerly Twitter)

Arthur Mensch (@arthurmensch) on X

Your AI, your growth

208 views02:16

动察Beating AI News

定理证明也开始卷成本：Mistral开源 Leanstral 1.5，每题约4美元

Mistral AI 开源 Leanstral 1.5，一款面向 Lean 4 形式化证明的模型。模型总参数量 1190 亿，激活参数约 65 亿，采用 Apache-2.0 协议，并提供免费 API 访问。

官方评测显示，Leanstral 1.5 在 PutnamBench 672 道题中解出 587 道；在抽象代数基准 FATE-H 和 FATE-X 上分别达到 87% 和 34%，刷新同类模型最佳表现。

Leanstral 1.5 在 PutnamBench 上的平均解题成本约为 4 美元，低于此前部分系统数十至数百美元的成本。随着单题 token 预算提高，它的解题数量持续增加；在 AVL 树复杂度证明中，模型经过超过 270 万 token 推理和 22 次上下文压缩，最终完成相关证明。

除数学证明外，Leanstral 1.5 还被用于代码验证。团队在 57 个开源 Rust 仓库中发现 11 个真实 bug，其中 5 个此前未被报告。

信源：https://mistral.ai/news/leanstral-1-5/

Leanstral 1.5: Proof Abundance for All

The most powerful AI platform for enterprises. Customize, fine-tune, and deploy AI assistants, autonomous agents, and multimodal AI with open models.

212 views02:43