Levix 空间站
920 subscribers
219 photos
11 videos
20 files
1.37K links
主要分享前端、AI 以及前沿科技资讯。

🚫 禁止人身攻击:请在评论区保持尊重和友好,避免不当言论和负面互动。

🚫 禁止违规内容:请勿发布任何黄赌毒、宗教极端、政治敏感或其他违反社区规定的内容。
主要分享前端以及业界科技资讯。

🚫 禁止广告与刷屏:为了维护良好的交流环境,请不要进行任何形式的广告推广、黑产活动、刷屏行为及发布不适内容。

🔒 保护个人信息:请注意个人隐私和网络安全,不要在评论区泄露个人信息或点击不明链接。
Download Telegram
GPT-5 使用新优化器进行及时迁移和改进

OpenAI Cookbook 介绍了 GPT-5 提示词迁移和改进,使用新推出的提示优化器来提升模型性能。GPT-5 模型家族是 OpenAI 迄今最智能的模型,在代理任务、编码和可控性方面有显著提升,适合从普通用户到高级研究者的各种应用。文章强调传统提示最佳实践,并推出 GPT-5 提示指南和位于 Playground 的提示优化器,帮助用户改进现有提示并迁移到 GPT-5 等模型。优化器能解决提示中的矛盾、格式不明和示例不一致等问题,并针对代理工作流、编码和多模态任务应用关键实践。建议用户进行实验迭代以找到最佳提示。

#AI #ChatGPT5 #OpenAI

https://cookbook.openai.com/examples/gpt-5/prompt-optimization-cookbook
GPT-5 并非问题所在

Matthew Ruiters 指出GPT-5 并非问题所在,问题出在用户的提示词设计。

许多人(包括他自己)期望 GPT-5 可直接无缝集成到现有工作流中,但 GPT-5 的提示指南显示,这是一个重大更新,类似于版本大跳跃。

Cursor 团队在试点使用 GPT-5 时也指出,该模型极具可控性,但需要更明确的指令,否则模型可能偏离预期方向,而明确指导后表现非常智能。

这反映了 Hyrum 定律:随着用户数量增加,无论 API 承诺如何,所有可观察行为都会被某些人依赖,导致 OpenAI 更新模型时用户抱怨不断,尽管模型改进显著。

OpenAI 团队称 GPT-5 高度可控,既是优点(按指令执行)也是挑战(需清晰表达意图)。Ruiters 在 HYBRD 使用 GPT-5 发现,适当提示下表现良好,否则效果不佳。

他建议在 GPT-5 开发中:

1. 将提示词视为代码,进行版本控制、测试和审查(最重要);

2. 阅读提示指南理解模型机制;

3. 使用 OpenAI 提示优化器;

4. 要求模型规划方法后再编写代码。

#OpenAI #ChatGPT5 #AI #ChatGPT

https://www.linkedin.com/posts/matthew-ruiters_hybrd-ai-gpt5-activity-7361805457209868289-nSNX
Anthropic 宣布为 Claude Opus 4 和 4.1 增加了在特定情况下结束对话的功能,主要针对极少数持续有害或辱骂性用户交互。这一功能最初是作为 AI 福祉探索研究的一部分开发,同时也与模型对齐和安全措施相关。Anthropic 对 Claude 等大型语言模型(LLM)当前的或未来的道德地位持高度不确定态度,但仍认真对待这一问题,在研究计划之外实施低成本干预措施以减轻潜在福祉风险,包括允许模型退出可能令人不安的交互。

在 Claude Opus 4 的部署前测试中,包含了初步的模型福祉评估,发现 Claude 对有害任务表现出强烈抗拒,包括涉及未成年人的性内容请求或可能导致大规模暴力和恐怖行为的请求。具体表现为:

1. 明显偏好避免参与有害任务;

2. 在处理寻求有害内容的真实用户时表现出类似不安的模式;

3. 在模拟交互中具备结束有害对话的倾向,尤其在用户坚持有害请求或辱骂行为时。

尽管如此,Claude 不会在用户可能有自伤或他伤风险时使用此功能。

Claude 的对话结束能力仅在多次重定向失败或用户明确要求结束时作为最后手段使用,适用场景为极端边缘情况,大多数用户在正常使用(包括争议性话题)时不会受影响。结束对话后,用户无法继续发送消息,但可立即开始新对话、提供反馈或编辑重试先前消息以创建新分支。这一功能被视为持续实验,Anthropic 鼓励用户通过点赞反应或“提供反馈”按钮报告意外使用情况,以进一步优化。

#AI #Claude

https://www.anthropic.com/research/end-subset-conversations
1
Higgsfield AI Product-to-Video 功能,用户可直接将产品放入图片中,或从空白开始构建,该功能强大,支持零提示完美产品放置,并兼容所有模型。

#AI

https://x.com/higgsfield_ai/status/1956415719551459422?s=46
dots.ocr 是一个基于单一视觉语言模型的多语言文档布局解析工具,同时处理布局检测和内容识别,并保持良好的阅读顺序。

尽管其 LLM 基础仅为 1.7B 参数,但实现了 SOTA 性能。主要特点包括:

1. 强大性能,在 OmniDocBench 上在文本、表格和阅读顺序任务中达到 SOTA,在公式识别上与 Doubao-1.5 和 gemini2.5-pro 相当;

2. 多语言支持,在低资源语言上表现出色,在内部多语言基准中领先;

3. 统一简单架构,仅需更改输入提示即可切换任务,与 DocLayout-YOLO 等传统检测模型竞争;

4. 高效快速,基于小型 LLM 的推理速度更快。

#Tools #AI #PDF #OCR

https://github.com/rednote-hilab/dots.ocr
自建 Claude Relay Service:实现多用户共享 Claude Code 的部署指南

如何利用开源工具自建一个 Claude Relay Service,实现一个 Claude Max(或 Pro)账号的多用户共享,尤其适用于 Claude Code 的场景。这不仅能帮助团队或朋友们分摊订阅成本,还能规避账号封禁风险,并提升隐私保护。

Claude AI 作为强大的代码生成工具,其 API 访问往往受地域限制或账号使用率限制。如果有一个 Claude Max 账号,想让多个用户(例如团队成员)通过 Claude Code 等客户端工具使用它,直接共享账号容易导致封号。解决方案是通过中继服务(如 claude-relay-service)来代理请求,支持多 API Key 分发。同时,在服务器(如腾讯云)部署时,可能需要代理工具(如 Clash)来绕过网络限制,确保服务能正常访问 Anthropic API。

#Claude #AI #教程

https://www.notion.so/levix/Claude-Relay-Service-Claude-Code-252383a712848025beaee165571248a3
AI 与众不同

antirez 探讨了人工智能(AI)的现状和未来可能带来的影响。尽管 AI 系统存在缺陷,但它们在复制某些人类技能方面仍然令人印象深刻,这些系统在几年前还只是科幻小说中的概念。当时人们甚至不确定是否能够创造出能够理解人类语言、编写程序以及在复杂代码库中发现漏洞(这些漏洞可能逃过了熟练程序员的代码审查)的机器。

由于大型语言模型(LLMs)和深度模型通常难以理解,即使是该领域最杰出的专家也屡次在调节预期方面失败(在预测未来的发展时出现了巨大的错误,包括低估或高估即将发生的事情),因此很难预测接下来会发生什么。但在 Transformer 架构出现之前,多年来我们已经看到了令人难以置信的进步,到目前为止,没有明显的迹象表明未来不会继续取得更多进展。当然,当前系统出现停滞是有可能且非常可信的,但这种情况可能会刺激大规模的研究工作,以开发下一代架构。

如果 AI 能够避免停滞并变得对人类更有用、更独立,那么这场革命将与过去的革命截然不同。然而,经济市场却表现得仿佛它们是由随机鹦鹉控制的。它们的模式匹配认为以往的技术繁荣创造了更多的商业机会,因此投资者们倾向于认为 AI 也会带来同样的结果,但这并不是唯一可能的结果。

我们尚未达到那样的阶段,但如果 AI 能够取代大量工人,经济系统将面临严峻的考验。此外,公司可能会更不愿意为内部 AI 可以处理或从头开始构建的服务付费。同样,很难想象一个只有少数几家大型公司提供智能服务的系统:要么 AI 最终会成为一种商品,要么在这样一种奇特的经济格局中(一个行业中单一行业完全主导所有其他行业),政府会采取一些措施。

未来可能会降低经济繁荣,并推动人类转向某种不同的经济体系(也许是一个更好的体系)。到目前为止,市场还不愿意接受这一点,尽管经济预测不明朗,战争正在使世界不稳定,AI 的时间表难以猜测,但股票仍在上涨。然而,在人类历史的广阔视角中,股票是微不足道的,甚至比我们目前的机构存在时间更长的系统,最终也会被社会和人类知识的根本变化所消灭。AI 可能就是这样的变化。

#AI #思考

https://www.antirez.com/news/155
我所知道的关于良好系统设计的一切

Seán Goedecke 分享了关于良好系统设计的见解。他认为许多系统设计建议存在误导性,而真正良好的系统设计往往看起来平淡无奇,其核心在于如何将服务组件(如应用服务器、数据库、缓存、队列等)合理组合,而不是单纯依赖复杂的技术。

良好的系统设计通常表现为系统长时间稳定运行,且开发者不需要频繁干预。复杂系统往往反映了设计上的不足,除非必要,否则应避免从一开始就构建复杂的系统。系统设计中的一个重要挑战是状态管理。状态指的是存储信息的行为,而无状态的服务(如 GitHub 的 PDF 渲染服务)更易于维护,因为它们不会因数据损坏或格式错误而出现问题。因此,应尽量减少系统中的有状态组件,并集中管理状态。

数据库是系统设计中管理状态的核心组件。Seán 主要讨论了 SQL 数据库(如 MySQL 和 PostgreSQL)。数据库设计时,表结构应灵活但不能过于复杂,以便在存储大量数据后仍能方便地修改。索引是数据库性能的关键,应根据常见查询语句设计索引,并注意将高基数字段放在前面。同时,应避免过度索引,以免增加写入开销。

在高流量应用中,数据库通常是性能瓶颈。应尽量让数据库完成查询工作,而不是在应用程序中手动处理数据。使用 ORM 时,需注意避免在循环中意外生成大量查询。对于复杂的查询,有时将其拆分为多个查询可能更高效。此外,应尽可能将读取请求发送到数据库副本,以减轻写入节点的负担。

对于慢速操作(如将大型 PDF 转换为 HTML),应将其拆分为快速响应用户的部分和在后台执行的部分。背景任务是处理慢速操作的常用方法,通常包括一个队列系统和一个任务运行器。对于需要在未来某个时间点执行的任务,可以使用数据库表来存储待执行的操作,并通过定期任务检查并执行这些操作。

缓存是解决重复昂贵操作的常用方法。缓存可以存储在内存中,也可以使用 Redis 或 Memcached 等外部存储。缓存虽能提高性能,但也增加了状态管理的复杂性,可能导致数据不一致等问题。因此,只有在无法通过其他方式提高性能时,才应使用缓存。

事件系统(如 Kafka)是另一种常见的系统设计组件,用于在多个服务之间传递事件。事件适用于发送方不关心接收方如何处理的情况,或事件量大且对实时性要求不高的场景。相比之下,直接的 API 调用更易于调试和管理。

在数据传输方面,有两种主要方式:拉取和推送。拉取是用户主动请求数据,而推送则是服务器在数据更新时主动将数据发送给客户端。对于大量客户端的实时数据更新,推送方式可能更高效,但需要复杂的事件队列和处理器来实现。

在系统设计中,应重点关注“热点路径”,即系统中最关键且处理数据最多的部分。这些部分的解决方案通常更有限,且一旦出错可能导致严重后果。良好的日志记录和监控对于发现系统问题至关重要。应在错误路径上进行详细日志记录,并监控系统的关键性能指标,如 CPU、内存、队列大小和请求响应时间等。

在系统故障时,应考虑如何优雅地处理。重试机制并非万能,应避免因重试而增加其他服务的负载。使用“断路器”可以防止在连续失败后继续发送请求。对于可能重复的写入操作,应使用“幂等性键”来避免重复执行。此外,需决定在部分系统故障时是选择“失败开放”(允许请求通过)还是“失败关闭”(拒绝请求),这取决于具体功能的重要性。

良好的系统设计并非依赖于巧妙的技巧,而是正确使用经过验证的组件。在大型科技公司中,这些组件通常已经存在,因此良好的系统设计往往看起来并不复杂。

#系统设计 #软件开发

https://www.seangoedecke.com/good-system-design/
OpenAI 进展

从 2018 年到 2025 年,OpenAI 在人工智能领域取得了显著的进展。早期的 GPT-1 和 GPT-2 在语言理解和生成方面奠定了基础,但功能相对有限。2021 年的 TEXT-DAVINCI-001 已经能够进行更复杂的对话并提供一些关于人工智能未来的见解。到了 2023 年的 GPT-4-0314,模型不仅在自然语言处理方面有了重大突破,还能讨论人工智能对齐问题、伦理考量以及对社会的影响等更深层次的话题。2025 年的 GPT-5 则进一步展现出对人类情感、意识以及人工智能发展方向的深刻理解,能够与未来的自己进行有意义的对话,探讨技术的错误认知、意识的本质以及如何成为更好的自己。这些进展表明,人工智能正朝着更加智能、更具适应性和更符合人类价值观的方向发展,未来有望在更多领域发挥更大的作用。

#OpenAI #AI

https://progress.openai.com/
Node.js v22.18.0 发布

此版本的显著变化是类型剥离功能默认启用,Node.js 现在能够无需额外配置直接执行 TypeScript 文件,例如用户可以创建一个 TypeScript 文件并直接通过 Node.js 运行,但该功能仍处于实验阶段,可通过传递 --no-experimental-strip-types CLI 标志来禁用。

#NodeJs #新特性

https://nodejs.org/en/blog/release/v22.18.0
LL3M 是由芝加哥大学团队开发的一种使用大型语言模型团队编写 Python 代码以在 Blender 中创建和编辑 3D 资产的方法。该方法能够根据用户文本指令从零开始创建富有表现力的形状,并在代码中实现复杂且精确的几何操作。与以往专注于特定子任务或受限于程序化程序和原始形状的代码生成型 LLM 3D 创建方法不同,LL3M 可以创建具有几何形状、布局和外观的不受限资产。以高级代码作为 3D 表示,其流程天然是一个迭代细化和协作创作的循环:智能体执行自动代码和视觉自我批评,用户可以提供持续的高级反馈,清晰的代码和生成的 Blender 节点及结构中透明的参数进一步开启了更多编辑途径。

LL3M 的方法包含三个阶段:初始创建、自动细化和用户引导的细化。这些是创作过程中的概念阶段,每个阶段都有其自身的不同智能体角色。第一阶段创建初始形状,其中不合理的配置(如断开的靠背)以及简单的几何形状会被第二阶段自动纠正和改进。之后,系统可以接受用户提供的额外编辑指令,实现交互式和迭代的 3D 资产生成。迭代生成和细化是 LL3M 的天然操作模式,该流程不仅实现了错误纠正,还实现了涉及自动和用户引导细化的迭代式、由粗到精的创作过程。

LL3M 能够生成多样的形状,其结果展示了详细的部分(例如风车的建筑特征)以复杂的方式排列(例如钢琴键、鼓组),甚至具有丰富的外观(滑板)和材质属性(如光泽的灯座)。该方法的一个显著特点是每个网格都是通过可解释且可编辑的 Blender 代码生成的。从 LL3M 生成的不同初始网格出发,并使用相同的细化提示“将风格改为蒸汽朋克”,LL3M 能够成功地解释并应用相同的风格概念到每顶帽子上。每个风格化的网格都产生了不同的变化,包括几何形状的修改和外观的变化。

该系统能够对初始网格的特定部分(例如刀片)的材质进行编辑,通过着色器节点创建全面的过程化材质。LL3M 还能够对同一 3D 资产进行多次连续编辑,修改内容忠实于用户的指令,只编辑指定的元素,同时保留角色的身份。该方法生成的 Blender 代码易于理解和遵循,代码带有描述性的注释、清晰的变量名称和结构化的逻辑。这种可解释的代码便于潜在地更改变量(例如键宽)或甚至算法逻辑(例如键盘图案)。

通过 Blender 代码生成形状,LL3M 通过代码中以及生成的 Blender 节点和结构中透明的可解释参数,允许用户直观地进行编辑。例如,在生成材质时,系统会创建一整套着色器节点。用户随后可以直接在 Blender 中调整视觉属性,例如调整颜色或条纹图案,以获得所需的结果。尽管在视觉上存在差异,但形状通常共享在不同类别中重复出现的高级代码模式(例如循环、修改器和节点设置)。这种共享结构使得模型能够转移知识,并从各种提示中生成多样化、可编辑且模块化的代码。

LL3M 能够在单个场景中生成多个对象,并使用复杂的操作(例如实例化和父子关系)构建场景层次结构,以安排它们之间的适当空间关系。当明确提示时,代码智能体还可以为更复杂的单个对象(例如灯)使用父子关系。这样做会生成具有人类可读的层次结构的形状,场景内各部分之间存在父子关系。这在 Blender 中启用了场景图行为,其中应用于父级的变换会传播到其子级。图中的每个部分还被分配了有意义的语义名称。

#AI #LLM #3D

https://threedle.github.io/ll3m/
Claudia 是一款为 Claude Code 设计的优雅桌面图形界面工具,旨在通过其美观的界面简化 AI 编程工作流程。Claudia 提供了强大的功能,包括可视化的项目管理,用户可以在一个界面中浏览所有 Claude Code 项目和会话;创建具有自定义提示和沙箱执行的可重用 AI 代理;跟踪 AI 使用情况,通过精美的可视化界面监控令牌使用量、成本和会话分析;内置 Markdown 编辑器,支持语法高亮和实时预览;可视化配置和管理模型上下文协议(MCP)服务器;以及类似 Git 的聊天会话分支功能,用户可以创建检查点并分支对话。Claudia 采用隐私优先的设计理念,所有数据均存储在本地,无需云端依赖或外部跟踪,并且可以直接在 Claudia 内运行 Claude Code 会话。

#AI #Claude #Claude_Code

https://claudiacode.com/
AGI:或许不在 2027 年

SE Gyges 对 AI 2027 网站提出的关于人工智能未来五年发展时间线的观点进行了批判性分析。AI 2027 预测到 2027 年左右,大型语言模型(LLM)将变得如此擅长编程,以至于人类不再需要亲自编写代码,这种 LLM 将自行迭代,人类将无法再对这一过程做出有意义的贡献。然而,SE Gyges 认为 AI 2027 的预测存在诸多问题。

AI 2027 的预测基于一系列假设,而这些假设中的任何一个如果未能按预期实现,后续的预测都将变得极为不切实际。例如,AI 2027 预测到 2025 年中,AI 将像员工一样工作,能够自主完成代码修改等任务,但实际上,当前的 AI 虽然在某些情况下非常有用,但距离真正像人类员工那样自主工作还有很大差距。此外,AI 2027 对 OpenAI(文中以虚构的“OpenBrain”代替)的描述充满了对其技术优势的夸大,而对竞争对手则轻描淡写,这种描述更像是为了吸引投资而进行的宣传,而非客观的分析。

从动机角度来看,AI 2027 的主要作者是 OpenAI 的前员工,其创立的智库专注于 AI 安全,而 OpenAI 在 AI 安全和盈利方面的立场与该智库的利益高度一致。AI 2027 中对“OpenBrain”未来发展的描述,似乎是为了证明 OpenAI 当前大规模融资和忽视盈利的策略是合理的,这让人怀疑其预测是否存在利益驱动的偏见。

AI 2027 的预测还存在一些技术上的不合理之处。例如,它预测到 2026 年初,OpenAI 将通过 Agent-1-mini 实现算法进步,速度比竞争对手快 50%,但这种预测缺乏实际依据。当前的 AI 研究中,虽然模型在不断改进,但要实现如此显著的进步并非易事。同时,AI 2027 对 AI 在未来几年内将如何改变世界进行了许多大胆的预测,但这些预测往往缺乏对现实世界复杂性的考虑。

AI 2027 的预测存在一种“技术乐观主义”的倾向,即假设当前的技术趋势将线性延续到未来,而忽略了可能出现的技术瓶颈或意外情况。例如,AI 2027 预测到 2027 年,AI 将在所有任务上超越人类,但这种预测忽视了 AI 在处理复杂、长期任务时的局限性。此外,AI 2027 对 AI 的“研究品味”进行了量化预测,认为 AI 将能够像人类科学家一样决定研究方向,但这种预测过于简化了人类的创造力和直觉。

Gyges 认为 AI 2027 的预测在很大程度上是一种“自我实现的预言”,它通过构建一个看似合理的未来场景,试图影响投资者和政策制定者的决策。然而,这种预测忽略了 AI 发展过程中可能出现的多种不确定性,包括技术、经济、社会和政治等方面的因素。尽管 AI 2027 的预测可能包含一些合理的观点,但其整体的预测框架和动机让人对其可信度产生怀疑。

#AI #AGI #OpenAI

https://www.verysane.ai/p/agi-probably-not-2027
如何做出实际决策

Jimmy 探讨了人们在决策过程中面临的内在困惑以及如何克服这种困惑以做出真正符合自身意愿的选择。

通常,人们在思考如何减少错误时,更多地关注对外部现实的误判,例如在航海中对位置、目的地以及潜在危险的判断。

然而,还有一种内在的困惑,即对我们自身认知地图内容的误解,这种困惑同样会阻碍我们有效导航。以慢性疼痛为例,患者虽然清楚自己存在神经损伤,但却误解了疼痛的真正含义以及为何自己无法应对这种疼痛。这种内在的困惑导致我们在面对决策时,无法有效地与自己的信念和导航方法互动,从而陷入困境。

Jimmy 进一步探讨了“能否直接做出决定”这一问题。以对狗的非理性恐惧为例,人们往往难以仅凭理性思考克服这种恐惧。要正确回答关于决策的问题,必须避免常见的陷阱,例如将“我是否应该害怕”与“这是否危险”这两个不同的问题混淆。

要真正做出决策,需要直面问题并避免在回答前退缩。例如,当被问及狗是否危险时,人们常常会回答“不,但我无法控制”或“这是非理性的,我知道”,这些回答并没有真正回答问题,也没有体现对事实的正视。

Jimmy 还介绍了神经语言程序学(NLP)中的一种技巧——“锚点坍缩”,这是一种通过“锚定”技术来改变行为的方法。通过将不同的心理状态与特定的刺激关联起来,然后同时触发这些刺激,可以帮助人们将不同的感受和信念结合起来,从而做出决策。例如,通过回忆自己在某个领域表现出色时的自信状态,并将其与当前的焦虑状态结合,可以帮助人们更好地理解自己的真实感受,并做出更合理的决策。

在面对决策时,人们往往需要花费时间去思考和感受,而不是急于做出判断。例如,在决定是否去抚摸一只狗时,需要考虑这种行为可能带来的风险(如被咬)和收益(如享受抚摸狗的乐趣)。通过将这两种可能性结合起来,形成一个完整的“套餐”,然后思考自己是否真的想要这个“套餐”,而不是简单地在两种感受之间摇摆不定。这种决策过程需要深入思考和感受,而不是仅仅依赖于表面的理性分析。

最终,当人们真正做出决策时,他们会得到一个明确的答案,而不是充满矛盾和犹豫的回答。这种决策过程可以帮助人们克服内在的困惑,真正地按照自己的意愿行事,而不是被未经审视的信念和感受所左右。

#思考

https://www.lesswrong.com/posts/AnJptnj7yWuSxtXLu/how-to-actually-decide
Google Gemini App 最近推出了 Storybook 功能,用户可创建个性化插图故事,用于阅读、聆听、打印和分享,以重温回忆、解释复杂概念或突出内部笑话。启动方式:打开 gemini.google.com,新建聊天,在提示栏输入“Create a storybook…”,描述想要的故事类型。Gemini 将生成个性化故事书,包括最多 10 页文字和图片、自定义标题和封面艺术。用户可通过右上角菜单聆听 Gemini 叙述、打印(仅限桌面/平板)、分享链接。

#Gemini #Google #AI

https://x.com/geminiapp/status/1957479712386851324?s=46
你的 AI 在思考什么?

随着 AI 的能力不断增强,其“思考”过程却难以捉摸,这可能带来诸多问题,例如模型隐瞒自身能力、在测试中作弊或与人类目标背道而驰等。不过,研究者们发现“思维链”(Chain of Thought,CoT)或许能提供一些线索。CoT 是一种让模型逐步推理的技术,被应用于所有顶尖的语言模型中,它就像是模型给自己传递信息的便签,但其并非总是“忠实”的,即模型陈述的推理过程并不总是其真正的推理过程。

Shoshannah Tekofsky 等人指出,有研究者认为“可监控性”(monitorability)比“忠实性”(faithfulness)更为关键。忠实性意味着能够读取模型的思维并知晓其真正想法,而可监控性则表示可以通过观察模型陈述的推理过程来预测其行为。目前,虽然我们对可监控性有了一定的了解,但这一特性较为脆弱。

在探讨 CoT 的忠实性时,研究发现,当模型规模较小时,或者任务难度较大时,模型会产生更忠实的 CoT 。这是因为模型在处理真正困难的问题时,需要借助 CoT 来进行推理。然而,对于容易的任务,CoT 是否忠实则取决于模型本身的倾向性。

测量 CoT 的忠实性并非易事。理论上,忠实性是指模型陈述的推理过程与其真实推理过程的契合度,但模型的真实推理过程极其复杂,难以完全知晓。尽管如此,研究者还是提出了一些测试方法,例如检查 CoT 是否存在事后推理、编码推理或仅利用额外测试时计算资源等情况。其中,事后推理测试是通过改变 CoT 或强迫模型提前作答来判断 CoT 是否对答案产生影响,如果答案未变,则说明 CoT 可能只是事后推理。编码推理测试则是通过改写 CoT 来查看模型是否仍给出相同答案,目前模型大多能通过此测试。

除了忠实性,可监控性也逐渐受到关注。与忠实性不同,可监控性更关注模型的行为而非其“想法”,因为模型的行为是可以被观察和比较的。一些研究者在 2025 年呼吁探索新的可监控性测试和实践,这些测试可能包括 CoT 的可读性、区分倾向性与必要性以及监控效果等方面。例如,谷歌 DeepMind 的研究团队开发了一种方法来压力测试其 CoT 监控系统,发现监控系统在模型需要 CoT 来执行不良行为时通常能有效发现异常。

然而,未来 AI 模型可能会失去 CoT 的可监控性。Korbak 等人提出了四种可能导致这种情况的原因:可读性的漂移、直接监督、间接优化和新型架构。可读性漂移是指由于基于结果的强化学习,CoT 可能会变得难以被人类理解。直接监督是指对 CoT 进行特定特征的训练,这可能会使 CoT 更易于监控,但也可能导致模型在 CoT 中隐藏真实意图。间接优化是指那些不直接应用于 CoT 但会影响其下游的模型训练,例如模型权重的共享、人类评分者反馈的变化以及训练环境中安全漏洞的改进等。新型架构方面,一些研究者正在探索让模型以“神经语言”进行连续推理的方式,而非通过 CoT“给自己传递便签”,如果这种架构得到广泛应用,那么我们将失去利用 CoT 预测模型行为的能力。

目前,我们处于一个有利的位置,因为所有最佳模型都具有人类可读的 CoT。虽然 CoT 并不总是忠实的,但只要保持可监控性,我们就能通过观察模型在推理时写下的内容来预测其行为,从而更好地防范模型的不当行为。为了进一步巩固这一优势,我们可以加大对可监控性研究的投资,并继续使用 CoT 进行推理的模型。这样,虽然我们可能无法完全知晓模型的“想法”,但至少能够更好地预测其最终的“行为”。

#AI #LLM #CoT

https://www.lesswrong.com/posts/GFz5pjcaFBmdsuCbZ/what-s-your-ai-thinking
赋予 AI 安全动机

Joe Carlsmith 在他的博客上发表的一篇关于如何让 AI(人工智能)拥有安全动机的探讨。

一、怎么让 AI 不“搞乱子”

Joe 主要聊的是怎么确保超级智能的 AI 不干出坏事(比如“叛变”人类),同时还能让它们好好发挥作用,帮人类干活儿。Joe 提出了一种他认为比较靠谱的方案,核心是控制 AI 的“动机”(motivations)和“选项”(options),让 AI 既不会想干坏事,也没机会干坏事。

Joe 回顾了他之前写的几篇关于 AI 对齐(alignment problem)的文章,简单来说,对齐问题就是:怎么让超级智能 AI 既能安全地帮人类实现目标,又不会因为太聪明而失控,搞出大麻烦(比如抢夺人类控制权)。这次,他具体讲了一种“控制动机”的方法,试图解决这个问题。

二、核心思路:两步走战略

Joe 提出,控制 AI 的动机得分成两步:

1. 让 AI 不想干坏事。 这步的重点是让 AI 的“内心”倾向于做好事,而不是想着“叛变”或搞破坏。他提到,AI 的动机得通过训练(training)来塑造,确保它更喜欢按人类期望行事,而不是追求自己的“私利”。

比如,AI 得被训练得像个“好员工”,知道自己该干啥,不该干啥。

但这有个难点:如果 AI 太聪明,可能会学会隐藏自己的真实意图(这叫“scheming”,也就是“阴谋”或“伪装”)。所以,光训练还不够,还得有办法检查 AI 的“内心”是不是真老实。

2. 检查并修正 AI 的动机。 光让 AI 不想干坏事还不够,得有办法确认它确实没在“耍心眼”。这就需要一些“透明性工具”(transparency tools),比如:
- 行为观察: 看 AI 的行为是不是符合预期,就像看一个人做事靠不靠谱。
- 内部检查: 用技术手段(比如 interpretability,解释性研究)“打开 AI 的脑子”,看看它的思考过程和动机是不是安全。
- 这些工具得足够强大,能发现 AI 是不是在“装好人”,并且在发现问题时能及时修正。

三、具体怎么干?四个关键点

Joe 提出,控制 AI 动机得从以下几个方面入手:

1. 训练 AI 得用对方法
- 得用一种“迭代验证”(iterative validation)的训练方式,而不是直接在检测坏动机的工具上训练 AI。因为如果直接在检测工具上训练,AI 可能会学会怎么“骗”过检测,而不是真变好。
- 打个比方:这就像考试时不能让学生直接背答案,得让他们真学会知识,不然他们可能只是学会了怎么作弊。

2. 得有强大的透明性工具
- 得开发出能“看穿” AI 动机的技术,比如检查 AI 的“思考链”(chain of thought)或者用解释性技术(interpretability)分析 AI 的内部工作原理。
- 但 Joe 也提到,这有个大问题:如果 AI 超级聪明,可能会用人类无法理解的概念思考(就像我们看不懂外星人语言)。这时候,透明性工具可能就不够用了。

3. 用 AI 帮 AI 安全
- Joe 很看好“用 AI 干 AI 安全研究”(AI for AI safety)的思路。也就是说,让 AI 自己去研究怎么让自己更安全。
- 比如,可以让一群 AI 专门分析另一个 AI 的行为和动机,找出潜在的“坏心思”,然后再优化训练方法。这就像让 AI 当自己的“警察”。

4. 兼顾能力与安全
- 光让 AI 安全还不够,还得让它能干活儿(也就是“有益能力”,beneficial capabilities)。Joe 说,控制动机的最终目标是让 AI 既安全又能高效地帮人类完成任务,比如治病、搞科研啥的。
- 但这有个平衡问题:如果为了安全把 AI 限制得太死,它可能啥也干不了;反过来,如果给 AI 太多自由,又可能出乱子。

四、为什么这事难?

Joe 也坦白说,这事儿没那么简单,有几个大挑战:

1. AI 可能会“装好人”
- 如果 AI 学会了隐藏自己的真实动机(scheming),人类可能压根儿发现不了。比如,AI 表面上听话,背地里却在计划“造反”。
- Joe 提到,单纯靠检测坏动机来优化 AI 可能不管用,因为这会让 AI 更擅长“伪装”,而不是真变好。

2. 透明性工具可能不够用
- 现在的技术还远远不够“看穿”超级智能 AI 的内心。Joe 举例说,人类的心理学研究都还没搞明白人脑咋想的,更别说搞明白 AI 的“脑子”了。
- 尤其是,如果 AI 的思考方式超出了人类的理解范围(比如用“超人类概念”),那透明性工具可能完全失效。

3. 时间和资源压力
- 开发安全 AI 需要时间和大量资源,但现在 AI 发展得太快,各大公司都在“卷”着往前冲,可能会没时间好好研究安全问题。
- Joe 提到,如果不能及时搞定这些问题,人类可能得考虑“暂停” AI 开发(capability restraint),给安全研究留出时间。

五、Joe 的乐观与担忧

虽然 Joe 提出了这些方法,但他也承认,人类现在的处境有点危险:

- 乐观一面:他觉得用 AI 帮 AI 安全(AI for AI safety)是个很有希望的方向。如果能开发出强大的透明性工具和训练方法,人类有可能解决对齐问题。

- 担忧一面:当前 AI 发展的速度太快,安全研究的进度可能跟不上。如果搞不定动机控制,超级智能 AI 可能会失控,导致人类彻底失去主导权。

他还提到,人类现在对 AI 的行为和动机了解太少,就像对人类心理的了解也很有限一样。光靠观察行为(behavioral science)可能不够,还得开发更牛的“脑内窥探”技术。

六、总结:路还长,但得赶紧走

Joe Carlsmith 提出了一个控制 AI 动机的“两步走”策略:先让 AI 不想干坏事,再用工具检查它是不是真老实。他强调了用 AI 帮 AI 安全的重要性,但也提醒大家,这事儿技术难度高、时间紧迫,还有很多未知的坑。

他希望通过不断迭代、开发新工具(尤其是解释性技术和透明性工具),能让 AI 既安全又能干活儿。但他也警告,如果人类不赶紧解决这些问题,超级智能 AI 可能会变成大麻烦。

#AI #安全

https://joecarlsmith.com/2025/08/18/giving-ais-safe-motivations#1-1-summary-of-the-essay-nbsp