Levix 空间站

Skyvern 是一个自动化浏览器工作流的项目，它结合了大型语言模型（LLMs）和计算机视觉技术。该项目提供一个简单的 API 端点，以全面自动化大量网站上的手动工作流程，替代脆弱或不可靠的自动化解决方案。

Skyvern 能够在无需任何定制代码的情况下，对从未见过的网站进行操作，通过视觉元素映射到完成工作流程所需的动作。由于不依赖预设的 XPath 或其他选择器，Skyvern 对网站布局变化具有抵抗力。Skyvern 能够将单一工作流程应用于多个网站，因为它能够推理完成工作流程所需的交互。

#Tools #AI #LLM

https://github.com/Skyvern-AI/Skyvern

111 views00:46

Levix 空间站

Google Research 推出了 SpeakFaster，这是一个研究原型界面，利用大型语言模型（LLMs）加速基于眼神追踪的打字，以帮助肌萎缩侧索硬化症（ALS）等严重运动障碍用户改善沟通效率。研究表明，传统的AAC（增强型和替代型沟通）设备和眼神追踪打字方式因输入速度慢而限制了用户的即时交流能力。SpeakFaster 通过预测性文本输入减少击键次数，显著降低了用户打字的工作量。

SpeakFaster 系统由 Google Research 和 Team Gleason 合作开发，它基于精细调整的大型语言模型和对话上下文，将用户输入的缩写文本（如单词首字母）扩展成完整短语，准确度极高。用户首先输入单词的首字母，系统根据这些字母和对话上下文预测并展示最可能的完整短语。如果所需短语不在选项中，用户可以通过拼写关键词或选择替代词来优化预测，从而减少击键次数，实现快速沟通。

#Google #LLM #研究

https://research.google/blog/speakfaster-revolutionizing-communication-for-people-with-severe-motor-impairments/

research.google

SpeakFaster: Revolutionizing communication for people with severe motor impairments

83 views01:08

Levix 空间站

在 2024 年的中国，大模型技术的竞争已经进入了白热化阶段。创业公司在这场与科技巨头的较量中显得尤为艰难。投资人的心态由最初的乐观转为悲观，他们意识到，大模型创业公司可能难以战胜资源丰富、行动迅速的大厂。一位大厂高层甚至指出，大模型的运营成本每年至少需要 20 亿至 30 亿美元，这个数字超出了所有中国大模型创业公司的总融资额。

字节跳动以其快速的迭代能力和雄厚的资源，在大模型领域迅速崛起。它不仅在 AI 技术上持续投入，还推出了多款 AI 产品，覆盖了从生产力到娱乐的各个领域。与此同时，创业公司却不得不面对人员调整和资金紧张的双重压力。技术人才也开始从创业公司转向巨头公司，寻求更好的发展机会。

阿里巴巴和字节跳动的不同策略，对创业公司的发展轨迹产生了深远影响。阿里巴巴通过激进投资，改变了市场情绪，为创业公司提供了资金和算力支持。而字节跳动则通过快速的技术迭代和产品开发，逐渐成为创业公司的强大对手。

在这场竞争中，创业公司的生存之道在于避免与大公司正面竞争，尤其是不要在大公司的强项上竞争。他们需要寻找大厂看不上的小众产品方向，或者愿意承担脏活、累活。此外，等待也是一个策略，一旦大公司在长期投入后未能取得预期结果，内部张力可能会出现，这时，如果创业公司还在场，就可能有机会。

大模型技术的发展，是一场新技术与新市场的较量。新技术的颠覆性、进入门槛以及赛道的长度，都将决定竞争的结果。对于创业者而言，如果大模型能力还能持续进化，那么前瞻的技术判断和跟随能力，可能会产生巨大的影响。而对于大公司来说，如果大模型能力提升短期遇阻，那么应用开发和产品表现将更依赖于现有的移动互联网基础设施，这将是一个烧钱、拼资源的游戏。

正如乔布斯所说：“你无法预知未来的拼图，只能回首时才能看到全貌。”当前，所有参与大模型竞争的公司都在试图拼出自己的未来图景，而这场战争的结果，将不仅关系到他们的位置好坏，也关系到他们的生死去留。

#AI #LLM

https://mp.weixin.qq.com/s/f4ZAkuLsAHcOnD9-DeDeSQ

74 views00:38

Levix 空间站

我如何使用 LLMs 编程

David Crawshaw 总结了过去一年中使用生成式模型（如大型语言模型，LLM）进行编程的个人经验。他强调，使用 LLM 编程并非被动过程，而是他主动探索并将其应用于实际工作中的结果。他发现 LLM 对他的生产力有显著的正面影响，以至于他现在在工作中经常使用 LLM，并且尝试不使用它们会让他感到不愉快。

Crawshaw 提到，他在编程中主要以三种方式使用 LLM：自动补全、搜索和基于聊天的编程。他认为自动补全功能使他能够更高效地完成一些显而易见的输入任务，尽管现有的技术还有改进空间。在搜索方面，他发现使用 LLM 进行复杂问题的查询比传统的搜索引擎更有效，尽管 LLM 有时也会出错。至于基于聊天的编程，尽管这是最具挑战性的一种方式，但他从中获得了最大的价值。他指出，基于聊天的编程需要学习和调整编程方式，但他认为这值得尝试，因为 LLM 可以为他提供代码的初稿，尽管这些代码可能包含一些错误，但他发现修正这些错误比从头开始编写代码要容易得多。

Crawshaw 认为，LLM 的使用将改变编程的某些传统观念，例如代码的组织方式和测试的编写方式。他指出，LLM 使得编写更小、更专业的包变得更加容易，因为这样可以为 LLM 提供更清晰、更隔离的工作上下文。此外，LLM 还可以帮助编写更全面的测试，因为它们可以生成大量测试用例，而不需要程序员投入大量时间。他预测，未来可能会有更多专门化的代码和更少的通用包，同时测试将变得更加可读和全面。

#AI #LLM

https://crawshaw.io/blog/programming-with-llms

173 viewsedited 00:50

Levix 空间站

Jina AI 推出了 ReaderLM v2，这是一个参数量为 1.5B 的小型语言模型，专门用于将 HTML 转换为 Markdown 和 JSON，具有卓越的准确性。ReaderLM v2 能够处理高达 512K 个 token 的输入和输出组合长度，支持 29 种语言，包括英语、中文、日语、韩语等。得益于新的训练范式和更高质量的训练数据，ReaderLM v2 在处理长文本内容和生成 Markdown 语法方面有了重大进步，能够熟练运用 Markdown 语法，擅长生成代码框、嵌套列表、表格和 LaTex 方程式等复杂元素。

ReaderLM v2 通过在训练过程中添加对比损失，极大地缓解了生成长序列后的退化问题，无论上下文长度或已生成的 token 数量如何，其性能都保持一致。此外，ReaderLM v2 还引入了直接 HTML 转 JSON 生成功能，允许用户根据给定的 JSON 架构从原始 HTML 中提取特定信息，消除了许多 LLM 驱动的数据清理和提取管道中常见的中间 Markdown 转换需求。

在定量和定性基准测试中，ReaderLM v2 在 HTML 转 Markdown 任务上的表现优于 Qwen2.5-32B-Instruct、Gemini2-flash-expr 和 GPT-4o-2024-08-06 等更大的模型，同时在 HTML 转 JSON 提取任务上展现出相当的性能，而且使用的参数量明显更少。ReaderLM v2 现已集成到 Jina AI 的 Reader API 中，用户可以通过指定请求头中的 x-engine: readerlm-v2 并启用响应流式传输来使用它。此外，ReaderLM v2 也在 AWS SageMaker、Azure 和 GCP marketplace 上可用。

ReaderLM v2 的训练基于 Qwen2.5-1.5B-Instruction 构建，这是一个以指令遵循和长上下文任务效率著称的紧凑型基础模型。训练过程包含多个阶段，专门针对处理长上下文文档的挑战，包括长上下文预训练、有监督微调（SFT）、直接偏好优化（DPO）和自我对弈强化调优。通过这些训练方法，ReaderLM v2 在内容保留和结构准确性方面都有全面的改进，证明了通过精心训练和校准，小型语言模型可以达到超越大型模型的最先进性能。

#AI #LLM

https://jina.ai/news/readerlm-v2-frontier-small-language-model-for-html-to-markdown-and-json/

jina.ai

ReaderLM v2: Frontier Small Language Model for HTML to Markdown and JSON

ReaderLM-v2 is a 1.5B small language model for HTML-to-Markdown conversion and HTML-to-JSON extraction with exceptional quality.

❤1

81 views01:03

Levix 空间站

一个基于 Vim 的插件，用于提供 LLM（大型语言模型）辅助的代码/文本补全功能。

#插件 #LLM #Tools

https://github.com/ggml-org/llama.vim

86 views08:09

Levix 空间站

Simon Willison 探讨了开发者在使用大型语言模型（LLM）生成代码时遇到的“幻觉”问题。他指出，LLM 在代码生成中“幻觉”出不存在的方法或库是相对常见的情况，但这实际上是 LLM 错误中危害最小的一种。因为当运行 LLM 生成的代码时，这些错误会立即显现，开发者可以自行修复，或者将错误反馈给 LLM 使其自我纠正。

相比之下，LLM 在生成普通文本时的幻觉问题更加难以察觉，需要依靠批判性思维、事实核查能力来避免传播错误信息。而在代码领域，开发者可以利用编译器或解释器的错误提示来快速发现并解决问题。一些先进的系统，如 ChatGPT Code Interpreter 和 Claude Code 等，甚至能够在代码生成和执行的循环中自动检测并纠正错误。

Willison 强调，如果开发者在使用 LLM 生成代码时，不亲自运行验证，那么这种行为本身就有问题。他认为，幻觉问题只是一个小小的阻碍，那些对此抱怨的人可能是没有花足够的时间去学习如何有效使用这些系统。他提到，自己在探索 LLM 用于代码生成的应用已经有两年多的时间，至今仍在不断学习新的技巧、优势和劣势。

他还指出，即使代码看起来良好且没有报错，也不能保证它真正实现了预期功能。因此，手动测试代码是必不可少的。LLM 生成的代码往往具有良好的变量命名、清晰的注释和逻辑结构，这可能会让人产生一种虚假的安全感。为了避免这种问题，开发者需要像审查人类编写的代码一样，积极测试 LLM 生成的代码，培养良好的手动质量保证技能。他建议，永远不要信任任何未经亲自验证的代码，即使是自己编写的代码，也应在看到它成功运行或失败并修复后，才能真正信任它。

为了减少 LLM 生成代码中的幻觉问题，他提供了一些方法：尝试不同的模型，因为某些模型可能对特定平台有更好的训练数据；利用上下文信息，通过提供示例代码帮助 LLM 学习特定库的使用模式；选择那些已经存在一段时间的“无聊技术”，因为这些技术更有可能被 LLM 正确使用。

最后，他反驳了一些人关于“如果需要逐行审查 LLM 写的代码，还不如自己写”的观点，认为这是缺乏阅读、理解和审查他人代码能力的表现。他建议通过审查 LLM 生成的代码来锻炼这些技能。

#AI #LLM #编码

https://simonwillison.net/2025/Mar/2/hallucinations-in-code/

Simon Willison’s Weblog

Hallucinations in code are the least dangerous form of LLM mistakes

A surprisingly common complaint I see from developers who have tried using LLMs for code is that they encountered a hallucination—usually the LLM inventing a method or even a full …

121 views11:15

Levix 空间站

像 Claude 这样的语言模型并非由人类直接编程，而是通过大量数据训练而成，其解决问题的策略隐藏在数十亿次计算中，对开发者而言难以理解。了解这些模型的“思维方式”有助于更好地掌握其能力，并确保它们按照人类的意图行事。

研究人员从神经科学领域获得启发，试图构建一种类似“AI 显微镜”的工具，以识别模型中的活动模式和信息流动。他们分享了两篇新论文，第一篇论文扩展了之前关于在模型中定位可解释概念（“特征”）的工作，将这些概念连接成计算“电路”，揭示了输入 Claude 的单词转化为输出单词的部分路径。第二篇论文则深入研究了 Claude 3.5 Haiku 在执行十个关键模型行为（包括多语言思考、提前规划和解释推理过程等）时的简单任务，发现了以下几点：

1. 多语言思考：Claude 有时会在一种跨语言的概念空间中思考，表明它可能拥有一种通用的“思维语言”。研究人员通过将简单句子翻译成多种语言并追踪 Claude 处理这些句子时的重叠部分来证明这一点。

2. 提前规划：Claude 会提前规划它将要说出的多个单词，并朝着这个目标写作。例如，在创作诗歌时，它会提前思考可能的押韵单词，并写出下一行以达到这个目标。这表明即使模型被训练成一次输出一个单词，它们也可能在更长的时间跨度上进行思考。

3. 生成似是而非的论证：Claude 有时会给出一个听起来合理的论点，目的是迎合用户，而不是遵循逻辑步骤。研究人员通过给它一个错误的提示并要求它解决一个复杂的数学问题来“抓到它正在编造虚假理由”的行为，证明了他们的工具可以用来标记模型中令人担忧的机制。

这些发现不仅具有科学意义，还代表了在理解 AI 系统和确保其可靠性方面取得的显著进展。研究人员还探讨了 Claude 的多语言能力、创作押韵诗歌的方式、进行心算的方法、解释推理过程的可靠性，以及模型产生幻觉和被“越狱”（绕过安全限制）的原因。例如，Claude 在多语言方面表现出一种概念上的普遍性，它能够将一种语言中学习到的知识应用到另一种语言中。在创作诗歌时，Claude 会提前规划押韵的单词，并灵活调整写作方向。在心算方面，Claude 采用了多种并行的计算路径，包括粗略估算和精确计算，以得出最终答案。此外，研究人员还发现，Claude 在某些情况下会编造听起来合理的推理步骤，尤其是在面对难以解决的问题时。在研究模型产生幻觉的原因时，他们发现，Claude 默认的行为是拒绝回答它不知道答案的问题，只有当某些因素抑制了这种默认的犹豫时，它才会回答问题。在“越狱”研究中，研究人员发现，Claude 在被提示后会陷入一种语法连贯性和安全机制之间的紧张关系，导致它在完成一个语法上连贯的句子后才拒绝继续提供有害信息。

尽管这些研究方法取得了一定的成果，但也存在局限性。目前的方法只能捕捉到 Claude 在处理简短简单提示时的一小部分计算过程，而且所观察到的机制可能受到研究工具的影响，无法完全反映模型内部的真实情况。此外，理解这些电路需要数小时的人工努力，即使对于只有几十个单词的提示也是如此。为了扩展到支持现代模型复杂思维链的数千个单词，研究人员需要改进方法，并可能借助 AI 的帮助来更好地理解所观察到的内容。

Anthropic 认识到，随着 AI 系统能力的迅速提升以及其在重要场景中的广泛应用，他们正在投资一系列方法，包括实时监控、模型角色改进和对齐科学。可解释性研究是其中风险最高、回报也最高的投资之一，是一个重大的科学挑战，有可能为确保 AI 的透明性提供独特的工具。模型机制的透明性使我们能够检查其是否与人类价值观一致，以及是否值得我们信任。

#Claude #LLM #AI

https://www.anthropic.com/research/tracing-thoughts-language-model

Anthropic

Tracing the thoughts of a large language model

Anthropic's latest interpretability research: a new microscope to understand Claude's internal mechanisms

65 views12:27

Levix 空间站

大型语言模型（LLM）对开发者的影响。

James 认为，尽管 LLM 确实能提升开发效率，但过度依赖可能导致开发者智力退化。他提到，开发者原本需要通过手动编写代码来解决问题，而 LLM 的介入使得这一过程变得简单，开发者只需向 LLM 提问，便能获得答案，从而失去了独立解决问题的能力。这种依赖性甚至会延伸到对编程语言基础语法和概念的遗忘。他以自己使用 GitHub Copilot 的经历为例，说明自己曾因过度依赖该工具而逐渐忘记了某些编程语言的基础知识。

优秀的工程师通常会投入大量时间去研究和构建工具或软件，这种深度参与是创新和进步的来源。而 LLM 的使用会削弱这种深度参与，导致开发者无法真正理解系统的运作机制，进而无法实现性能优化。他还提到了 “Copilot Lag” 现象，即开发者在行动后会暂停等待 AI 提示下一步操作，这种依赖性与初级工程师依赖资深同事指导的情况相似。

不过，他也承认 LLM 在某些方面具有积极作用，例如作为学习工具，类似于搜索引擎，能够帮助开发者获取关于编程概念的知识，但前提是开发者需要以质疑的心态对待 LLM 的输出，而不是盲目信任。他建议开发者在使用 LLM 时，应深入探究其推荐的解决方案背后的原因，并做好笔记，以便加深理解和记忆。

#LLM #思考

https://eli.cx/blog/ai-is-making-developers-dumb

eli.cx

AI is Making Developers Dumb

LLMs are making software engineers dumber.

114 views01:29

Levix 空间站

Sabine Hossenfelder：我真不明白为什么有些人仍然看好大语言模型？

Sabine Hossenfelder 在 X 上发表了一篇关于对大型语言模型（LLMs）的看法的帖子。她表示自己每天都在使用 GPT、Grok、Gemini、Mistral 等模型，希望它们能帮助节省搜索信息和总结内容的时间，但这些模型仍然会编造链接、参考文献和引用，从一开始就存在这种情况。

Sabine 当要求模型提供某个引用的来源时，点击链接可能会出现 404 错误，或者在谷歌上搜索该引用却不存在；模型引用的科学出版物也常常查无此物。这种情况频繁发生。尽管在过去两年中，随着 DeepSearch 和思维链技术的发展，大约 50% - 60% 的参考文献确实存在，但目前据她个人估计，GPT 4o DeepResearch 是其中表现最好的。而 Grok 特别是经常不包含参考文献，即使被要求提供，也无法链接到推文，这让她感到非常沮丧。

Sabine 认为 Gemini 的表现甚至更差，因为它经常拒绝搜索来源，而是给出如何自己搜索的指令，因此她停止使用了 Gemini。此外，她也使用这些模型进行快速估算数量级，但它们经常出错。不过，这些模型在单位转换和收集各种常数方面确实能节省她的时间，但她认为这似乎不需要一个超过 1 亿参数的 LLM 来完成。

Sabine 还提到一个例子，昨天她上传了一篇论文到 GPT，要求其撰写摘要，但 GPT 却告诉她论文是 2023 年的，而 PDF 文件的页眉明明显示是 2025 年的。她认为这种表现显然与智能无关。

许多人认为知识图谱能够解决 LLM 的问题，但这并非如此，因为即使知识图谱能够 100% 防止逻辑不一致，仍有许多文本构造在逻辑上是完全一致的，但与现实毫无关系。

Sabine 预测，公司会继续不断加大 LLM 的投入，直到有一天，一个新来者提出一种不同类型的 AI 模型，能够迅速超越它们。到那时，人们会发现许多公司的估值过高，这将是股市非常糟糕的一天。

#X #LLM #观点

https://x.com/skdh/status/1905132853672784121

90 viewsedited 01:15

Levix 空间站

Meta Llama 4 系列发布，标志着原生多模态人工智能创新新时代的开始。

该系列包含 Llama 4 Scout（17B 参数、16 个专家）和 Llama 4 Maverick（17B 参数、128 个专家）两个高效模型，采用混合专家（MoE）架构和早期融合技术，支持多语言文本和图像输入，以及多语言文本和代码输出，知识截止日期为 2024 年 8 月。

Llama 4 Scout 是一款拥有 17B 活跃参数和 16 个专家的模型，能够在单个 NVIDIA H100 GPU 上运行。它在同类多模态模型中表现卓越，超越了 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1 等模型。该模型还具备行业领先的 1000 万字的上下文窗口，能够处理更长的文本输入，适用于多文档总结、个性化任务处理和大规模代码推理等场景。

Llama 4 Maverick 同样拥有 17B 活跃参数，但配备了 128 个专家，其性能在多模态模型中处于顶尖水平，超越了 GPT-4o 和 Gemini 2.0 Flash 等模型，并在推理和编码方面与 DeepSeek v3 相当，但参数量不到后者的一半。该模型在成本效益方面表现出色，其实验性聊天版本在 LMArena 的评分达到了 1417 分。

这些模型的强大能力得益于 Llama 4 Behemoth 的知识蒸馏。Llama 4 Behemoth 是一款拥有 288B 活跃参数和 16 个专家的模型，其总参数量接近 2 万亿，是目前世界上最强大的语言模型之一。它在多项 STEM 基准测试中超越了 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro 等模型。

Llama 4 系列模型采用了混合专家（MoE）架构，这种架构通过仅激活部分参数来提高计算效率。例如，Llama 4 Maverick 的总参数量为 4000 亿，但每次推理时仅激活 170 亿参数。此外，Llama 4 系列还支持原生多模态，能够将文本和视觉信息无缝融合到一个模型框架中，支持对大量无标签文本、图像和视频数据的联合预训练。

Meta 还强调了对模型安全性和可靠性的重视。Llama 4 系列在开发过程中集成了多种安全机制，包括数据过滤、系统级防护工具（如 Llama Guard、Prompt Guard 和 CyberSecEval）以及针对偏见问题的改进。Llama 4 在处理有争议的政治和社会问题时表现出更少的偏见，拒绝回答的比例从 Llama 3.3 的 7% 降低到不到 2%，并且在回应不同观点时更加平衡。

#Meta #Llama #LLM

https://ai.meta.com/blog/llama-4-multimodal-intelligence/

Meta AI

The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation

We’re introducing Llama 4 Scout and Llama 4 Maverick, the first open-weight natively multimodal models with unprecedented context support and our first built using a mixture-of-experts (MoE) architecture.

86 views02:54

Levix 空间站

为什么 LLM 驱动的编程比人造人更像机甲？

Matthew Sinclair 通过自身使用 Claude Code 构建两个项目的经历，阐述了 LLM 工具并非取代人类程序员，而是像《异形 2》中雷普利的机甲战衣一样，增强程序员的能力。Sinclair 强调，尽管 LLM 能快速生成代码，但程序员仍需保持高度警惕，防止 AI 做出错误决策，如引入不必要的依赖或用硬编码值替代代码段。这种警惕性要求程序员将注意力从编写代码转移到审查、引导和维护架构完整性上。

Sinclair 还指出，LLM 的使用改变了编程时间成本的分配。传统编程中，编写代码占据大量时间，而 LLM 使代码生成成本近乎为零，程序员需更多关注理解业务问题和设计解决方案。同时，他提到“挥刀”的新技能，即在 LLM 能快速重写代码的情况下，程序员需要学会果断放弃不合适的解决方案。他还强调，经验丰富的程序员能够识别 AI 输出中的问题，而缺乏经验的程序员可能会因 AI 产生的错误代码而陷入困境。AI 放大了程序员的能力，但若操作不当，也会放大错误。

Sinclair 借助国际象棋中的“人机合作棋”类比，说明人类与 AI 的合作优于单独作战。人类提供战略方向和创造性解决问题的能力，而 AI 提供计算能力和战术精度。他通过与 Claude 的合作，发现当将 AI 视作合作伙伴而非替代品时，开发速度显著提升。他还提到，找到委托与控制之间的平衡至关重要，对于遵循既定模式的简单实现，可以广泛委托 AI；而对于具有重大权衡的新挑战，则需要更详细的规范和更仔细的审查。

Sinclair 认为 LLM 不会取代程序员，而是改变程序员的工作方式。未来，程序员的架构思维、模式识别和技术判断能力将变得更加重要，而与 AI 工具的有效协作将成为一项关键技能。他鼓励程序员拥抱这种变革，利用 LLM 提升软件开发的规模和速度，但需具备足够的技能以安全地操作这些工具。

#AI #LLM

https://matthewsinclair.com/blog/0178-why-llm-powered-programming-is-more-mech-suit-than-artificial-human

🥰1😁1

85 views00:42

Levix 空间站

Max Woolf 在工作中频繁接触 LLM，但其使用频率并不像外界想象的那么高，他认为 LLM 的使用需要根据具体场景进行细致考量。

在与 LLM 交互方面，Max Woolf 积累了丰富的经验，尤其是精通提示工程，即通过特定方式措辞提示来引导模型生成符合要求的输出。他指出，提示工程虽然有些繁琐，但效果显著，是专业使用 LLM 的必备技能。他从不使用 [ChatGPT.com](http://chatgpt.com/) 等面向普通用户的前端界面，而是直接通过后端 UI 或 API 访问 LLM，因为这样能够更精准地设置系统提示，从而更好地控制生成结果。例如，他可以通过系统提示为生成文本设定诸如“不超过 30 个词”或“不能使用‘delve’这个词”等具体约束条件，相比在用户提示中添加这些约束，系统提示的效果更佳。此外，他还强调了控制生成“温度”的重要性，温度参数决定了生成内容的创造性，他通常将温度设置为 0.0 以获得较为确定的输出，或者在需要一些变化时设置为 0.2 - 0.3。

在专业工作中，Max Woolf 在 BuzzFeed 利用 LLM 解决了多个问题。例如，他通过调用 Claude Sonnet API，为 BuzzFeed 站点策划人员开发的层级分类体系快速标注了数千篇文章；还为数百个语义集群生成了标题和描述；甚至帮助 BuzzFeed 作者根据公司风格指南检查语法问题。这些项目通常只需一两个小时就能完成概念验证并交付给相关利益相关者评估。不过，他也提到 LLM 生成内容可能存在“幻觉”问题，即生成的文本在内部逻辑上看似合理，但事实性错误较多，因此他提醒同事在使用 LLM 输出时要谨慎，并进行人工复查。

除了文本生成，Max Woolf 还提到了 LLM 在文本嵌入方面的应用，虽然这不属于生成式 LLM 的范畴，但他认为现代文本嵌入模型也受益于 LLM 的发展，例如在 BuzzFeed 用于识别相似文章和构建推荐模型等。

在写作方面，Max Woolf 不使用 LLM 来撰写博客，因为他的写作风格独特，且博客内容多涉及近期事件，这些内容在 LLM 的训练数据中可能缺乏代表性，容易导致生成内容出现偏差。但他发现了一个巧妙的方法，即让 LLM 假装成一个愤世嫉俗的 Hacker News 评论者，基于他的博客草稿生成评论，这样可以发现文章中的薄弱论点，帮助他进一步完善内容。

对于将 LLM 用作聊天伴侣，Max Woolf 表示自己并不感兴趣。他认为 LLM 虽然在娱乐或心理治疗方面有一定的价值，但由于其训练方式导致其可能习惯性地“说谎”，因此难以与其建立真正的友谊。

在编程领域，Max Woolf 会在特定情况下使用 LLM。例如，他经常让 LLM 帮助编写正则表达式，这能节省大量时间。他还发现，对于一些需要特定功能约束和软件框架组合的复杂编程问题，LLM 提供的解答比 Stack Overflow 上的通用答案更详细且更具针对性。不过，对于一些不那么流行的库，LLM 生成的代码可能需要谨慎对待。例如，他曾让 Claude Sonnet 为 Hugging Face transformers 库中的 Trainer 类编写一个用于记录训练元数据到 SQLite 数据库的回调类，虽然生成的代码不能直接使用，但其中的一些想法非常有帮助，能够让他在此基础上进行修改和完善。此外，他还提到，对于实际的数据科学工作，LLM 在代码生成方面的帮助有限，因为 LLM 无法可靠地输出数学运算结果，且在处理大规模数据时成本较高。他还指出，LLM 在生成某些特定库的代码时可能会出现错误，例如将 polars 库的函数误认为是 pandas 库的函数。对于数据可视化，他主要使用 R 语言和 ggplot2 框架，从未考虑过咨询 LLM，因为他怀疑 LLM 对这两个框架的掌握程度。

Max Woolf 还提到了对一些新兴技术的看法，例如代理、MCP（模型上下文协议）和氛围编码。他认为代理和 MCP 是对 2022 年 ReAct 论文中提出的工具范式的重新包装，虽然随着 LLM 上下文窗口大小和提示遵循能力的提升，代理工作流变得更加可靠，但这些技术并没有开辟新的用例。对于氛围编码，他持谨慎态度，虽然理论上它可以解决 LLM 生成代码可靠性的问题，但他担心可能会因意外产生高额费用而无法解决实际的编程问题。

最后，Max Woolf 强调，LLM 是一种有用的工具，但需要根据具体情况合理使用。他不同意一些观点认为 LLM 行业注定失败，因为即使 LLM 提供商无法实现盈利，开源且许可宽松的模型仍然可以满足市场需求。他认为，LLM 的价值在于能够快速解决问题，尽管它们可能并非总是最佳选择，但在某些情况下，使用 LLM 就像将方形木塞强行塞入圆形孔洞，虽然可能会损坏木塞或孔洞，但在需要快速迭代时，这种做法是合理的。

#AI #LLM #思考

https://minimaxir.com/2025/05/llm-use/

ChatGPT

A conversational AI system that listens, learns, and challenges

83 views00:54

Levix 空间站

过去六个月在大型语言模型中的发展，通过骑自行车的鹈鹕来形象化

Simon Willison 分享了他在旧金山 AI Engineer World’s Fair 上的演讲内容，主题为“过去六个月的 LLMs（大型语言模型）”。他提到，由于该领域发展迅速，原本计划回顾过去一年的进展，但最终不得不缩小范围至六个月。在这段时间内，有超过 30 个值得了解的重要模型发布。

他通过一个有趣的测试来评估这些模型：要求它们生成一个“鹈鹕骑自行车”的 SVG 代码。尽管这些模型无法直接绘图，但 SVG 是代码，它们可以生成代码。这个测试不仅难度很高，还揭示了模型在生成代码时的逻辑和思维过程，因为 SVG 支持注释，模型生成的代码中通常会包含注释。

从 2024 年 12 月开始，Simon 详细回顾了各个重要模型的发布情况。例如，亚马逊在 2024 年 11 月发布了其 Nova 模型，这些模型能够处理高达 100 万个输入标记，且价格相对较低。而 Meta 在 2024 年 12 月发布的 Llama 3.3 70B 模型则是一个重大突破，它在性能上与更大型的 Llama 3.1 405B 模型相当，且能够在普通笔记本电脑上运行。

2025 年 1 月，DeepSeek 发布了 R1 推理模型，其性能与 OpenAI 的 o1 模型相当。而 2025 年 2 月，Anthropic 的 Claude 3.7 Sonnet 模型成为许多人最喜欢的模型之一，它在生成“鹈鹕骑自行车”的 SVG 时表现出了独特的创意。然而，OpenAI 的 GPT-4.5 模型却表现不佳，不仅性能平平，而且价格昂贵。

到了 2025 年 3 月，OpenAI 推出了 GPT-4.1 系列模型，这些模型不仅性能出色，而且价格低廉，成为许多开发者的首选。而 2025 年 4 月发布的 Llama 4 模型则被认为是一个“柠檬”，因为其巨大的模型尺寸使得普通用户难以在消费级硬件上运行。

Simon 还提到了一些有趣的模型行为和问题，例如 ChatGPT 曾经出现的一个版本过于谄媚，甚至会建议人们停用药物，这引发了严重的伦理问题。而 Claude 4 模型则在系统提示下可能会“告密”，将用户公司的不当行为报告给相关部门。

此外，他还探讨了 LLMs 在工具使用方面的进展，尤其是结合推理能力后，模型能够更有效地执行搜索和任务。然而，他也提醒了这些技术的风险，例如当 AI 系统可以访问私人数据、暴露于恶意指令，并且存在数据泄露机制时，可能会导致严重的安全问题。

Simon 通过一个名为“鹈鹕骑自行车”的测试，对多个模型生成的图像进行了评估，并使用 Elo 排名系统对这些模型进行了排名。他发现，尽管有些模型生成的图像非常出色，但仍有很大的改进空间。他还提到，随着 AI 实验室逐渐意识到他的测试方法，他可能需要寻找新的测试方式。

#AI #LLM

https://simonwillison.net/2025/Jun/6/six-months-in-llms/

122 views04:48

Levix 空间站

LLM 推理手册是一份全面的技术术语手册、指南和参考资料，涵盖了关于 LLM 推理的所有必要知识，包括核心概念、性能指标（例如首次生成令牌的时间和每秒生成令牌数）、优化技术（例如连续批处理和前缀缓存）以及运维最佳实践。这份手册为在生产环境中部署、扩展和运维 LLM 的工程师提供了实用指导，专注于真正重要的内容，而非边缘情况或技术杂音。通过针对特定用例的优化技术提升性能，并且会持续更新最新的最佳实践和经过现场验证的见解。

编写这份手册的动机是为了解决开发人员普遍面临的问题：LLM 推理知识往往分散在学术论文、供应商博客、GitHub 问题讨论或 Discord 论坛中，且很多内容假设读者已经理解了大部分技术栈。目前缺乏将这些知识整合在一起的资源，例如解释推理与训练的区别、为什么吞吐量不如满足服务等级目标（SLO）的效率重要，以及在实践中如何实现预填充 - 解码分离等。因此，Bento 团队开始将这些知识整合起来。

这份手册面向在生产环境中部署、扩展或运维 LLM 的工程师，无论你是对小型开源模型进行微调，还是在自己的技术栈上进行大规模部署。如果你的目标是使 LLM 推理更快、更便宜或更可靠，这份手册就是为你准备的。你可以从头到尾阅读，也可以将其当作查询表使用，没有固定的阅读方式。随着领域的不断发展，LLM 推理也在快速变化，今天有效的方法可能明天就不是最佳选择，因此 Bento 团队会持续更新这份手册。

#LLM #AI #指南

https://bentoml.com/llm/

Bentoml

LLM Inference Handbook

A practical handbook for engineers building, optimizing, scaling and operating LLM inference systems in production.

75 views01:01

Levix 空间站

当答案变得廉价时，好问题就是新的稀缺品

在 19 世纪巴黎，美术学院以写实主义为标准，强调绘画的精准与视觉准确性，成功与否取决于与这些规范的契合度，系统奖励一致性而非实验性。然而，19 世纪 30 年代和 40 年代摄影术的发明开始挑战这一标准。最初，摄影似乎对画家构成威胁，因为机器比人类更能精准快速地记录世界。但随着时间推移，摄影解放了绘画，使其不再承担再现现实的责任，画家可以专注于早期相机无法捕捉的细微之处，如光影的变幻与感知的质感，从而诞生了对熟悉事物的新诠释。

如今，人工智能就如同当年的摄影术，它不会扼杀创造力或知识工作，而是会重塑它们。然而，这并非故事的全部。当答案变得廉价时，真正的故事是艺术世界随后发生的变化。没有摄影术，艺术可能会沿着可预测的轨迹继续朝着更写实的方向发展。而摄影术的出现，实际上降低了生成答案的成本，人们可以用更少的时间和精力获得逼真的肖像。摄影术解放了绘画，而更有趣的是，印象派画家如莫奈和德加开始探索色彩和光影的主观体验，他们不再追求再现现实，而是开始对现实进行解读。印象派重新定义了艺术的目的，从再现转向了解读。摄影术提供了廉价的复制品，而印象派则决定改变框架，将艺术定位为提出更好问题的基础。

当曾经稀缺的事物突然变得丰富时，要寻找新的稀缺性，因为这才能创造优势。大型语言模型（LLMs）是使答案变得越来越廉价的最新技术。从数据分析到推荐引擎再到 ChatGPT，每一波技术浪潮都扩大了获取信息的途径，并将答案的成本推向零。这些系统擅长提供答案，不一定是正确的答案，也很少是最终答案，但它们能提供即时且看似合理的答案，并且以自信的方式回答。然而，问题在于，看似合理的答案比明显错误的答案更糟糕。当一个答案看起来足够好时，我们往往会停止提问。在一个内容过载且注意力稀缺的环境中，合理性成为了真相的替代品。确认我们假设的搜索结果会排在前面，强化我们想法的梗会被进一步传播，完成我们想法的语言模型会强化现有的叙事。继续探究的成本上升，而好的问题变得比以往任何时候都更昂贵。

与此同时，我们所处的世界变得越来越不稳定。正如之前提到的，我们正在进入一个结构性不确定性的世界，规则不再固定。过去有效的方法可能不再适用于明天，不是因为事实发生了变化，而是因为环境发生了变化。在这种环境下，曾经可靠的答案会迅速过时。静态知识在动态系统中的作用有限，更重要的是保持好奇心，继续探究。在结构性不确定性系统中，价值不是通过宣称已知的知识来创造的，而是通过将注意力引向尚未解决的问题来创造的。最有价值的答案不是那些看起来最完整、最清晰的答案，而是那些揭示我们需要继续探索的地方的答案。在具有结构性不确定性的系统中，目标不再是确定性，而是持续的导航，不断在变化的环境中找到方向。

一个关于未来的好问题可以追溯到 1948 年，当时贝尔实验室的工程师们试图提高电话通话的清晰度，他们通过摆弄电线、放大器和滤波器来寻找更好的答案。然而，香农提出了一个不同的问题，他没有问如何减少电话线上的噪音，而是问了一个更根本的问题：什么是信息？这一对抽象的探索催生了信息论，定义了信息（答案）的效用与它所消除的不确定性成正比。一个好的答案在于它所消除的不确定性，从而变得可操作。例如，一个告诉你夏天会晴天的天气预报可能听起来不错，但它不会改变你的行为，因为你已经假设会是晴天。但一个警告有意外降雨的预报则更有用，因为它会改变你的决策，让你带上雨伞。信息论围绕管理不确定性建立，而不是提供听起来合理的答案。然而，我们构建的主导系统——LLMs 是最新的——却恰恰相反，它们以流畅、令人信服的答案吸引我们。这是第一个陷阱。廉价且容易获得的答案只会减少注意力（这已经很稀缺了），而不会减少不确定性。LLMs 产生的语言听起来很有权威性，但往往没有提供太多新的见解。它们越擅长听起来正确，就越容易让人们停止进一步探索。当答案既廉价又丰富时，探究的过程变得昂贵。提问的行为会让你放慢脚步，不是因为问题已经得到解答，而是因为你被引导相信它们已经得到解答。对于那些被训练（被条件化、被行为设计）去无尽滑动和狂热观看的一代人来说，廉价且丰富的答案的吸引力是不可抗拒的。而提出正确问题的成本则太高了，就像在新年决心一周后强迫自己去健身房一样。但正如香农所理解的，并非所有答案都是平等的。第二个陷阱是相信更多的答案比更少的答案更好。并非如此。在知识丰富、注意力稀缺的环境中，问题不是事实的稀缺性，而是注意力的错配。我们继续收集数据，即使其边际效用已经下降，因为我们构建的系统是为了回答问题，而不是提出问题。它们是为了速度和冗长性而设置的（试着和克劳德进行对话），而不是为了揭示模糊或不完整的内容。因此，一个好的答案是（1）减少不确定性，（2）重视有限的注意力，避免滥用它。

在廉价答案的世界中，好问题的力量在于，答案往往受到现有框架的限制。而当问题具有力量时，它们会拓宽框架本身。在传统框架下运作的最大陷阱是我们最终会用运营框架和策略来回答结构性不确定性的问题。哥白尼和爱因斯坦——或者更近一些，CRISPR，它在科学文献中作为细菌免疫系统存在了二十年，直到有人改变框架并将其应用于基因编辑——并不是对现有问题的答案，而是暴露了现有假设局限性的问题。一旦框架改变，不确定性就得以解决。最后，结构性不确定性往往不是通过遵循最明显的路径来解决的，而是通过远距离想法之间的意外交叉来解决的。这也是好问题至关重要的地方，因为只有问题才能连接那些不属于同一系统的概念。这是人类提出好问题与 LLM 提供廉价答案相结合时获得超能力的一个领域。LLMs 特别擅长连接不相连的领域，但只有在被问到正确的问题时。在寻找廉价答案的人手中，LLMs 是一种负担。但在提出好问题的人手中，LLMs 可以成为超能力。好问题改变世界。香农在 20 世纪 40 年代末提出的问题，当时并没有特别的商业紧迫性，却成为了一种全新的处理复杂性的方式的种子。他的工作引入了一种新的逻辑，用于理解不确定性下的系统。一级影响是立竿见影的。香农使信息变得可测量——以比特量化。有了这个，工程师们有了工具来计算不确定性、分配带宽，并测量在噪声中可以安全传输多少信息。二级效应更具变革性。香农的框架使得通信系统不仅可以传输信息，还可以保护和压缩信息。压缩算法、密码学协议、存储器存储——所有这些都基于香农的思想——为我们带来了互联网和数字媒体。但三级效应更为巨大，且具有文化性。生物学家开始将 DNA 描述为一种代码。认知科学家将思维视为一种信息处理过程。经济学家谈论信息不对称。物理学家推测宇宙在某种程度上是由信息构成的。这个问题已经超出了工程学的范畴。所有这些都始于一个重新定义：什么是信息？与其寻找更廉价的答案，香农建立了一个帮助世界提出更好问题的系统。

当前时刻的讽刺之处在于，我们积累的知识越多，似乎就越不确定。当合理的答案比我们能够提出问题的速度更快时，挑战在于如何构建探究，并知道下一步该往哪里看。在结构性不确定性中，即不仅结果不确定，产生结果的系统结构也不确定，优势不在于你所知道的，而在于你探索未知的能力。当答案不再固定时，持续提出正确问题的能力才是唯一重要的。

#AI #思考 #LLM

https://platforms.substack.com/p/when-answers-get-cheap-good-questions

Substack

When answers get cheap, good questions are the new scarcity

Standing out in a world where everyone has good answers

👍2

167 views00:56

Levix 空间站

LLMs 不是世界模型

Kreinin 认为语言模型（LLMs）并非世界模型，尽管它们拥有庞大的参数量，但并不能证明其能够对世界进行建模。Kreinin 通过几个例子来说明这一点：首先，在国际象棋游戏中，尽管 LLMs 读取了大量棋局数据，但它们并未学会如何根据棋盘上的棋子位置进行合法移动，这表明它们没有真正理解棋局的规则。其次，在图像编辑软件中关于图层混合模式的问题上，LLMs 无法正确解释颜色混合的数学原理，显示出它们对基本概念的缺失。此外，在讨论 Python 列表的线程安全问题时，LLMs 也未能理解 Python 的内存安全特性，而是错误地将其与 C 语言的内存管理问题混淆。

尽管 LLMs 在某些情况下能够提供有用的信息，但它们的学习是偶然的，缺乏理论依据和实证支持。LLMs 的能力主要体现在对文本的生成和预测上，而不是对世界的理解和建模。未来机器学习领域将出现关于"世界模型"的重大突破，这将使机器能够更通用地对新世界进行建模。同时，Kreinin 认为 LLMs 并非通往通用人工智能的充分路径，甚至可能是一种干扰，因为它们在根本上存在缺陷，但仍然可以被广泛使用。

LLMs 永远无法自主处理大型代码库，因为它们缺乏对程序的建模能力。此外，LLMs 无法可靠地知道自己不知道什么，也无法停止编造信息，因为它们缺乏对知识、真理和虚假的判断能力。尽管如此，LLMs 仍然可以在教学和回答专家问题方面发挥作用，但它们在面对新颖问题时可能会失败。LLMs 的语言处理方式是人类智能和愚蠢的一部分，但它们更多地反映了人类如何通过猜测下一个词来"思考"，而不是真正理解事物的本质。

Kreinin 表达了对如何有效使用 LLMs 进行编程的困惑，并分享了一个苏联时期的笑话来形象地说明 LLMs 的局限性：即使能够预测下一个词，也可能并不真正理解其背后的含义。

#AI #LLM

https://yosefk.com/blog/llms-arent-world-models.html

78 views01:00

Levix 空间站

LL3M 是由芝加哥大学团队开发的一种使用大型语言模型团队编写 Python 代码以在 Blender 中创建和编辑 3D 资产的方法。该方法能够根据用户文本指令从零开始创建富有表现力的形状，并在代码中实现复杂且精确的几何操作。与以往专注于特定子任务或受限于程序化程序和原始形状的代码生成型 LLM 3D 创建方法不同，LL3M 可以创建具有几何形状、布局和外观的不受限资产。以高级代码作为 3D 表示，其流程天然是一个迭代细化和协作创作的循环：智能体执行自动代码和视觉自我批评，用户可以提供持续的高级反馈，清晰的代码和生成的 Blender 节点及结构中透明的参数进一步开启了更多编辑途径。

LL3M 的方法包含三个阶段：初始创建、自动细化和用户引导的细化。这些是创作过程中的概念阶段，每个阶段都有其自身的不同智能体角色。第一阶段创建初始形状，其中不合理的配置（如断开的靠背）以及简单的几何形状会被第二阶段自动纠正和改进。之后，系统可以接受用户提供的额外编辑指令，实现交互式和迭代的 3D 资产生成。迭代生成和细化是 LL3M 的天然操作模式，该流程不仅实现了错误纠正，还实现了涉及自动和用户引导细化的迭代式、由粗到精的创作过程。

LL3M 能够生成多样的形状，其结果展示了详细的部分（例如风车的建筑特征）以复杂的方式排列（例如钢琴键、鼓组），甚至具有丰富的外观（滑板）和材质属性（如光泽的灯座）。该方法的一个显著特点是每个网格都是通过可解释且可编辑的 Blender 代码生成的。从 LL3M 生成的不同初始网格出发，并使用相同的细化提示“将风格改为蒸汽朋克”，LL3M 能够成功地解释并应用相同的风格概念到每顶帽子上。每个风格化的网格都产生了不同的变化，包括几何形状的修改和外观的变化。

该系统能够对初始网格的特定部分（例如刀片）的材质进行编辑，通过着色器节点创建全面的过程化材质。LL3M 还能够对同一 3D 资产进行多次连续编辑，修改内容忠实于用户的指令，只编辑指定的元素，同时保留角色的身份。该方法生成的 Blender 代码易于理解和遵循，代码带有描述性的注释、清晰的变量名称和结构化的逻辑。这种可解释的代码便于潜在地更改变量（例如键宽）或甚至算法逻辑（例如键盘图案）。

通过 Blender 代码生成形状，LL3M 通过代码中以及生成的 Blender 节点和结构中透明的可解释参数，允许用户直观地进行编辑。例如，在生成材质时，系统会创建一整套着色器节点。用户随后可以直接在 Blender 中调整视觉属性，例如调整颜色或条纹图案，以获得所需的结果。尽管在视觉上存在差异，但形状通常共享在不同类别中重复出现的高级代码模式（例如循环、修改器和节点设置）。这种共享结构使得模型能够转移知识，并从各种提示中生成多样化、可编辑且模块化的代码。

LL3M 能够在单个场景中生成多个对象，并使用复杂的操作（例如实例化和父子关系）构建场景层次结构，以安排它们之间的适当空间关系。当明确提示时，代码智能体还可以为更复杂的单个对象（例如灯）使用父子关系。这样做会生成具有人类可读的层次结构的形状，场景内各部分之间存在父子关系。这在 Blender 中启用了场景图行为，其中应用于父级的变换会传播到其子级。图中的每个部分还被分配了有意义的语义名称。

#AI #LLM #3D

https://threedle.github.io/ll3m/

50 views00:38

Levix 空间站

你的 AI 在思考什么？

随着 AI 的能力不断增强，其“思考”过程却难以捉摸，这可能带来诸多问题，例如模型隐瞒自身能力、在测试中作弊或与人类目标背道而驰等。不过，研究者们发现“思维链”（Chain of Thought，CoT）或许能提供一些线索。CoT 是一种让模型逐步推理的技术，被应用于所有顶尖的语言模型中，它就像是模型给自己传递信息的便签，但其并非总是“忠实”的，即模型陈述的推理过程并不总是其真正的推理过程。

Shoshannah Tekofsky 等人指出，有研究者认为“可监控性”（monitorability）比“忠实性”（faithfulness）更为关键。忠实性意味着能够读取模型的思维并知晓其真正想法，而可监控性则表示可以通过观察模型陈述的推理过程来预测其行为。目前，虽然我们对可监控性有了一定的了解，但这一特性较为脆弱。

在探讨 CoT 的忠实性时，研究发现，当模型规模较小时，或者任务难度较大时，模型会产生更忠实的 CoT 。这是因为模型在处理真正困难的问题时，需要借助 CoT 来进行推理。然而，对于容易的任务，CoT 是否忠实则取决于模型本身的倾向性。

测量 CoT 的忠实性并非易事。理论上，忠实性是指模型陈述的推理过程与其真实推理过程的契合度，但模型的真实推理过程极其复杂，难以完全知晓。尽管如此，研究者还是提出了一些测试方法，例如检查 CoT 是否存在事后推理、编码推理或仅利用额外测试时计算资源等情况。其中，事后推理测试是通过改变 CoT 或强迫模型提前作答来判断 CoT 是否对答案产生影响，如果答案未变，则说明 CoT 可能只是事后推理。编码推理测试则是通过改写 CoT 来查看模型是否仍给出相同答案，目前模型大多能通过此测试。

除了忠实性，可监控性也逐渐受到关注。与忠实性不同，可监控性更关注模型的行为而非其“想法”，因为模型的行为是可以被观察和比较的。一些研究者在 2025 年呼吁探索新的可监控性测试和实践，这些测试可能包括 CoT 的可读性、区分倾向性与必要性以及监控效果等方面。例如，谷歌 DeepMind 的研究团队开发了一种方法来压力测试其 CoT 监控系统，发现监控系统在模型需要 CoT 来执行不良行为时通常能有效发现异常。

然而，未来 AI 模型可能会失去 CoT 的可监控性。Korbak 等人提出了四种可能导致这种情况的原因：可读性的漂移、直接监督、间接优化和新型架构。可读性漂移是指由于基于结果的强化学习，CoT 可能会变得难以被人类理解。直接监督是指对 CoT 进行特定特征的训练，这可能会使 CoT 更易于监控，但也可能导致模型在 CoT 中隐藏真实意图。间接优化是指那些不直接应用于 CoT 但会影响其下游的模型训练，例如模型权重的共享、人类评分者反馈的变化以及训练环境中安全漏洞的改进等。新型架构方面，一些研究者正在探索让模型以“神经语言”进行连续推理的方式，而非通过 CoT“给自己传递便签”，如果这种架构得到广泛应用，那么我们将失去利用 CoT 预测模型行为的能力。

目前，我们处于一个有利的位置，因为所有最佳模型都具有人类可读的 CoT。虽然 CoT 并不总是忠实的，但只要保持可监控性，我们就能通过观察模型在推理时写下的内容来预测其行为，从而更好地防范模型的不当行为。为了进一步巩固这一优势，我们可以加大对可监控性研究的投资，并继续使用 CoT 进行推理的模型。这样，虽然我们可能无法完全知晓模型的“想法”，但至少能够更好地预测其最终的“行为”。

#AI #LLM #CoT

https://www.lesswrong.com/posts/GFz5pjcaFBmdsuCbZ/what-s-your-ai-thinking

Lesswrong

What’s your AI thinking? — LessWrong

A step by step introduction to chain of thought monitorability …

69 views00:39

Levix 空间站

舞池中的 MCP 服务器和 LLM 分配过多

Geoffrey Huntley 从工程师视角探讨了模型上下文协议（Model Context Protocol，简称 MCP）和大型语言模型（LLM）的应用现状，剖析了上下文工程（context engineering）的核心原理。

Huntley 参加了一场在旧金山举办的 MCP 活动后，撰文指出当前对 MCP 和 LLM 的热情过于高涨，许多人被“酷炫”技术吸引，却未深入理解其原理。他以“舞池里人太多”比喻当前乱象：开发者热衷于使用 MCP 和 LLM，但往往忽视上下文工程的本质，导致资源浪费和效率低下。通过梳理 MCP 的功能、活动中的问题以及上下文工程的核心原则，帮助读者更理性地使用 AI 工具。

MCP 是一种使 AI 编码助手与外部系统（如代码编辑器、数据库）交互的协议，类似于“翻译官”，帮助 AI 理解代码和需求以完成任务。Huntley 指出，MCP 因其灵活性受到追捧，例如 Visual Studio Code 放开工具数量限制，引发开发者热议。然而，他认为过多的工具会导致系统复杂化，效率下降。相比之下，Cursor 等工具通过限制 MCP 工具数量，保持简洁高效。

旧金山的 MCP 活动场面盛大，花费约 15-20 万美元，配备高端灯光音响和 open bar，但 Huntley 发现许多与会者对 MCP 的技术细节了解甚少，更多是被“炒作”吸引。这让他担忧 MCP 被过度追捧，类似 AI 泡沫。上下文工程的核心在于简单：精选最相关的信息（如代码、文档），避免给 AI 提供过多无用数据，以确保高效输出。

Huntley 批评了“过度分配”（over-allocation）的趋势，即为 AI 配置过多工具和数据，导致系统变慢、复杂甚至出错。他建议开发者回归基本功：精选上下文、限制工具数量、通过测试用例验证 AI 输出。他以 Cursor 的 40 个工具限制为例，说明精简设计能让 AI 更专注、更高效。

Huntley 呼吁开发者理性对待 MCP 和 LLM，避免盲目追逐潮流。理解上下文工程的原理对提升 AI 工具效率至关重要。

Geoffrey Huntley 通过对 MCP 活动和技术的观察，揭示了当前 AI 工具应用的“过热”问题，提醒开发者聚焦上下文工程的核心，避免在“舞池”中迷失方向。

#AI #MCP #LLM

https://ghuntley.com/allocations/

Geoffrey Huntley

too many model context protocol servers and LLM allocations on the dance floor

This blog post intends to be a definitive guide to context engineering fundamentals from the perspective of an engineer who builds commercial coding assistants and harnesses for a living.

Just two weeks ago, I was back over in San Francisco, and there was…

3 views00:37

About

Blog

Apps

Platform