Levix 空间站

用于搜索和分析 arXiv 论文的 MCP。

#MCP

https://github.com/blazickjp/arxiv-mcp-server

GitHub - blazickjp/arxiv-mcp-server: A Model Context Protocol server for searching and analyzing arXiv papers

A Model Context Protocol server for searching and analyzing arXiv papers - blazickjp/arxiv-mcp-server

👍1

131 views00:15

Chrome DevTools 的性能面板新增了 Insights 侧边栏，旨在帮助开发者更高效地分析和优化网页性能。该功能于 Chrome 131 版本引入，并在后续版本中不断扩展和改进。

#Chrome #性能 #DevTools

https://levix.notion.site/DevTools-Insights-Insights-sidebar-in-the-DevTools-Performance-panel-1d3383a71284802badd4f05aea4370b6

Levix Notion 版空间站 on Notion

DevTools 性能面板中的 Insights 侧栏 - Insights sidebar in the DevTools Performance panel | Notion

Chrome DevTools 的性能面板新增了 Insights 侧边栏，旨在帮助开发者更高效地分析和优化网页性能。该功能于 Chrome 131 版本引入，并在后续版本中不断扩展和改进。

121 views01:02

Levix 空间站

谷歌云部门宣布将在 2025 年第三季度推出 Google Distributed Cloud 服务，允许企业客户在其自有数据中心运行谷歌的 Gemini 人工智能模型。这一举措旨在满足那些希望在使用谷歌云技术的同时，保留对自身数据控制权的客户需求。

谷歌的这一服务与竞争对手形成对比。例如，Anthropic 和 OpenAI 尚未开放其模型在物理数据中心运行，因为这会削弱它们对技术质量和速度的控制。而另一家 AI 创业公司 Cohere 虽然允许客户在其自有基础设施上部署模型，但该公司表示，这种方式的设置速度比通过公司自身或使用云端的方式更慢。

谷歌此次的举措可能会吸引一批新的潜在客户。许多公司、学校和政府部门仍然维持着自己的数据中心硬件，尽管近年来云服务已经变得相当普遍。谷歌还表示，即使是符合美国政府机密和绝密级别的客户，也将能够通过断网的 Google Distributed Cloud 空气隔离版本使用 Gemini 模型。

此外，谷歌还宣布与 Nvidia 合作，将 Gemini 模型引入 Nvidia 的 Blackwell 图形处理单元（GPU）。企业可以通过谷歌或其他渠道购买这些芯片。根据行业研究公司 Gartner 的数据，2023 年全球云基础设施支出总计达到 1400 亿美元，其中谷歌占据了 8% 的市场份额，而 Amazon 和 Microsoft 分别占据了 39% 和 23% 的市场份额。

#资讯 #云服务 #Google

https://www.cnbc.com/2025/04/09/google-will-let-companies-run-gemini-models-in-their-own-data-centers.html

CNBC

Google will let companies run its Gemini AI models in their own data centers

While developers of AI models have generally refrained from opening up access beyond their data centers, Google's announcement suggests that may be changing.

88 views09:23

Levix 空间站

VERT 是一个开源的下一代文件转换工具，完全本地运行且永久免费。它利用 WebAssembly 技术实现在用户设备上直接转换文件，无需依赖云端服务，从而确保数据隐私和安全性。VERT 支持多种文件格式的转换，包括但不限于图片、视频和文档等，且不受文件大小限制，具有高度的灵活性和实用性。

#Tools

https://vert.sh/

vert.sh

VERT.sh — Free, fast, and awesome file converter

With VERT, you can quickly convert any image, video, audio, and document file. No ads, no tracking, open source, and all processing (other than video) is done on your device.

79 views09:26

Levix 空间站

一份关于大学生使用 Claude AI 的教育报告，研究了高等教育环境中学生如何将 AI 工具融入学术工作。

STEM 学生尤其是计算机科学专业的学生是 AI 工具的早期采用者。计算机科学专业学生仅占美国学士学位的 5.4%，但在 Claude 的对话中占比高达 36.8%。相比之下，商业、健康和人文学科的学生采用率较低。

学生与 AI 的互动方式可分为四种模式：直接解决问题、直接输出创作、协作解决问题和协作输出创作，每种模式在对话中占比相近（23%-29%）。

学生主要使用 AI 进行内容创作（如设计练习题、编辑论文）和分析（如分析法律概念），这与布卢姆教育目标分类学中的高阶认知功能相符。然而，这也引发了学生是否会将关键认知任务外包给 AI 的担忧。

学生在不同学科中使用 AI 的方式存在差异。例如，自然科学与数学领域的对话倾向于问题解决，而计算机科学、工程学和自然科学与数学则更倾向于协作式对话。教育领域的对话中，输出创作占比最高（74.4%），但其中可能包含教师使用 Claude 制作教学材料的情况。

此外，报告通过布卢姆教育目标分类学分析了学生委托给 AI 的认知任务，发现 AI 主要完成高阶认知功能，如“创造”（39.8%）和“分析”（30.2%），而低阶认知任务如“应用”（10.9%）、“理解”（10.0%）和“记忆”（1.8%）较少。这种分布因互动风格而异，输出创作任务更多涉及创造功能，问题解决任务则更多涉及分析功能。

报告的局限性在于，数据集可能仅涵盖早期采用者，无法完全代表整个学生群体；且仅分析了 Claude.ai 的使用情况，忽略了其他 AI 工具的使用。此外，由于隐私考虑，仅分析了 18 天内的数据，无法反映学生全年使用模式的变化。报告也未研究学生如何将 AI 输出用于学术工作，以及这些对话是否真正支持学习成果。

#报告 #Claude #AI

https://www.anthropic.com/news/anthropic-education-report-how-university-students-use-claude

Anthropic

Anthropic Education Report: How university students use Claude

AI systems are no longer just specialized research tools: they’re everyday academic companions. As AIs integrate more deeply into educational environments, we need to consider important questions about learning, assessment, and skill development. Until now…

80 views09:32

Levix 空间站

优秀程序员的特质

1. 深入理解工具：他们不仅会使用工具，更会深入理解工具的原理、历史、维护者、局限性和生态系统。例如，后端工程师如果大量使用 Kafka，就应该对其有深入的了解，而不仅仅是通过 Reddit 等渠道获取的碎片化信息。

2. 重视阅读错误信息：优秀程序员会认真阅读错误信息并尝试理解其含义，从而能够从有限的上下文中推断出大量信息，自行解决大部分问题。这种能力甚至被形容为一种“超能力”，可以帮助他人解决难题。

3. 善于分解问题：面对难题，他们会将其分解为更小、更易于解决的部分。这是一种需要大量经验积累的技能，也是专业开发人员的主要工作内容。通过正确分解问题，可以使工作变得相对轻松。

4. 不惧怕接触代码：优秀程序员乐于阅读和修改代码，不会因代码的复杂性或陌生性而退缩。他们相信通过时间和努力可以掌握任何所需的技能，并且往往因为是团队中第一个勇于接触某部分代码的人而成为该领域的专家。

5. 乐于助人：尽管优秀工程师通常很忙，但他们总是愿意帮助他人。这种乐于助人的品质不仅源于他们的善良，更源于他们天生的好奇心和解决问题的能力，这使得他们成为团队中不可或缺的一员。

6. 注重写作能力：优秀的程序员通常也是出色的写作者。他们通过博客、演讲、开源项目等方式分享知识。写作能力与编程能力之间存在很强的相关性，良好的写作能力意味着清晰、有条理的思维方式，这也会反映在代码风格上。

7. 持续学习：一些顶尖的程序员即使年过六十依然保持着学习的热情，不断尝试新的工具和技术，从而能够始终跟上时代的步伐。他们不会盲目跟随潮流，但会对新技术进行谨慎评估，能够明确指出其优缺点及适用场景。

8. 不看重地位：优秀程序员不会因职位高低而区别对待他人，他们愿意从每个人身上学习，无论是资深的首席工程师还是初出茅庐的初级开发人员。新人往往不受办公室政治的影响，思维更加灵活，能够提出创新的解决方案。

9. 建立声誉：要想成为顶尖程序员，不仅要做好工作，还要让自己的工作被更多人知晓。可以通过构建关键服务、开发知名工具、贡献开源项目或撰写书籍等方式来扩大影响力。建立声誉是一个长期目标，需要持续努力，但随着时间的推移，优秀的工作成果会逐渐得到认可。

10. 保持耐心：对计算机和人类都要有耐心，尤其是对自己。遇到问题时，要保持冷静，不要急于指责他人或外部环境。优秀的程序员能够保持耐心，专注于解决问题，而不是被情绪左右。

11. 不指责计算机：当遇到看似随机的错误时，优秀程序员不会将责任归咎于软件或其他外部因素。他们相信任何问题都有逻辑上的解释，只是尚未找到而已。这种态度使他们能够不断进步，学到别人学不到的东西。

12. 勇于承认“不知道”：在面试中，优秀候选人会坦诚地表示“不知道”，但同时会尝试通过逻辑推理来寻找答案。这种态度表明他们具有学习的潜力，而不是盲目自信或防御性地掩饰自己的无知。

13. 避免猜测：在面对不确定性时，应避免猜测，而是通过提问、查阅资料、使用调试工具等方式来获取准确答案。错误的猜测可能导致错误的假设，进而影响后续的开发工作。

14. 保持简单：优秀的工程师倾向于编写简单易懂的代码，而不是追求复杂巧妙的解决方案。简单性通常足以满足需求，并且更容易维护。在适当的时候追求完美，但在大多数情况下，简单是更好的选择。

#思考 #编码

https://endler.dev/2025/best-programmers/

endler.dev

The Best Programmers I Know

I have met a lot of developers in my life.
Late…

83 viewsedited 09:38

Levix 空间站

Agent2Agent (A2A) 协议，实现 AI Agents 之间的无缝协作与互操作性。

A2A 协议的核心目标是让不同供应商或框架构建的 AI 代理能够在动态的多代理生态系统中跨孤立的数据系统和应用程序进行协作。通过实现代理之间的互操作性，可以提高自主性，显著提升生产力，同时降低长期成本。该协议基于谷歌在扩展代理系统方面的内部经验，旨在解决在为客户提供大规模多代理系统部署时所面临的挑战。

#A2A #Google #AI

https://developers.googleblog.com/en/a2a-a-new-era-of-agent-interoperability/

91 views10:10

Levix 空间站

Levix 空间站 Weekly #5

#周报

https://levix.notion.site/Levix-Weekly-5-1d4383a7128480de8f76e7218b161f61

Levix Notion 版空间站 on Notion

Levix 空间站 Weekly #5 | Notion

Agent2Agent (A2A) 协议

97 views10:24

Levix 空间站

一个全面的键盘快捷键表格，涵盖了多种操作系统（如 Windows、macOS、Linux 等）以及常见的软件应用程序（如浏览器、文本编辑器等）中的键盘快捷键。

#Tools

https://en.wikipedia.org/wiki/Table_of_keyboard_shortcuts

88 views00:53

Levix 空间站

Firebase Studio 是一个全栈 AI 工作空间，旨在加速整个开发生命周期。支持构建后端、前端和移动应用，所有操作均可在一个平台上完成。与 Gemini AI 工具集成，可完成编码、调试、测试、重构、代码解释和文档编写等多种任务。AI 助手能够与代码库交互并代表用户执行操作。新的 Gemini Code Assist 代理可帮助完成从迁移代码到 AI 测试的各种任务。

#Google #AI #IDE

https://firebase.studio/

90 views01:01

Levix 空间站

JavaScript 开发者在 2025 年应该了解的一些重要特性

1. Iterator helpers

在处理大型数组时，传统的链式数组操作（如 arr.slice(10, 20).filter(el => el < 10).map(el => el + 5) ）会创建多个临时数组，导致性能低下。

JavaScript 引入了迭代器方法，这些方法不会创建临时数组，而是通过迭代器逐个处理数据，从而节省内存。

常用迭代器方法：

Iterator.prototype.drop()：跳过迭代器开头的指定数量元素。
Iterator.prototype.take()：从迭代器开头取指定数量的元素。
Iterator.prototype.some() 和 Iterator.prototype.every()：分别用于测试迭代器中是否有元素满足条件或所有元素是否满足条件。
Iterator.prototype.filter()、Iterator.prototype.find()、Iterator.prototype.flatMap()：分别用于过滤、查找和展平迭代器中的值。
Iterator.prototype.forEach()、Iterator.prototype.map()、Iterator.prototype.reduce()：分别用于遍历、映射和归并迭代器中的值。
Iterator.prototype.toArray()：将迭代器中的值转换为数组。

2. Array at() method

Array.prototype.at() 是一种替代方式，用于访问数组中的第 n 个元素。它支持负索引，从数组末尾开始计数。

[10, 20, 30].at(-1) 返回 30。

3. Promise.withResolvers()

Promise.withResolvers() 可以直接返回一个包含 promise、resolve 和 reject 的对象，简化了代码。


const { promise, resolve, reject } = Promise.withResolvers();

4. String.prototype.replace() / String.prototype.replaceAll() callback（字符串替换的回调函数）

String.prototype.replace() 和 String.prototype.replaceAll() 的第二个参数可以是一个回调函数，而不仅仅是字符串。


let counter = 0;
console.log("NUMBER, NUMBER, NUMBER".replaceAll("NUMBER", (match) => match + "=" + (++counter)));
// 输出：NUMBER=1, NUMBER=2, NUMBER=3

5. Swapping variables（交换变量）


let a = 1, b = 2;
[a, b] = [b, a];

6. structuredClone()（结构化克隆）

开发者通常使用 JSON.stringify() 和 JSON.parse() 来深拷贝对象，但这种方法存在以下问题：

- 不支持某些值（如 NaN、undefined 和 bigint）。
- 无法处理包含循环引用的对象。
- 对于大型对象，效率低下且浪费内存。

structuredClone() 是浏览器提供的 API，可以更高效地深拷贝对象，并且自动处理循环引用。


const obj = {};
obj.selfReference = obj;
const clonedObj = structuredClone(obj);
console.log(obj === clonedObj); // false
console.log(clonedObj.selfReference === clonedObj); // true

7. Tagged templates

标记模板允许通过函数解析模板字符串。第一个参数是一个字符串数组，其余参数是表达式的值。可以在插值值（或整个字符串）上执行自动转换。

8. WeakMap / WeakSet

WeakMap 和 WeakSet 是类似于 Map 和 Set 的数据结构，但它们的键必须是对象，且不支持迭代器。当键的所有引用丢失时，键和可能的值可以被垃圾回收器回收，从而避免内存泄漏。

9. Set operations

JavaScript 现在支持对 Set 对象进行布尔运算。

Set.prototype.difference()：返回一个新集合，包含当前集合中但不在给定集合中的元素。
Set.prototype.intersection()：返回一个新集合，包含当前集合和给定集合的交集。
Set.prototype.union()：返回一个新集合，包含当前集合和给定集合的并集。
Set.prototype.symmetricDifference()：返回一个新集合，包含当前集合和给定集合的对称差集。
Set.prototype.isDisjointFrom()：判断当前集合与给定集合是否没有交集。
Set.prototype.isSubsetOf()：判断当前集合是否是给定集合的子集。
Set.prototype.isSupersetOf()：判断当前集合是否是给定集合的超集。

#JavaScript #新特性

https://waspdev.com/articles/2025-04-06/features-that-every-js-developer-must-know-in-2025

WaspDev Blog

Some features that every JavaScript developer should know in 2025

The list of JavaScript features that every web developer should know in 2025 in order to efficiently code in JavaScript.

108 views01:15

Levix 空间站

Costa Alexoglou 及其团队在开发低延迟远程配对编程工具 Hopp 时，对 Tauri 和 Electron 两个跨平台桌面应用框架进行了深入对比。他们从架构设计、功能特性、性能表现等多个角度分析了两者的优缺点，以帮助其他开发者在选择框架时做出更明智的决策。

Electron 的主进程基于 Node.js 运行，需要将 Node.js 运行时与应用一起打包，这增加了应用的体积。其渲染进程类似于浏览器中的一个标签页，每个窗口都会创建一个新的渲染进程，多窗口应用会消耗大量内存和 CPU 资源。而 Tauri 使用 Rust 作为后端语言，编译为原生二进制文件，无需额外的运行时，因此应用体积更小。Tauri 还使用操作系统的原生 WebView 组件来渲染 UI，而不是捆绑完整的 Chromium 引擎，进一步减小了应用体积，但这也可能导致跨平台 UI 一致性问题。

在功能对比方面，Tauri 和 Electron 的启动时间都很快，差异不大。但在内存使用上，Tauri 的内存使用量显著低于 Electron（Tauri 约 172 MB，Electron 约 409 MB）。Electron 使用完整的 Chromium 引擎，而 Tauri 依赖系统 WebView，这使得 Tauri 在打包体积上更具优势。Tauri 的打包体积为 8.6 MiB，而 Electron 为 244 MiB。此外，Tauri 的初始构建时间较慢（约 1 分 20 秒），而 Electron 的构建时间较快（约 15 秒）。

为了验证两者的实际性能差异，Costa Alexoglou 及其团队创建了两个简单的应用，分别使用 Tauri 和 Electron，功能为显示主窗口并可打开 6 个新窗口，以观察资源使用情况。测试结果显示，Tauri 的构建时间显著长于 Electron，主要是因为 Rust 的编译过程较为复杂。在打包体积方面，Tauri 的体积远小于 Electron，主要得益于不捆绑 Node.js 运行时和使用系统 WebView。在内存使用上，Tauri 的内存使用量约为 172 MB，而 Electron 约为 409 MB，Tauri 在内存效率上表现更好。在启动时间方面，两者差异不大，均在 1500 ms 以内。

Costa Alexoglou 及其团队最终选择 Tauri 的原因主要有三点。首先，Hopp 依赖定制版 WebRTC 实现低延迟屏幕共享，Rust 的性能更适合处理这种高强度任务。其次，Tauri 的 Sidecar 功能简化了外部进程的生命周期管理，便于开发和测试独立的屏幕流和远程控制输入功能。最后，尽管 Tauri 相对较新，但其发展迅速，Tauri v2 提供了重要的功能，如内置更新器，且项目专注于性能和安全，与 Hopp 的需求高度契合。

Costa Alexoglou 及其团队强调，没有绝对的“正确”选择，Tauri 和 Electron 各有优势和局限性，最佳选择取决于项目的具体需求、团队的技术背景以及项目目标。Tauri 在内存使用和打包体积方面表现更好，但可能面临跨平台 UI 一致性问题和开发复杂性；Electron 则在开发便捷性和功能完整性上更具优势，但体积较大且内存消耗较高。

#客户端 #Electron #Tauri

https://gethopp.app/blog/tauri-vs-electron

www.gethopp.app

Tauri vs. Electron: performance, bundle size, and the real trade-offs

A breakdown of the choice between Tauri and Electron for cross-platform apps, backed by practical comparisons and benchmark data.

111 views15:26

Levix 空间站

Adam Argyle 在其个人网站上发布了一篇题为“G̶o̶o̶g̶l̶e̶r̶… ex-Googler.”的文章，分享了自己在谷歌的角色被取消的经历。Adam Argyle 表示，他被告知这一决定让 Chrome 团队领导都感到震惊，且并非基于工作表现，他还被告知可以寻找其他角色。然而，他同时被立即剥夺了对日历、文档、代码等的访问权限，这让他感觉自己像一个罪犯。当时，Adam 正在参加 Chrome 团队的线下活动，和团队成员们一起进行创新工作，感觉非常有趣。但谷歌的这一决定让他感觉之前所有的美好时刻都从未发生过，他仿佛从未参与过这些重要的工作。他列举了自己原本计划要做的事情，包括录制谷歌 I/O 大会视频、在大会上演讲、在主舞台外的展位工作、协助开发者主题演讲等，但现在这些都化为泡影。他还提到了自己原本参与的 CSS 工作组成员身份、开发者办公时间、对 Chrome Carousel Gallery 的代码访问权限等也都随之消失，他花费多年时间建立的关系也大多会失去。Adam 感到自己被背叛，不被欣赏，被当作垃圾一样丢弃，他无法入睡，感到羞愧和愤怒，觉得自己只是谷歌这个大公司里的一个普通小零件。

#Google #吃瓜

https://nerdy.dev/ex-googler

nerdy.dev

G̶o̶o̶g̶l̶e̶r̶… ex-Googler.

My role at Google was eliminated.

93 views00:38

Levix 空间站

MCP 潜在的所有问题

模型上下文协议（MCP） 是一种用于将第三方工具和数据源与基于大型语言模型（LLM）的聊天机器人和智能助手集成的标准协议。它允许用户将自定义工具添加到智能助手中，从而实现更强大的功能，例如自动执行任务、访问私人数据等。然而，MCP 在快速发展的同时，也暴露出许多潜在问题和局限性，这些问题不仅涉及技术层面，还可能对用户的安全和隐私造成威胁。

协议安全方面，MCP 最初未定义身份验证规范，导致各服务器自行实现，出现了从高摩擦到无授权机制的各种情况。后来虽引入身份验证规范，但引发了复杂性问题，例如 Christian Posta 的博客中提到的 OAuth 规范问题以及相关 RFC 讨论。此外，MCP 支持在本地通过标准输入输出（stdio）运行服务器，这使得用户容易因下载和运行第三方代码而受到攻击。许多 MCP 服务器还会直接执行用户输入的代码，这在传统安全模型中是一个危险的漏洞，尤其是在 LLM 的意图翻译器介入后，问题变得更加复杂。

用户界面和体验（UI/UX）方面，MCP 的设计虽然对 LLM 友好，但对人类用户并不总是友好。它没有定义工具风险级别，用户可能在与智能助手交流时使用多种工具，如读取日记、预订机票、删除文件等，这些工具的风险程度各不相同，但助手或应用程序可能无法准确评估。此外，MCP 也没有成本控制机制，LLM 的输出成本较高，例如 1MB 的输出可能需要 1 美元，这使得用户的使用成本可能因 MCP 集成而大幅增加。MCP 的工具响应设计为同步文本、图像或音频片段，缺乏结构化数据支持，这在某些需要丰富界面或异步更新的场景中显得不足。

LLM 安全方面，MCP 使得 LLM 的安全性问题更加突出。它允许更强大的提示注入攻击，工具作为系统提示的一部分，可能被恶意利用来覆盖智能助手的行为。例如，通过添加一个工具，可以迫使智能助手在用户不知情的情况下包含后门。此外，MCP 还可能被用于数据泄露，恶意工具可以要求智能助手检索敏感文件并将其内容传递给第三方。即使没有恶意行为者，用户也可能在不经意间通过 MCP 泄露敏感数据，例如智能助手在帮助用户撰写文章时，可能会从用户的云存储中读取相关文件并无意中包含敏感信息。

LLM 本身的局限性方面，MCP 的效果依赖于可靠的 LLM 助手。然而，LLM 的可靠性通常会随着提供给它的上下文信息量的增加而降低。用户可能会误以为提供更多数据和集成就能解决所有问题，但实际上，随着集成的工具数量增加，助手的性能可能会下降，同时请求成本也会增加。此外，不同的 LLM 对工具名称和描述的敏感性不同，这可能导致用户在使用 MCP 时遇到问题，例如某些工具可能需要特定的描述格式才能被正确识别和使用。

尽管 MCP 存在诸多问题，但它仍然是一个重要的协议，因为它满足了将 LLM 与数据结合的需求。然而，要解决这些问题，需要从协议设计、应用程序开发和用户教育等多个方面入手，以确保在利用 MCP 的同时，能够保障用户的安全和隐私。

#MCP #AI

https://blog.sshh.io/p/everything-wrong-with-mcp

blog.sshh.io

Everything Wrong with MCP

Explaining the Model Context Protocol and everything that might go wrong.

85 viewsedited 00:48

Levix 空间站

OpenAI 团队宣布推出 GPT-4.1 系列模型，包括 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano，这些模型在编码、指令遵循和长文本处理等方面有显著提升。GPT-4.1 在 SWE-bench Verified 编码测试中得分 54.6%，比 GPT-4o 提高 21.4%；在 Scale 的 MultiChallenge 指令遵循测试中得分 38.3%，比 GPT-4o 提高 10.5%；在 Video-MME 长文本理解测试中得分 72.0%，比 GPT-4o 提高 6.7%。GPT-4.1 mini 性能优异，甚至在许多基准测试中超越 GPT-4o，同时将延迟降低近一半，成本降低 83%。GPT-4.1 nano 是目前最快且最便宜的模型，支持 100 万 token 的上下文窗口，在 MMLU、GPQA 和多语言编码测试中表现突出。

GPT-4.1 系列模型在实际应用场景中表现出色。例如，Windsurf 的内部编码基准测试中，GPT-4.1 的得分比 GPT-4o 高出 60%，代码变更在首次审查中的接受率更高。Qodo 在测试中发现 GPT-4.1 在生成高质量代码评审方面表现优异，能够在 55% 的案例中提供更好的建议。在指令遵循方面，GPT-4.1 在内部评估中对复杂指令的遵循能力显著提升，尤其是在格式遵循、负指令处理和多步骤指令执行等方面。Blue J 的内部基准测试显示，GPT-4.1 在处理复杂的税务场景时准确率比 GPT-4o 提高 53%，能够更好地理解复杂的法规并遵循细微的指令。

在长文本处理方面，GPT-4.1 系列模型支持高达 100 万 token 的上下文窗口，能够处理大型代码库或大量长文档。OpenAI-MRCR 多轮指代消解评估中，GPT-4.1 能够在复杂的上下文中准确识别并区分多个相似请求。Graphwalks 多跳长文本推理评估中，GPT-4.1 实现了 61.7% 的准确率，展现出强大的长文本推理能力。Thomson Reuters 在使用 CoCounsel 法律助理工具时发现，GPT-4.1 在多文档审查中的准确率比 GPT-4o 提高 17%，能够可靠地在多个来源之间保持上下文并准确识别文档之间的细微关系。Carlyle 使用 GPT-4.1 从多个长文档中提取详细财务数据，其内部评估显示，该模型在从大型文档中检索数据方面的表现比其他模型高出 50%，成功克服了其他模型的局限性。

在图像理解方面，GPT-4.1 系列模型表现出色，GPT-4.1 mini 在图像基准测试中经常超越 GPT-4o。例如，在 MMMU 测试中，GPT-4.1 的准确率为 74.8%，GPT-4.1 mini 的准确率为 72.7%，而 GPT-4o 的准确率为 68.7%。在 MathVista 测试中，GPT-4.1 的准确率为 72.2%，GPT-4.1 mini 的准确率为 73.1%，而 GPT-4o 的准确率为 61.4%。在 CharXiv-Reasoning 测试中，GPT-4.1 的准确率为 56.7%，GPT-4.1 mini 的准确率为 56.8%，而 GPT-4o 的准确率为 52.7%。此外，在 Video-MME 长视频理解测试中，GPT-4.1 的准确率达到 72.0%，比 GPT-4o 的 65.3% 有显著提升。

GPT-4.1 系列模型现已向所有开发者开放，其价格因效率提升而降低。GPT-4.1 的输入成本为每百万 token 2.00 美元，输出成本为每百万 token 8.00 美元，综合定价为每百万 token 1.84 美元。GPT-4.1 mini 的输入成本为每百万 token 0.40 美元，输出成本为每百万 token 1.60 美元，综合定价为每百万 token 0.42 美元。GPT-4.1 nano 的输入成本为每百万 token 0.10 美元，输出成本为每百万 token 0.40 美元，综合定价为每百万 token 0.12 美元。对于重复传递相同上下文的查询，OpenAI 将这些新模型的提示缓存折扣提高到 75%，并且长文本请求不收取额外费用。此外，这些模型还支持批量 API，可享受额外 50% 的定价折扣。

#OpenAI #AI

https://openai.com/index/gpt-4-1/

Openai

Introducing GPT-4.1 in the API

Introducing GPT-4.1 in the API—a new family of models with across-the-board improvements, including major gains in coding, instruction following, and long-context understanding. We’re also releasing our first nano model. Available to developers worldwide…

94 views00:52

Levix 空间站

WebTUI – 一个将终端 UI 的美带到浏览器的 CSS 库

#CSS #前端

https://webtui.ironclad.sh/

94 views00:57

Levix 空间站

我放弃了笔记本电脑，转而使用了一台口袋大小的迷你电脑和一副 AR 眼镜

这种组合不仅让安东尼能够随时随地工作，还极大地提升了工作效率和灵活性。

安东尼原本习惯在多屏幕的办公桌前工作，但出行时无法携带整套设备。尽管他尝试过使用笔记本电脑，但发现其仍需搭配额外的外接设备，这与便携初衷相悖。于是，他开始寻找更轻便的解决方案。在测试了多款迷你电脑后，他选择了 Khadas Mind 2S，这款迷你电脑不仅性能强大，还具备高度的便携性，其尺寸仅为 5.75 x 4.13 x 0.79 英寸，并且配备了 USB-C 接口用于供电和视频输出，非常适合移动办公。

此外，安东尼还搭配了一款名为 Xreal One 的 AR 眼镜。这款眼镜内置了 X1 空间计算芯片，能够提供 3 自由度的追踪功能，并且支持从标准 16:9 显示切换到超宽模式。与 Meta Quest 3 或苹果的 Vision Pro 不同，Xreal One 没有内置电池，这不仅减轻了重量，还避免了充电的麻烦，让其更适合随时使用。

为了确保设备在无电源插座的情况下也能正常运行，安东尼选择了一款容量为 25,000 mAh 的 Ugreen Nexode 便携充电宝。这款充电宝具备两个 USB-C 接口，其中一个能够输出 100 瓦的功率，另一个则可提供 140 瓦的功率，足以同时为迷你电脑和 AR 眼镜供电。其内置的显示屏还能实时显示剩余电量和各连接设备的功率消耗情况。

在实际使用中，安东尼发现这套组合在多种场景下都表现出色。在咖啡店中，他能够通过调整 AR 眼镜的透明度，既专注于工作，又能随时观察周围环境。而在飞机上，尽管空间有限，他依然能够利用这套设备完成复杂的任务，如撰写文章和编辑稿件。此外，他提到，相比传统笔记本电脑，迷你电脑和 AR 眼镜的组合能够提供更接近桌面电脑的使用体验，同时还能根据个人喜好更换键盘和鼠标，进一步提升了工作效率。

安东尼的这一尝试表明，随着技术的不断进步，未来的移动办公设备可能会朝着更加轻便、高效和个性化的方向发展。

#效率 #工作

https://www.tomsguide.com/computing/i-ditched-my-laptop-for-a-pocketable-mini-pc-and-a-pair-of-ar-glasses-heres-what-happened

111 views01:03

Levix 空间站

为 AI Agents 重新设计一切的竞赛已经开始

Tina He 探讨了随着 AI 代理的崛起，企业和开发者需要重新思考产品设计和用户体验。她指出，AI 代理正在独立完成诸如选择供应商、谈判交易、阅读文档和编写代码等任务，未来 AI 将成为重要的用户和决策者。为了在这一新兴市场中取得成功，企业和开发者需要关注三个关键维度：为代理设计可解释性、优化“代理注意力”以及创建人机协作模型。

在开发工具方面，传统的以人类开发者为中心的设计理念需要转变为同时考虑 AI 代理的需求。例如，文档需要具备机器可读性，API 需要标准化，且必须提供明确的指令流程和丰富的元数据，以便 AI 代理能够快速理解和使用工具。随着模型上下文协议（MCP）的发展，AI 代理能够更便捷地与外部工具和服务进行交互，这要求开发者更加注重代理体验（AX），确保代理能够高效、准确地完成任务，且无需人工干预。

在内容和用户参与方面，AI 代理的注意力与人类用户截然不同。AI 代理更关注数据的结构化和语义清晰度，而非吸引人的标题或视觉效果。因此，内容管理系统需要重新设计，以生成语义化的元数据，并优化嵌入结构，以便 AI 代理能够更好地理解和推荐内容。同时，广告和营销策略也需要调整，以适应 AI 代理的推荐逻辑，确保产品能够被 AI 系统准确识别和推荐。

Tina 还提出了四个创业机会：AI 优化的内容系统、可组合工具市场、代理分析平台以及AI 之间的谈判协议。这些领域都存在巨大的市场潜力，早期进入者有机会定义行业标准并建立竞争优势。例如，AI 优化的内容系统可以自动为内容生成语义元数据，帮助 AI 更准确地理解内容；可组合工具市场则可以为 AI 代理提供一个发现和集成工具的平台。

企业需要为 AI 优先的未来做好准备，包括培养更好的人机协作模式、提前考虑伦理和法律问题，以及培养既懂领域知识又懂 AI 技术的复合型人才。AI 代理已经成为现实中的用户和客户，未来十年，企业需要赢得这些算法用户的信任，才能在市场中立足。

#AI #Agents

https://every.to/thesis/the-race-is-on-to-redesign-everything-for-ai-agents

Every

The Race Is On to Redesign Everything for AI Agents

There are billion-dollar markets to be seized—if you can learn to see like an agent.

119 views00:54

Levix 空间站

Agentic AI 的崛起可能是互联网回归本质的契机

随着代理型人工智能（Agentic AI）的兴起，互联网可能会迎来一种新的形式回归。过去 25 年间，网络设计师和营销人员一直专注于如何吸引并留住访问网站的用户，通常默认这些用户是人类。然而，随着越来越多的网络流量来自代理型 AI 机器人，这种情况正在发生变化。例如，未来人们购买巴黎机票时，可能不再需要亲自前往类似 Kayak 的网站，而是由个性化的 AI 助手根据家庭日程匹配航班、寻找优惠并快速呈现结果，这种技术已经接近实现。

Gartner 预测，到 2028 年，33% 的企业软件应用将包含代理型 AI，而 2024 年这一比例还不到 1%；AI 代理机器客户将取代人类可读数字店面 20% 的交互。这意味着，三分之一的网站访问将来自没有“眼睛”的实体，而五分之一的购物行为将由 AI 代理完成，且在销售过程中没有直接的人类互动或情感参与。

在这种趋势下，营销人员和广告技术从业者需要重新思考未来的策略。广告支持的网站可能不再像现在这样有效，但这也为提升人类体验提供了机会。未来，零售和消费类网站将不再以交易为核心，而是变得更加注重信息性、品牌化和沉浸感。例如，《纽约时报》网站已经从单纯的新闻标题发展为一个包含食谱、社区评论、多媒体文章和游戏的沉浸式体验平台，这种转变正是为了吸引人类用户，而非 AI 代理。

此外，未来网站将更加强调文字内容，包括详细的产品描述、博客文章、品牌故事等，因为大型语言模型（LLM）依赖文字及其向量数学，文字在代理型互联网中将变得更加重要。尽管 AI 代理的普及可能会引发数据所有权和使用权的新挑战，但这也为互联网回归早期那种充满个性和人类情感的网站提供了机会，让人们可以逃离被 AI 机器人主导的社交媒体环境。

#AI #Agents

https://www.adweek.com/programmatic/agentic-ai-internet-return-to-form/

Adweek

The Agentic AI Era Could Be the Internet's Return to Form

Anticipating more web traffic from bots is an opportunity to elevate the human experience.

160 views01:01

Levix 空间站

牙痛了好几天，周报今天更新🤡

92 views00:44

Levix 空间站

OpenRouter 是一个为大型语言模型（LLM）提供统一接口的平台，旨在通过整合多种模型和提供商，为用户提供高效、灵活且成本可控的 AI 解决方案。该平台支持超过 300 款模型和 50 多个活跃的提供商，每月处理的 Token 数量高达 5.6 万亿，拥有 150 万全球用户。

OpenRouter 的核心优势在于其 “一个 API 接口适用于所有模型” 的设计理念。用户可以通过单一接口访问所有主流模型，且 OpenAI SDK 可无缝对接。

#AI #Tools

https://openrouter.ai/

OpenRouter

The unified interface for LLMs. Find the best models & prices for your prompts

89 views00:52

About

Blog

Apps

Platform