Levix 空间站
883 subscribers
214 photos
10 videos
20 files
1.18K links
主要分享前端、AI 以及前沿科技资讯。

🚫 禁止人身攻击:请在评论区保持尊重和友好,避免不当言论和负面互动。

🚫 禁止违规内容:请勿发布任何黄赌毒、宗教极端、政治敏感或其他违反社区规定的内容。
主要分享前端以及业界科技资讯。

🚫 禁止广告与刷屏:为了维护良好的交流环境,请不要进行任何形式的广告推广、黑产活动、刷屏行为及发布不适内容。

🔒 保护个人信息:请注意个人隐私和网络安全,不要在评论区泄露个人信息或点击不明链接。
Download Telegram
Gemini 2.5 Pro 和 Claude 3.7 Sonnet 两款模型编码能力的对比评测。Gemini 2.5 Pro 是谷歌于 2025 年 3 月 26 日推出的实验性思维模型,声称在编码、推理和整体性能方面表现卓越;而 Claude 3.7 Sonnet 则是在 2025 年 2 月底发布的模型,此前一直被认为是顶尖的编码模型。

评测结果显示,Gemini 2.5 Pro 在编码方面表现更胜一筹,其上下文窗口达到 100 万,相比之下,Claude 3.7 Sonnet 的上下文窗口为 20 万。此外,Gemini 2.5 Pro 在软件工程师基准测试(SWE bench)中的准确率为 63.8%,高于 Claude 3.7 Sonnet 的 62.3%。

在具体的编码测试中,Gemini 2.5 Pro 在多个任务中均展现出较高的性能。例如,在创建一个简单的飞行模拟器任务中,Gemini 2.5 Pro 生成的代码能够完美实现功能,包括飞机的移动和类似《我的世界》风格的方块建筑;而在解决复杂的 3D 魔方可视化和求解任务时,Gemini 2.5 Pro 也能够一次性正确完成,相比之下,Claude 3.7 Sonnet 则在颜色处理和求解过程中出现了问题。

尽管 Claude 3.7 Sonnet 在某些任务中也表现出色,例如在创建一个球体在旋转的四维超立方体中反弹的任务中,其生成的代码能够正确实现功能,但在处理复杂的 LeetCode 问题时,Claude 3.7 Sonnet 的代码虽然正确,但出现了超时(TLE)问题,而 Gemini 2.5 Pro 则能够正确且高效地完成任务。

总结来看,Gemini 2.5 Pro 在编码能力上优于 Claude 3.7 Sonnet,尤其是在处理复杂任务和生成高效代码方面表现突出。此外,Gemini 2.5 Pro 还具有免费使用的优势,这使得其在当前阶段成为更推荐的选择。

#AI #Gemini #Claude

https://composio.dev/blog/gemini-2-5-pro-vs-claude-3-7-sonnet-coding-comparison/
软件工程师如何获取更多经验以促进职业发展。

Ivanov 指出,获取经验的核心在于解决问题,解决的问题越多,经验就越丰富,且不存在获取经验的捷径,必须投入时间和精力。但可以通过一些方法提高投资回报率,确保所投入的时间有助于职业发展。

经验来源于面对新情况和挑战并积极解决它们,从每个结果中学习。工作年限并不一定与经验质量成正比,关键在于经验的质量而非数量。要获得更多技术经验,需接触各种软件相关问题并努力解决。

Ivanov 分享了五种获取经验的途径:

1. 工作:在成长型公司工作,可不断面临新问题,部分公司还允许更换领域和团队,从而获得多样化经验。若公司问题单一,则难以充分利用工作时间获取经验。

2. 个人项目:Ivanov 曾共同创立三个技术初创公司,从构思到产品发布再到与客户交流,学习了众多知识,包括市场营销、销售、与其他软件工程师合作、任务分配、项目管理、部署等。

3. 开源:阅读开源代码库和查看问题,能了解他人的代码和思维方式,看到有趣的模式、好的和坏的实践,从而学习如何解决问题以及如何避免错误。例如 Ivanov 阅读过 Flowbite、React-Query、Material UI 等代码库,但需理解所读内容,避免模仿不良代码。

4. 成为特定领域的专家:Ivanov 专注于 React 和 Node.js,并结合良好的软件设计和架构实践。通过深入学习 React 和 Node.js,掌握创建优质界面和后端的技能,同时学习良好代码和架构的构建方法,进而对相关问题有了深入了解。遇到不知道的问题也是解决问题、获取经验的机会,Ivanov 还据此撰写了一本关于 React 架构、设计和清晰代码的书,将解决问题转化为机会。

5. 写作:Ivanov 通过撰写博客记录学习、发现和解决问题的过程,写作时需深入探究主题,从而接触到更多问题,写作有助于澄清思路和思维方式。

#编码 #软件开发

https://thetshaped.dev/p/how-to-get-experience-as-a-software-engineer
Playwright MCP 是一个由微软开发的 Model Context Protocol(模型上下文协议)服务器,它利用 Playwright 提供浏览器自动化能力。该服务器使语言模型(LLM)能够通过结构化的可访问性快照与网页交互,无需依赖截图或视觉模型。

#AI #MCP #自动化测试

https://github.com/microsoft/playwright-mcp
2025 年 Vue.js 发展状况报告

Vue.js 从一个有潜力的项目发展成为最受欢迎的前端框架之一,Monterail 作为其长期参与者,见证了其演变过程。报告由 Vue 和 Nuxt 核心团队共同创作,包含 16 个真实案例研究,涵盖 GitLab、Hack The Box 等知名品牌,展示 Vue 和 Nuxt 解决复杂问题的能力。开发者调查收集了 1400 多名专业人士的数据,涵盖 Vue 和 Nuxt 的使用情况、面临挑战及改进建议。

Vue.js 的流行度持续上升,93.4% 的开发者可能在下一个项目中使用 Vue,高于 2021 年的 90%。80% 的开发者表示会再次使用 Vue,高于 2021 年的 74%。

2023 年 12 月,Vue 2 结束生命周期,团队专注于 Vue 3 的进一步开发。2024 年,Vue 3.4 和 3.5 版本发布,带来性能提升和功能改进,如模板解析器重写、响应式系统重构、SSR 改进等。Vue Devtools v7 发布,专为 Vue 3 设计,性能和内存使用得到优化。VitePress 1.0 发布,成为 VuePress 的现代替代品。Nuxt 在 2024 年迎来 8 周年,发布了多个小版本更新,包括日志改进、API 增强、路由分组等功能。Nuxt v4 即将发布,部分功能已通过配置标志可供测试。

根据 Statista 调查,Vue 在全球开发者中的使用率排名第八,15.4% 的受访者在过去一年中使用 Vue 并计划在未来一年继续使用。BuiltWith 数据显示,Vue.js 网站数量在过去两年从 200 万增长到 330 万,总网站数量(包括历史数据)超过 800 万。NPM Charts 显示,Vue 的每周下载量为 640 万,是第二受欢迎的框架,仅次于 React。SimilarTech 数据显示,Vue 网站数量自 2022 年以来增长了 14.9%。Stack Overflow 开发者调查中,Vue 是第四受开发者欢迎的框架,17.42% 的开发者表示想要使用 Vue。Vue 在 Stack Overflow 趋势中的使用率自 2016 年以来稳步上升,但近年来趋于平稳。W3Techs 数据显示,Vue.js 在高流量网站中表现强劲,但整体采用率仍低于 jQuery 和 Bootstrap。GitHub 星星数据显示,Vue 在 2017-2018 年超过 React,近两年在总星星数上领先。Google Trends 显示,Vue 的搜索兴趣在过去五年中相对稳定但呈下降趋势。在社交媒体方面,Vue 在 Reddit 和 X 上的关注者数量持续增长。

调查收集了 1428 名专业人士的反馈,其中 91.6% 是软件开发者或首席技术官。96% 的参与者正在使用 Vue 3.x,93% 的受访者表示很有可能在下一个项目中使用 Vue.js。82% 的开发者选择 TypeScript 作为 JavaScript 的首选语言。80% 的受访者使用 Pinia 进行全局状态管理。68% 的受访者在 Vue 项目中使用了 Nuxt。53% 的开发者使用 Vue 超过 4 年。开发者对 Vue.js 的使用时长、学习资源、未来使用概率、前端和后端技术栈等方面进行了反馈。

在 Vue.js 的生态系统中,Pinia 的使用率大幅上升,成为 80% 开发者首选的全局状态管理工具,而 Vuex 的使用率则下降至 38.4%。

Vue 3 迁移不仅是技术更新,更是战略升级。尽管 Vue 2 在 2023 年 12 月结束生命周期,但仍有部分公司未能完成迁移。迁移至 Vue 3 可带来性能提升、安全修复、新功能支持等益处。然而,迁移过程中面临诸多挑战,如大型代码库、时间预算限制、缺乏经验、依赖项兼容性问题等。Monterail 通过实际项目经验,总结了 Vue 3 迁移的策略和最佳实践,包括逐步迁移、代码审查、性能优化等。Books、Coursedog、GitLab 等公司分享了他们在迁移过程中的经验教训。

Hack The Box、GitLab、Storyblok、Booksy、DocPlanner 等公司分享了他们在使用 Vue.js 构建大型项目中的经验。这些项目涵盖了从网络安全平台到医疗预约系统的多种应用场景,展示了 Vue.js 在性能、可扩展性和开发效率方面的优势。

Vue.js 的未来充满希望。随着 Vapor Mode 等新特性的推出,Vue.js 将在性能和开发体验上继续提升。Vue.js 社区的持续增长和贡献也将推动框架的进一步发展。Vue.js 将继续在前端开发领域保持领先地位,为开发者提供强大而灵活的工具。

#Vue #报告

https://www.monterail.com/stateofvue
Meta Llama 4 系列发布,标志着原生多模态人工智能创新新时代的开始。

该系列包含 Llama 4 Scout(17B 参数、16 个专家)和 Llama 4 Maverick(17B 参数、128 个专家)两个高效模型,采用混合专家(MoE)架构和早期融合技术,支持多语言文本和图像输入,以及多语言文本和代码输出,知识截止日期为 2024 年 8 月。

Llama 4 Scout 是一款拥有 17B 活跃参数和 16 个专家的模型,能够在单个 NVIDIA H100 GPU 上运行。它在同类多模态模型中表现卓越,超越了 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1 等模型。该模型还具备行业领先的 1000 万字的上下文窗口,能够处理更长的文本输入,适用于多文档总结、个性化任务处理和大规模代码推理等场景。

Llama 4 Maverick 同样拥有 17B 活跃参数,但配备了 128 个专家,其性能在多模态模型中处于顶尖水平,超越了 GPT-4o 和 Gemini 2.0 Flash 等模型,并在推理和编码方面与 DeepSeek v3 相当,但参数量不到后者的一半。该模型在成本效益方面表现出色,其实验性聊天版本在 LMArena 的评分达到了 1417 分。

这些模型的强大能力得益于 Llama 4 Behemoth 的知识蒸馏。Llama 4 Behemoth 是一款拥有 288B 活跃参数和 16 个专家的模型,其总参数量接近 2 万亿,是目前世界上最强大的语言模型之一。它在多项 STEM 基准测试中超越了 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro 等模型。

Llama 4 系列模型采用了混合专家(MoE)架构,这种架构通过仅激活部分参数来提高计算效率。例如,Llama 4 Maverick 的总参数量为 4000 亿,但每次推理时仅激活 170 亿参数。此外,Llama 4 系列还支持原生多模态,能够将文本和视觉信息无缝融合到一个模型框架中,支持对大量无标签文本、图像和视频数据的联合预训练。

Meta 还强调了对模型安全性和可靠性的重视。Llama 4 系列在开发过程中集成了多种安全机制,包括数据过滤、系统级防护工具(如 Llama Guard、Prompt Guard 和 CyberSecEval)以及针对偏见问题的改进。Llama 4 在处理有争议的政治和社会问题时表现出更少的偏见,拒绝回答的比例从 Llama 3.3 的 7% 降低到不到 2%,并且在回应不同观点时更加平衡。

#Meta #Llama #LLM

https://ai.meta.com/blog/llama-4-multimodal-intelligence/
在 DeepSearch 中使用 DeepSeek R1 推理模型替代标准 LLM 的可行性。

DeepSearch 是一个在给定最大 token 限额的情况下,通过在搜索、阅读和思考之间循环来寻找最佳答案的系统。DeepSeek R1 作为代理的引擎,需要借助 Jina 的 Reader API 来扩展其搜索和抓取网页的功能。由于 R1 的上下文窗口有限,还需要使用 LangChain 递归字符文本分割器和 Jina Reranker 等工具来处理和选择最相关的信息。状态用于跟踪任务状态和模型需要分析及更新的知识,这些信息存储在提示词中。提示词采用 Jinja 模板格式,包含上下文、说明、状态、工具输出等部分,模型需要按照特定的 JSON 格式进行响应。

以规划三天假期为例,模型最终给出了一个预算约 600 至 800 欧元的克里特岛假期计划,包括航班和酒店推荐。然而,模型在处理时效性信息和验证信息准确性方面存在不足。例如,航班价格信息未准确验证,酒店价格信息也未完全获取。

Jina 提出了潜在改进方向,包括跟踪记忆块数量以提示模型总结条目、指示模型穷尽所有线索、强调验证时效性信息、确保模型二次检查结果以及使用支持更大上下文窗口的未来推理模型等。

尽管 DeepSeek R1 在推理方面表现出色,但在处理搜索和记忆任务方面存在局限性。该实验为增强推理型 LLM 以处理复杂搜索任务提供了基准,但也凸显了模型训练重点与不同领域应用之间的差距。

#DeepSeek #AI #DeepSearch

https://jina.ai/news/using-deepseek-r1-reasoning-model-in-deepsearch/
OpenAI Academy 是一个致力于帮助人们掌握 AI 知识与技能的平台,旨在解锁 AI 时代带来的机遇。该平台通过专家和社区引领的学习方式,让参与者能够与 OpenAI 专家及外部创新者互动,探索 AI 的实际应用和行业最新趋势。参与者可以在此建立有意义的人际关系,与同行、创新者和行业领导者通过讨论、共享学习和社区驱动项目进行合作,从而保持在 AI 领域的领先地位,直接从 OpenAI 专家处了解新产品和前沿解决方案,为创新做好准备。

#OpenAI #AI #教程

https://academy.openai.com/
GitHub MCP Server 是一个官方的 Model Context Protocol (MCP) 服务器,可用于自动化 GitHub 工作流和流程、从 GitHub 仓库中提取和分析数据,以及构建与 GitHub 生态系统交互的 AI 驱动工具和应用程序。支持通过 Docker 安装运行,也提供了在 VS Code 和 Claude Desktop 中的使用方法。如果用户没有 Docker,还可以使用 Go 语言从源代码构建二进制文件。

#Github #MCP

https://github.com/github/github-mcp-server
多模态大模型与Prompt工程在前端自动化中的融合探索

个人观点:想法挺好的,有点好奇的是后续这些 AI 用例可以如何持续迭代下去,如果每次修改都依赖这么多模型能力,其实一个用例的成本也不小

回归测试是软件质量保障的核心环节,尤其在前端领域,随着功能迭代和多终端适配需求的增加,传统回归测试面临效率低下和维护成本高昂的问题。自动化测试框架如 Selenium 和 Cypress 虽然提高了效率,但也存在静态定位符脆弱、动态内容处理困难、验证逻辑精细化不足等问题。这些问题导致传统回归测试难以适应前端智能化的演进趋势,而多模态大模型的出现为解决这一问题提供了新思路。

多模态大模型(MM-LLMs)结合了大语言模型和多模态处理能力,能够理解和生成自然语言文本,同时处理图像、音频等多种模态数据。在前端自动化测试中,MM-LLMs 的两个核心作用是基于自然语义的动线识别和图像分析对比。

动线识别:通过自然语言描述引导模型自动分析用户动线,例如使用 Qwen2.5 VL 模型,仅需一句“进入‘广发上海金 ETF 联接 A’的基金详情页”,模型即可自动完成从启动应用到进入目标页面的操作,无需人工指定具体路径和元素。

图像分析对比:使用 Doubao-1.5-vision-pro 等视觉模型,可以对页面进行单场景分析或多图对比,验证页面元素和功能是否符合预期。例如,通过比较两张不同时间的基金详情页图片,模型能够识别出业绩数值和曲线的变化,同时忽略时间跨度导致的差异。

Prompt 工程是通过预置规则对模型能力进行定向激活的技术体系。在前端回归测试中,Prompt 的设计过程包括场景识别、要素拆解和模块组装三个关键环节。

结构化 Prompt 演进:通过角色扮演建立认知框架,通过规则描述划定能力边界,通过输出示例明确结果范式。例如,在测试基金详情页时,将人工校验流程抽象为元素级校验、组件级断言和业务流验证的三级规则体系,并通过层级目录结构进行封装。

回归测试的提示词设计三步走:首先将人工校验流程拆解并抽象为规则体系;其次按照目录结构进行分层;最后抽取和封装验证内容,形成可执行的 Prompt。例如,校验“南方天天利货币 B”个基页数据时,需要递归多个目录内容,生成包含所有规则的 Prompt。

通过 Q1 的工程实践,雪球 QA 团队验证了多模态大模型在前端自动化测试中的可行性,但也认识到 AI 技术落地需要系统工程能力与技术敏感度的双重加持。未来,团队将继续优化多模型协同机制,提升本地化适配能力,并通过 Prompt 工程优化和私有化部署等手段,构建 AI 测试增强框架,助力业务快速验证目标。

#AI #测试 #自动化

https://mp.weixin.qq.com/s/gDCZDZWevsdhYCG_pr_uyw
VIBE Coding(也叫 “氛围编码” 或 “感觉编码”)是一种新兴的编程方式,核心理念是利用人工智能(特别是大型语言模型,LLM)来生成代码,而开发者只需用自然语言描述他们想要实现的功能或想法,不必亲自编写具体的代码。这种方法由计算机科学家 Andrej Karpathy 在 2025 年 2 月提出,他将其描述为 “完全沉浸于感觉中,拥抱指数级增长,甚至忘记代码的存在”。Andrej 认为,随着 AI 技术的进步,人们不再需要学习传统编程语言,只需用自然语言指挥计算机即可。VIBE Coding 的名字带有一种轻松、随性的意味,反映了它与传统严谨编码的区别。

具体特点:

1. 自然语言驱动:开发者不用写代码,而是用日常语言(比如英语)告诉 AI 想要什么,例如 “做一个显示天气的网页” 或 “把侧边栏的间距减半”。AI 会根据描述生成相应的代码。

2. AI 主导代码生成:AI 工具(如 Cursor Composer 或 Claude)负责将人的意图转化为可运行的程序,开发者更多扮演指导者和监督者的角色。

3. 接受不完美:VIBE Coding 的一个关键点是,开发者可能不会完全理解 AI 生成的代码,甚至不仔细检查它,而是直接接受并运行,出了问题再通过迭代调整。

4. 快速迭代:这种方式强调快速试错和调整,适合原型设计或小型项目,而不是追求一开始就完美的代码。

#AI

https://x.com/karpathy/status/1886192184808149383
模型上下文协议标志着 AI 产品的模式转变

人工智能产品的用户体验不再局限于屏幕和按钮,模型正在成为用户界面。Anthropic 在 2024 年 11 月发布的 MCP 是这一模式转变的明确信号。未来,每个应用程序都将成为人工智能应用程序,不是因为它们都采用人工智能,而是因为人工智能学会成为每个应用程序的高级用户。像 AI Dungeon、Jasper.ai 和 GitHub Copilot 这样的应用程序在上一个周期中很有影响力,但它们现在已经失去了相关性,被更通用的界面所取代。这些产品都采用了将模型嵌入在应用程序内部、通过固定提示和应用程序特定逻辑来控制模型的方式,模型并不直接暴露给用户。

当前“代理”(agents)的概念更多是用于搜索引擎优化的关键词,而非具有实际意义的术语。许多流行的代理框架(如 LangChain 和 AutoGPT)并没有代表一种全新的使用人工智能的模式,它们只是用于协调的框架,通过静态的提示链、记忆、检索器和工具调用来增强功能。这些系统通常会在孤立的环境中执行目标,并且经常过早地将用户排除在外。它们通过递归循环和提示变异来模拟自主性,但实际上会导致行为脆弱、递归失败以及偏离用户意图等问题。

在下一个周期中,人工智能产品将采用更具互动性的结构。人类将在实时提供高层次的意图,而模型将自主采取行动来实现这些意图。模型将通过利用外部工具来采取这些行动,这种模式既保留了用户的清晰度和控制权,又让人类负责引导方向,模型负责执行。目前,将用户保留在循环中并让模型负责执行而非目的,是更符合人们期望的设计。未来,模型本身将成为主要的用户界面,用户将不再从应用程序内部开始任务,而是从 ChatGPT、Claude、Grok 等集中式助手开始工作。这些助手将成为用户思考和行动的默认界面。用户希望将整个项目委托给他们每天使用的模型,而不是将人工智能嵌入应用程序中。

MCP 的引入是人工智能发展的一个重要里程碑。它是一个标准化协议,旨在明确定义人工智能模型如何与外部应用程序和工具进行通信和交互。通过标准化这些交互,MCP 直接解决了早期代理框架(如 LangChain 或 AutoGPT)中出现的脆弱且不一致的集成问题。这种标准化至关重要,因为它使人工智能产品能够可靠且可预测地在多个应用程序中协调任务,确保用户意图能够被一致地转化为有效行动。MCP 的灵感来源于语言服务器协议(Language Server Protocol,简称 LSP),LSP 在 Visual Studio Code 成为代码编辑器中的主导产品中发挥了关键作用。如果 LSP 对开发工具产生的变革性影响可以作为参考,那么 MCP 将会引发巨大的变革。MCP 已经被主要的人工智能平台(如 Anthropic、Cursor 和 OpenAI)所采用。MCP 服务器已经展示了显著的价值,例如 GitHub MCP 服务器允许程序员通过人工智能模型无缝管理代码库并自动化提交操作;Blender MCP 服务器使用户能够通过简单的提示控制三维建模任务,极大地简化了复杂的图形工作流程。此外,像 smithery.ai 这样的产品允许高级用户为支持它们的应用程序添加 MCP 服务器,并简化了 MCP 服务器的分发。

MCP 所代表的结构转变对构建者有着深远的影响。人工智能界面本身正在成为主要的产品,而传统应用程序则转变为后端服务。构建者将越来越多地专注于创建易于人工智能模型访问的表面,而不是构建全栈应用程序。应用程序的价值将取决于它与模型驱动的工作流程集成和增强的有效性,而不仅仅是直接的用户交互。

对于正在构建人工智能产品的开发者,Ergodic 给出了一些建议:构建可被模型调用的工具表面而非完整的应用程序;随着 MCP 的采用增加,需要共享的执行层,以便模型可以在工具之间操作并协调代理;需要发明一个新的用户体验(UX)堆栈,其中模型是用户,人类是辅助者;在新世界中,用户界面是暂时的,上下文是持久的,拥有专有上下文(数据、工作流程、结构化环境)的产品将定义下一个可防御的层次。

#AI #趋势 #MCP

https://ergodiclabs.github.io/blog/posts/ai-mode-shift-2025-03/
Browser MCP 是一款用于浏览器的自动化工具,旨在帮助用户将 AI 应用与浏览器连接起来,从而实现网页任务的自动化操作。用户可以通过安装 Browser MCP 扩展程序并设置 MCP 服务器,使 AI 应用能够控制浏览器,完成诸如自动测试、数据收集、表单填写等重复性任务。

#MCP #AI #Tools

https://browsermcp.io/
最近 AI 模型的进步感觉就像胡说八道

lc 及其团队于九个月前启动了一个利用 AI 模型自主监控大型代码库以发现安全问题的项目,试图用 AI 替代部分人类渗透测试人员的工作。项目始于 2024 年 6 月,最初使用 Claude 3.5 sonnet 模型,发现其在内部基准测试中表现优异,不仅基本错误更少,漏洞描述和严重性估计也更具质量,似乎能更好地从不完整信息中推断提示背后的意图和价值。

然而,自 Claude 3.5 sonnet 之后,尽管有许多新的 AI 模型发布并声称有所改进,但 lc 的团队在内部基准测试和开发人员实际使用中发现,这些新模型并没有带来显著的性能提升。除了 Claude 3.6 有小幅提升和 Claude 3.7 的微小改进外,其他新模型,包括新的 OpenAI 测试时模型,都没有在内部基准测试或开发人员发现新漏洞的能力上带来重大变化。

目前的基准测试大多无法反映 AI 模型在实际应用中的表现。许多基准测试类似于标准化考试,只关注模型在特定学术问题或软件工程挑战上的表现,而忽略了模型在更广泛任务中的能力。例如,Humanity's Last Exam(HLE)等基准测试虽然有趣,但无法测试模型在实际任务中的表现,如完成 Upwork 任务、玩游戏或组织军事行动等。未来评估 AI 能力时,应更多关注类似 Claude Plays Pokemon 这样的基准测试,这些测试更能反映模型在长任务中的表现,而不仅仅是短期的、孤立的任务。

lc 还探讨了 AI 实验室是否存在作弊行为的可能性。由于 AI 实验室的创始人认为他们正处于一场关乎未来控制权的竞争中,因此有强烈的动机夸大其模型的性能。尽管存在这种可能性,但 lc 认为完全依靠作弊来解释性能提升是不合理的,因为一些基准测试(如 SEAL)确实显示出模型的改进。

在代码安全检测中,模型往往会报告潜在问题,而不是确认代码是否安全。这是因为模型被训练成在对话中“显得聪明”,而不是真正解决问题。这种行为在与用户直接交互时可能只是一个小问题,但在将模型集成到更大系统中时,可能会导致问题。尽管 AI 模型在某些基准测试中表现有所提升,但这些提升并没有转化为实际应用中的显著改进。lc 呼吁需要更有效的基准测试来衡量 AI 模型的真实能力,并强调在将 AI 集成到社会系统中时,需要确保其行为符合人类的价值观和目标。

#AI #模型

https://www.lesswrong.com/posts/4mvphwx5pdsZLMmpY/recent-ai-model-progress-feels-mostly-like-bullshit
Git 诞生 20 年,从一个简单的内容管理工具成长为全球最广泛使用的版本控制系统之一。

So, happy birthday Git. You are still weird. You are still wonderful.

20 年前的今天,Linus Torvalds 做出了 Git 的第一次提交,当时 Git 只是一个小型的个人项目,但如今它已成为最强大的版本控制系统。Scott Chacon 与 Git 的渊源颇深,他在 Git 初期就开始使用它,并且参与了 GitHub 的创立,还撰写了广受欢迎的《Pro Git》一书,为推广 Git 做出了重要贡献。

Git 的诞生源于 Linux 内核开发社区对版本控制和协作的不满。当时,内核社区主要通过邮件列表进行协作,这种方式虽然高效,但现有的版本控制系统功能不足,无法满足需求。因此,Linus Torval 决定开发 Git,最初的目标是更好地管理补丁和 tarball(一种压缩文件),而不是作为一个版本控制系统。Git 的数据结构设计(如文件树的链表、内容可寻址的 blob 存储)从一开始就确定了,并且一直延续至今。

Git 的第一次提交,当时的 Git 只是一个简单的“愚蠢内容跟踪器”,包含七个基础工具,例如 write-tree 和 commit-tree。这些工具后来逐渐演变为 Git 的底层命令,如 git cat-file 和 git write-tree。从第一天起,Git 就能够构建“快照”、记录变更集,并读取数据库结构。

Scott 还分享了自己最初接触 Git 的经历。他和同事 Nick Hengeveld 在一家名为 Reactrix 的初创公司工作时,将 Git 用作分布式内容跟踪器,而不是版本控制系统。他们利用 Git 的高效性来更新数字广告内容,通过 Git 的内容可寻址文件系统,实现了对大量资产的高效管理和更新。

Git 如何从一个底层工具逐渐发展为一个完整的版本控制系统。最初,Git 的命令非常底层,许多功能是通过脚本实现的。例如,最早的 git log 是一个简单的脚本,调用了 git-rev-list 命令。而 git rebase 的诞生则源于 Junio 和 Linus 在 2005 年关于工作流程的讨论,Junio 提供了一个简单的脚本,首次引入了“rebase”这个概念。

GitHub 的吉祥物“Octocat”(章鱼猫)的由来。在 Git 的早期邮件列表中,“octopus”一词被用来描述一种多父节点的合并策略,GitHub 的创始人之一 Tom 在寻找适合 Git 的吉祥物时,选择了“章鱼”这一形象,并最终确定了可爱的“Octocat”形象。

#Git

https://blog.gitbutler.com/20-years-of-git/