甲骨文云支持通过现有承诺访问OpenAI模型与Codex
甲骨文公司宣布,企业客户现可通过自身的Oracle云基础设施(OCI)承诺来访问OpenAI系列模型及Codex。这意味着客户可以利用已有的云资源预算,在甲骨文提供的企业级安全与治理框架下,直接构建和部署AI应用。该集成允许开发者调用GPT等大语言模型进行文本生成、推理分析,以及使用Codex完成代码自动编写。甲骨文强调,此举旨在降低企业采用AI的门槛,同时确保数据隐私、合规性和安全管控不受影响。通过将OpenAI能力嵌入OCI平台,企业无需额外签署独立协议或迁移数据,即可享受混合云环境下的AI服务。这一合作将进一步推动大模型在金融服务、医疗健康和制造业等对安全要求严格的行业的落地。 #甲骨文 #OpenAI #Codex #企业AI #云服务 #安全治理
甲骨文公司宣布,企业客户现可通过自身的Oracle云基础设施(OCI)承诺来访问OpenAI系列模型及Codex。这意味着客户可以利用已有的云资源预算,在甲骨文提供的企业级安全与治理框架下,直接构建和部署AI应用。该集成允许开发者调用GPT等大语言模型进行文本生成、推理分析,以及使用Codex完成代码自动编写。甲骨文强调,此举旨在降低企业采用AI的门槛,同时确保数据隐私、合规性和安全管控不受影响。通过将OpenAI能力嵌入OCI平台,企业无需额外签署独立协议或迁移数据,即可享受混合云环境下的AI服务。这一合作将进一步推动大模型在金融服务、医疗健康和制造业等对安全要求严格的行业的落地。 #甲骨文 #OpenAI #Codex #企业AI #云服务 #安全治理
沃顿教授体验 Anthropic 最强模型 Claude Fable,称其为“真正飞跃”
宾夕法尼亚大学沃顿商学院教授 Ethan Mollick 测试了 Anthropic 最新 Mythos 级模型 Claude Fable 的早期版本,认为它远超所有公开模型。仅用一个提示和一次反馈,该模型便生成了他见过的最复杂的 AI 学术论文,还创作了一首每词以字母 s 开头的十页押韵长诗。它还能调用更便宜的代理收集航班数据,并在九小时后产出研究软件,甚至用数学方法构建图表。Mollick 表示,这种高效的协作令人愉悦又不安,用户仅需提出要求,背后数百个决策由模型自动完成。但该模型价格约为 Opus 的两倍,安全护栏也频繁回退到较弱系统。他感慨一年前还觉得使用 AI 如同施法,如今自己更像在成品上签字的客户。 #Anthropic #Claude #MythosAI #AI大模型 #沃顿商学院 #EthanMollick #人工智能
宾夕法尼亚大学沃顿商学院教授 Ethan Mollick 测试了 Anthropic 最新 Mythos 级模型 Claude Fable 的早期版本,认为它远超所有公开模型。仅用一个提示和一次反馈,该模型便生成了他见过的最复杂的 AI 学术论文,还创作了一首每词以字母 s 开头的十页押韵长诗。它还能调用更便宜的代理收集航班数据,并在九小时后产出研究软件,甚至用数学方法构建图表。Mollick 表示,这种高效的协作令人愉悦又不安,用户仅需提出要求,背后数百个决策由模型自动完成。但该模型价格约为 Opus 的两倍,安全护栏也频繁回退到较弱系统。他感慨一年前还觉得使用 AI 如同施法,如今自己更像在成品上签字的客户。 #Anthropic #Claude #MythosAI #AI大模型 #沃顿商学院 #EthanMollick #人工智能
前沿团队如何重塑AI原生软件开发
前沿团队不再仅仅将AI用于加速编码,而是重新设计软件构建方式。结果实现了4.5倍的生产力提升,某些情况下甚至超过10倍。六名工程师,七十六天,完成了一个原计划需要30名开发人员耗时12至18个月的项目。这不是假设,而是亚马逊Bedrock团队的真实案例。该团队停止将AI视为编码捷径,而是将其作为工作基础,在五个月内交付的生产代码量超过了过去十年的总和。这类团队与其他团队的差距正在迅速扩大。AI编码代理从根本上改变了软件编写速度,但并未改变交付给客户的速度。提交量激增,CI/CD管道空前繁忙,但交付到生产环境的功能并未同步增长。瓶颈不在于代理生成输出的能力,而在于其获取做出正确决策所需知识的权限,以及团队围绕这一现实重构工作的意愿。我们将这些团队称为“前沿团队”,他们不局限于精英实验室,而是遍布各行各业和公司规模,共同点是将AI采用视为工程投资而非工具部署。任何工程团队都能成为前沿团队。 #AI #软件开发 #亚马逊 #前沿团队 #生产力 #工程创新 #技术趋势
前沿团队不再仅仅将AI用于加速编码,而是重新设计软件构建方式。结果实现了4.5倍的生产力提升,某些情况下甚至超过10倍。六名工程师,七十六天,完成了一个原计划需要30名开发人员耗时12至18个月的项目。这不是假设,而是亚马逊Bedrock团队的真实案例。该团队停止将AI视为编码捷径,而是将其作为工作基础,在五个月内交付的生产代码量超过了过去十年的总和。这类团队与其他团队的差距正在迅速扩大。AI编码代理从根本上改变了软件编写速度,但并未改变交付给客户的速度。提交量激增,CI/CD管道空前繁忙,但交付到生产环境的功能并未同步增长。瓶颈不在于代理生成输出的能力,而在于其获取做出正确决策所需知识的权限,以及团队围绕这一现实重构工作的意愿。我们将这些团队称为“前沿团队”,他们不局限于精英实验室,而是遍布各行各业和公司规模,共同点是将AI采用视为工程投资而非工具部署。任何工程团队都能成为前沿团队。 #AI #软件开发 #亚马逊 #前沿团队 #生产力 #工程创新 #技术趋势
我开发了一款 Mac 文件自动化工具,用 AI 替代 Hazel
一位开发者因不堪 Hazel 繁琐的规则配置,耗时六个月自建了一款名为 Orbit 的 Mac 文件自动化应用。该应用的核心特色是支持用户用自然语言描述文件整理需求,AI 会自动生成对应的规则,无需手动设置条件与逻辑树。Orbit 基于 Electron + React + Vite 构建,并坚持使用本地 AI 处理,所有数据不离开用户设备,支持 Apple Intelligence 或本地模型。开发过程中,作者发现文件监控远比想象复杂,需要处理文件写入中、系统临时文件等大量边缘情况,仅排除列表就比核心监控逻辑耗时更长。最终,Orbit 成功上线,实现了“用一句话整理文件”的初衷。 #Mac #文件自动化 #AI #Hazel #Orbit #开发者 #技术分享
一位开发者因不堪 Hazel 繁琐的规则配置,耗时六个月自建了一款名为 Orbit 的 Mac 文件自动化应用。该应用的核心特色是支持用户用自然语言描述文件整理需求,AI 会自动生成对应的规则,无需手动设置条件与逻辑树。Orbit 基于 Electron + React + Vite 构建,并坚持使用本地 AI 处理,所有数据不离开用户设备,支持 Apple Intelligence 或本地模型。开发过程中,作者发现文件监控远比想象复杂,需要处理文件写入中、系统临时文件等大量边缘情况,仅排除列表就比核心监控逻辑耗时更长。最终,Orbit 成功上线,实现了“用一句话整理文件”的初衷。 #Mac #文件自动化 #AI #Hazel #Orbit #开发者 #技术分享
UIUC、Meta、斯坦福联合发布《Code as Agent Harness》综述,重新定义Coding Agent底层逻辑
传统观点认为,强大的Coding Agent只需“写对代码”。然而,以Claude Code、Codex为代表的系统表明,真正关键的在于一套能让模型长期可靠执行任务的底层系统——Agent Harness。UIUC、Meta与斯坦福联合完成的102页综述《Code as Agent Harness》提出核心观点:代码不应只是模型的最终输出,而应成为Agent执行循环中的核心媒介。相比自然语言,代码具备可执行、可检查、有状态三大属性,能将推理、行动、环境建模串联成闭环。在长期任务中,Agent通过Plan-Execute-Verify循环规划、执行、验证并修复;多Agent协作时,代码仓库、测试日志等共享状态比自然语言对话更可靠。这一理念正从代码生成扩展至GUI操作、机器人控制、科学发现等领域,为Agent系统设计提供了全新的底层范式。 #AI #代码智能体 #AgentHarness #大模型 #科研 #UIUC #Meta #斯坦福 #软件工程
传统观点认为,强大的Coding Agent只需“写对代码”。然而,以Claude Code、Codex为代表的系统表明,真正关键的在于一套能让模型长期可靠执行任务的底层系统——Agent Harness。UIUC、Meta与斯坦福联合完成的102页综述《Code as Agent Harness》提出核心观点:代码不应只是模型的最终输出,而应成为Agent执行循环中的核心媒介。相比自然语言,代码具备可执行、可检查、有状态三大属性,能将推理、行动、环境建模串联成闭环。在长期任务中,Agent通过Plan-Execute-Verify循环规划、执行、验证并修复;多Agent协作时,代码仓库、测试日志等共享状态比自然语言对话更可靠。这一理念正从代码生成扩展至GUI操作、机器人控制、科学发现等领域,为Agent系统设计提供了全新的底层范式。 #AI #代码智能体 #AgentHarness #大模型 #科研 #UIUC #Meta #斯坦福 #软件工程
AI 模型跑分高却难干活?新基准 ALE 揭示 Agent 完成专业任务差距
近日,一项名为 ALE 的新基准测试引发关注,它专门评估 AI 代理在完成专业任务时的实际表现。研究发现,许多在传统跑分中表现优异的 AI 模型,在面对真实工作场景时却显得力不从心,暴露出“高分低能”的显著差距。ALE 基准通过模拟复杂、多步骤的专业任务,如数据分析、代码调试和文档撰写,来测试 AI 的规划、工具调用和错误恢复能力。结果显示,当前主流模型在任务完成率和效率上远低于预期,尤其在需要持续推理和适应动态环境时表现不佳。这一发现为 AI 应用落地敲响警钟,提示业界需从单纯追求模型参数和跑分,转向更注重实际任务执行能力的评估体系。 #AI #基准测试 #ALE #大模型 #人工智能 #科技新闻 #任务执行
近日,一项名为 ALE 的新基准测试引发关注,它专门评估 AI 代理在完成专业任务时的实际表现。研究发现,许多在传统跑分中表现优异的 AI 模型,在面对真实工作场景时却显得力不从心,暴露出“高分低能”的显著差距。ALE 基准通过模拟复杂、多步骤的专业任务,如数据分析、代码调试和文档撰写,来测试 AI 的规划、工具调用和错误恢复能力。结果显示,当前主流模型在任务完成率和效率上远低于预期,尤其在需要持续推理和适应动态环境时表现不佳。这一发现为 AI 应用落地敲响警钟,提示业界需从单纯追求模型参数和跑分,转向更注重实际任务执行能力的评估体系。 #AI #基准测试 #ALE #大模型 #人工智能 #科技新闻 #任务执行
Claude 新模型 Fable5 引发 AI 圈关注,聚焦智能体能力升级
Claude 最新模型 Fable5 在 AI 领域引发广泛关注。与以往侧重聊天和推理能力的提升不同,Fable5 更强调长流程任务、复杂规划以及 Agent 场景下的表现,被开发者视为 Claude 在智能体方向的重要升级。该模型在编程开发、多步骤任务执行和工具调用能力上均有显著增强,标志着 AI 模型正从单纯回答问题转向完成任务。Fable5 的实际表现能否使其成为新一代 Agent 的热门选择,以及是否会改变当前 AI 模型的竞争格局,成为业界热议焦点。 #Claude #Fable5 #AI #智能体 #大模型 #科技新闻
Claude 最新模型 Fable5 在 AI 领域引发广泛关注。与以往侧重聊天和推理能力的提升不同,Fable5 更强调长流程任务、复杂规划以及 Agent 场景下的表现,被开发者视为 Claude 在智能体方向的重要升级。该模型在编程开发、多步骤任务执行和工具调用能力上均有显著增强,标志着 AI 模型正从单纯回答问题转向完成任务。Fable5 的实际表现能否使其成为新一代 Agent 的热门选择,以及是否会改变当前 AI 模型的竞争格局,成为业界热议焦点。 #Claude #Fable5 #AI #智能体 #大模型 #科技新闻