Claude Fable 5 登顶 AI 竞技场,多项指标断崖式领先
据最新发布的 Agent Arena“智能体竞技场”榜单,Anthropic 的 Claude Fable 5 一举超越 GPT-5.5 和自家 Opus-4.8 登顶,实现高达 11.2% 的综合净提升,创下该榜单史上最大分差。在任务成功率和用户好评与投诉比这两个关键维度上,Fable 5 分别领先 18.2% 和 30.6%,展现出断崖式优势。此外,它在 Code Arena 和 Text Arena 编码及文本竞技中均夺魁,前端代码胜率高达 72%,工具幻觉项排名第一。第三方评测中,Fable 5 在 Artificial Analysis 智能指数获 64.9 分,在真实任务评测 GDPval-AA 榜单中 Elo 评分达 1932,均大幅领先。实际演示中,它能快速生成模拟流体消融动画、完整的网页版 Windows 系统、经典游戏《我的世界》和《上古卷轴》的互动版本,甚至能在浏览器中实时运行神经网络模型。价格方面,Fable 5 定价为每百万 Token 10/50 美元,是 Opus-4.8 的两倍,但发布 24 小时内处理 Token 量已达 2050 亿,远超 Opus-4.8 的 1470 亿。值得注意的是,从 Opus 4.8 到 Fable 5 的迭代仅相隔 12 天,Anthropic 的发布节奏正显著加速。 #AI #大模型 #Claude #Anthropic #智能体 #科技新闻 #人工智能 #AgentArena
据最新发布的 Agent Arena“智能体竞技场”榜单,Anthropic 的 Claude Fable 5 一举超越 GPT-5.5 和自家 Opus-4.8 登顶,实现高达 11.2% 的综合净提升,创下该榜单史上最大分差。在任务成功率和用户好评与投诉比这两个关键维度上,Fable 5 分别领先 18.2% 和 30.6%,展现出断崖式优势。此外,它在 Code Arena 和 Text Arena 编码及文本竞技中均夺魁,前端代码胜率高达 72%,工具幻觉项排名第一。第三方评测中,Fable 5 在 Artificial Analysis 智能指数获 64.9 分,在真实任务评测 GDPval-AA 榜单中 Elo 评分达 1932,均大幅领先。实际演示中,它能快速生成模拟流体消融动画、完整的网页版 Windows 系统、经典游戏《我的世界》和《上古卷轴》的互动版本,甚至能在浏览器中实时运行神经网络模型。价格方面,Fable 5 定价为每百万 Token 10/50 美元,是 Opus-4.8 的两倍,但发布 24 小时内处理 Token 量已达 2050 亿,远超 Opus-4.8 的 1470 亿。值得注意的是,从 Opus 4.8 到 Fable 5 的迭代仅相隔 12 天,Anthropic 的发布节奏正显著加速。 #AI #大模型 #Claude #Anthropic #智能体 #科技新闻 #人工智能 #AgentArena
Visa与OpenAI合作共建AI代理支付基础设施
全球支付巨头Visa宣布与OpenAI达成战略合作,共同为AI代理商业场景建设支付基础设施。根据协议,Visa将向OpenAI旗下服务开放其支付网络、令牌化和风险管理能力,为AI代理发起的交易提供安全、顺畅的支付支持。所有交易需受用户预设的支出限额、商户类别和审批条件约束,并通过支付信息令牌化和实时欺诈监测保障安全。该合作是Visa“智能商业”计划的一部分,双方还将围绕Codex等企业级应用及自动化工作流探索更多场景。Visa全球产品与战略负责人表示,AI对商业的影响将超越互联网或移动技术,双方正共同打造可信的交易基础设施。OpenAI商务合作负责人称,借助Visa整合,OpenAI正推进建设安全、透明且可控的代理交易基础设施。该合作在“2026 Visa Payments Forum”上公布,Visa还同步发布了Agent Score、Agentic Directory及大规模交易模型等新功能。 #Visa #OpenAI #AI代理 #支付基础设施 #智能商业 #科技合作 #金融科技
全球支付巨头Visa宣布与OpenAI达成战略合作,共同为AI代理商业场景建设支付基础设施。根据协议,Visa将向OpenAI旗下服务开放其支付网络、令牌化和风险管理能力,为AI代理发起的交易提供安全、顺畅的支付支持。所有交易需受用户预设的支出限额、商户类别和审批条件约束,并通过支付信息令牌化和实时欺诈监测保障安全。该合作是Visa“智能商业”计划的一部分,双方还将围绕Codex等企业级应用及自动化工作流探索更多场景。Visa全球产品与战略负责人表示,AI对商业的影响将超越互联网或移动技术,双方正共同打造可信的交易基础设施。OpenAI商务合作负责人称,借助Visa整合,OpenAI正推进建设安全、透明且可控的代理交易基础设施。该合作在“2026 Visa Payments Forum”上公布,Visa还同步发布了Agent Score、Agentic Directory及大规模交易模型等新功能。 #Visa #OpenAI #AI代理 #支付基础设施 #智能商业 #科技合作 #金融科技
加拿大出台法案拟禁止16岁以下儿童使用社交媒体,加强AI聊天机器人监管
加拿大政府于6月10日提出一项数字安全法案,拟禁止16岁以下儿童使用社交媒体,但符合特定安全标准的平台可获豁免。该法案还计划设立数字监管机构,为AI聊天机器人制定安全标准。违规企业将面临全球营收3%或最高1000万加元罚款。加拿大官员表示,社交媒体和AI聊天机器人设计旨在吸引注意力,不利于儿童健康发展,导致焦虑、抑郁等心理健康问题。此前,加拿大一起大规模枪击案家属起诉OpenAI,指控其知情但未报警。澳大利亚已于去年率先实施青少年社交媒体禁令,法国、丹麦、波兰等国也在考虑类似措施。专家认为,加拿大法案比澳大利亚更全面,涉及平台义务重新设计,并涵盖AI领域。 #加拿大 #社交媒体 #AI聊天机器人 #儿童保护 #数字安全 #立法 #OpenAI
加拿大政府于6月10日提出一项数字安全法案,拟禁止16岁以下儿童使用社交媒体,但符合特定安全标准的平台可获豁免。该法案还计划设立数字监管机构,为AI聊天机器人制定安全标准。违规企业将面临全球营收3%或最高1000万加元罚款。加拿大官员表示,社交媒体和AI聊天机器人设计旨在吸引注意力,不利于儿童健康发展,导致焦虑、抑郁等心理健康问题。此前,加拿大一起大规模枪击案家属起诉OpenAI,指控其知情但未报警。澳大利亚已于去年率先实施青少年社交媒体禁令,法国、丹麦、波兰等国也在考虑类似措施。专家认为,加拿大法案比澳大利亚更全面,涉及平台义务重新设计,并涵盖AI领域。 #加拿大 #社交媒体 #AI聊天机器人 #儿童保护 #数字安全 #立法 #OpenAI
Xcode 27 原生集成谷歌 Gemini,三大 AI 智能体齐聚苹果平台
据科技媒体 9to5Mac 报道,在最新发布的 Xcode 27 Beta 版本中,苹果新增了对谷歌 Gemini AI 的原生支持,使其成为继 OpenAI Codex 和 Anthropic Claude Agent 之后,第三个内置在 Xcode 中的 AI 编程智能体。开发者无需切换应用或窗口,即可在 Xcode 内完成构建新功能、审查代码、修复 Bug 等复杂多步骤开发任务。通过 Xcode Intelligence 设置面板配置 Gemini 后,智能体能够理解项目上下文,辅助生成样板代码,并能根据项目文档和文件结构实现整个项目的更新。这一集成进一步丰富了苹果开发平台的 AI 生态,为开发者提供了更多样化的编程辅助选择,有望显著提升 iOS/macOS 应用的开发效率。 #Xcode #Gemini #AI编程 #苹果 #开发者 #智能体 #科技 #苹果生态 #开发工具
据科技媒体 9to5Mac 报道,在最新发布的 Xcode 27 Beta 版本中,苹果新增了对谷歌 Gemini AI 的原生支持,使其成为继 OpenAI Codex 和 Anthropic Claude Agent 之后,第三个内置在 Xcode 中的 AI 编程智能体。开发者无需切换应用或窗口,即可在 Xcode 内完成构建新功能、审查代码、修复 Bug 等复杂多步骤开发任务。通过 Xcode Intelligence 设置面板配置 Gemini 后,智能体能够理解项目上下文,辅助生成样板代码,并能根据项目文档和文件结构实现整个项目的更新。这一集成进一步丰富了苹果开发平台的 AI 生态,为开发者提供了更多样化的编程辅助选择,有望显著提升 iOS/macOS 应用的开发效率。 #Xcode #Gemini #AI编程 #苹果 #开发者 #智能体 #科技 #苹果生态 #开发工具
Claude Fable 5 登顶 AI 竞技场,多项指标创纪录
据最新 Agent Arena 榜单,Anthropic 推出的 Claude Fable 5 以 11.2% 的综合净提升登顶,刷新历史最大分差纪录。该模型在任务成功率和好评投诉比两项关键指标上分别领先 18.2% 和 30.6%,同时包揽 Code Arena 和 Text Arena 榜首。在实际应用中,Fable 5 可快速生成网页版 Windows、模拟流体动画、运行神经网络可视化等复杂任务。发布 24 小时内,其每日 Token 处理量达 2050 亿,超过 Opus 4.8,但定价翻倍。从迭代速度看,Anthropic 模型发布间隔从 42 天缩至 12 天,加速趋势明显。 #AI #Claude #Anthropic #大模型 #智能体 #评测 #科技新闻
据最新 Agent Arena 榜单,Anthropic 推出的 Claude Fable 5 以 11.2% 的综合净提升登顶,刷新历史最大分差纪录。该模型在任务成功率和好评投诉比两项关键指标上分别领先 18.2% 和 30.6%,同时包揽 Code Arena 和 Text Arena 榜首。在实际应用中,Fable 5 可快速生成网页版 Windows、模拟流体动画、运行神经网络可视化等复杂任务。发布 24 小时内,其每日 Token 处理量达 2050 亿,超过 Opus 4.8,但定价翻倍。从迭代速度看,Anthropic 模型发布间隔从 42 天缩至 12 天,加速趋势明显。 #AI #Claude #Anthropic #大模型 #智能体 #评测 #科技新闻