Claude Fable 5 登顶 AI 竞技场,多项指标创纪录
据最新 Agent Arena 榜单,Anthropic 推出的 Claude Fable 5 以 11.2% 的综合净提升登顶,刷新历史最大分差纪录。该模型在任务成功率和好评投诉比两项关键指标上分别领先 18.2% 和 30.6%,同时包揽 Code Arena 和 Text Arena 榜首。在实际应用中,Fable 5 可快速生成网页版 Windows、模拟流体动画、运行神经网络可视化等复杂任务。发布 24 小时内,其每日 Token 处理量达 2050 亿,超过 Opus 4.8,但定价翻倍。从迭代速度看,Anthropic 模型发布间隔从 42 天缩至 12 天,加速趋势明显。 #AI #Claude #Anthropic #大模型 #智能体 #评测 #科技新闻
据最新 Agent Arena 榜单,Anthropic 推出的 Claude Fable 5 以 11.2% 的综合净提升登顶,刷新历史最大分差纪录。该模型在任务成功率和好评投诉比两项关键指标上分别领先 18.2% 和 30.6%,同时包揽 Code Arena 和 Text Arena 榜首。在实际应用中,Fable 5 可快速生成网页版 Windows、模拟流体动画、运行神经网络可视化等复杂任务。发布 24 小时内,其每日 Token 处理量达 2050 亿,超过 Opus 4.8,但定价翻倍。从迭代速度看,Anthropic 模型发布间隔从 42 天缩至 12 天,加速趋势明显。 #AI #Claude #Anthropic #大模型 #智能体 #评测 #科技新闻
Anthropic 撤回可能“破坏”使用 Claude 的 AI 研究人员政策
据报道,AI 公司 Anthropic 近期撤回了一项引发争议的政策,该政策原本可能对使用其模型 Claude 的研究人员构成“破坏性”影响。此前,Anthropic 试图限制研究人员对 Claude 进行某些类型的测试或分析,引发学界不满,认为这会严重阻碍独立安全研究。在多方压力下,Anthropic 最终撤销了相关条款,并表示将重新审视其研究访问政策,以确保在保护知识产权与支持学术自由之间取得平衡。这一事件凸显了 AI 公司与研究社区之间在模型透明度与安全评估方面的紧张关系。 #Anthropic #Claude #AI安全 #研究政策 #学术自由 #大模型 #科技新闻
据报道,AI 公司 Anthropic 近期撤回了一项引发争议的政策,该政策原本可能对使用其模型 Claude 的研究人员构成“破坏性”影响。此前,Anthropic 试图限制研究人员对 Claude 进行某些类型的测试或分析,引发学界不满,认为这会严重阻碍独立安全研究。在多方压力下,Anthropic 最终撤销了相关条款,并表示将重新审视其研究访问政策,以确保在保护知识产权与支持学术自由之间取得平衡。这一事件凸显了 AI 公司与研究社区之间在模型透明度与安全评估方面的紧张关系。 #Anthropic #Claude #AI安全 #研究政策 #学术自由 #大模型 #科技新闻
Xcode 27 原生集成谷歌 Gemini,三大 AI 编程智能体齐聚苹果开发平台
据科技媒体报道,苹果在 Xcode 27 Beta 更新中新增对谷歌 Gemini 的原生支持,使其成为继 OpenAI Codex 和 Anthropic Claude Agent 之后第三个内置的 AI 编程智能体。开发者无需切换工具或窗口,即可在 Xcode 内完成复杂的多步骤开发任务,包括构建新功能、代码审查和 Bug 修复等。通过 Xcode 的 Intelligence 设置面板配置 Gemini 后,智能体能够理解项目上下文,辅助生成样板代码,并依据项目文档和文件结构更新整个项目。此次集成进一步丰富了苹果开发平台的 AI 编程生态,有望显著提升开发效率。 #Xcode #Gemini #AI编程 #苹果 #开发者 #科技新闻 #大模型 #编程智能体
据科技媒体报道,苹果在 Xcode 27 Beta 更新中新增对谷歌 Gemini 的原生支持,使其成为继 OpenAI Codex 和 Anthropic Claude Agent 之后第三个内置的 AI 编程智能体。开发者无需切换工具或窗口,即可在 Xcode 内完成复杂的多步骤开发任务,包括构建新功能、代码审查和 Bug 修复等。通过 Xcode 的 Intelligence 设置面板配置 Gemini 后,智能体能够理解项目上下文,辅助生成样板代码,并依据项目文档和文件结构更新整个项目。此次集成进一步丰富了苹果开发平台的 AI 编程生态,有望显著提升开发效率。 #Xcode #Gemini #AI编程 #苹果 #开发者 #科技新闻 #大模型 #编程智能体
IAPO:面向小型多模态智能体工具使用的输入归因感知策略优化
该论文提出了一种名为IAPO(输入归因感知策略优化)的新方法,旨在提升小型多模态智能体在使用外部工具时的决策能力。传统策略优化方法难以有效区分不同输入特征对工具调用决策的贡献,导致智能体在复杂任务中表现不佳。IAPO通过引入输入归因机制,使模型能够学习哪些输入模态或特征对工具选择最为关键,并据此优化策略梯度。实验表明,该方法在多个标准基准测试上显著提升了小型多模态智能体的工具使用准确率和任务完成效率,同时保持了较低的参数量和计算开销。该研究为资源受限场景下多模态智能体的实用化部署提供了新思路。 #人工智能 #多模态 #智能体 #策略优化 #工具使用 #IAPO #机器学习 #论文
该论文提出了一种名为IAPO(输入归因感知策略优化)的新方法,旨在提升小型多模态智能体在使用外部工具时的决策能力。传统策略优化方法难以有效区分不同输入特征对工具调用决策的贡献,导致智能体在复杂任务中表现不佳。IAPO通过引入输入归因机制,使模型能够学习哪些输入模态或特征对工具选择最为关键,并据此优化策略梯度。实验表明,该方法在多个标准基准测试上显著提升了小型多模态智能体的工具使用准确率和任务完成效率,同时保持了较低的参数量和计算开销。该研究为资源受限场景下多模态智能体的实用化部署提供了新思路。 #人工智能 #多模态 #智能体 #策略优化 #工具使用 #IAPO #机器学习 #论文
DeepRHP 混合变分自编码器
来自 arXiv 预印本平台的一篇新论文提出名为 DeepRHP 的混合变分自编码器,用于设计能够模拟蛋白质的随机杂聚物。该方法通过深度学习模型学习序列-结构关系,生成具有特定功能的聚合物,有望在生物材料、药物递送等领域替代天然蛋白质。论文由 Shuni Li 等五位作者完成,于2026年6月提交。该研究为高分子设计提供了全新计算范式,结合变分自编码器与混合损失函数,实现了对聚合物序列的高效优化。实验表明,DeepRHP 设计的杂聚物在结构和功能上接近天然蛋白质,且具备更好的可调性与稳定性。 #深度学习 #蛋白质模拟 #聚合物设计 #变分自编码器 #生物材料 #AI #arXiv #论文
来自 arXiv 预印本平台的一篇新论文提出名为 DeepRHP 的混合变分自编码器,用于设计能够模拟蛋白质的随机杂聚物。该方法通过深度学习模型学习序列-结构关系,生成具有特定功能的聚合物,有望在生物材料、药物递送等领域替代天然蛋白质。论文由 Shuni Li 等五位作者完成,于2026年6月提交。该研究为高分子设计提供了全新计算范式,结合变分自编码器与混合损失函数,实现了对聚合物序列的高效优化。实验表明,DeepRHP 设计的杂聚物在结构和功能上接近天然蛋白质,且具备更好的可调性与稳定性。 #深度学习 #蛋白质模拟 #聚合物设计 #变分自编码器 #生物材料 #AI #arXiv #论文
结构保持神经代理模型实现可处理的不确定性量化
arXiv近期预印本平台收录了一篇由Handi Zhang等人提交的论文,题为《结构保持神经代理模型与可处理的不确定性量化》。该研究提出了一种新型神经网络架构,旨在构建物理或工程系统的代理模型时保留其内在的几何或物理结构,同时引入可计算的不确定性量化方法。论文讨论了该模型在复杂系统仿真中的潜在优势,特别是在保证预测精度和可靠性方面的进展。作者团队来自相关领域,论文已获arXiv编号,并提供了PDF及HTML预览。该工作有望为科学计算与机器学习交叉领域提供新工具,尤其适用于需要高置信度预测的工程应用。 #学术论文 #神经网络 #不确定性量化 #结构保持 #arXiv #机器学习 #科学计算
arXiv近期预印本平台收录了一篇由Handi Zhang等人提交的论文,题为《结构保持神经代理模型与可处理的不确定性量化》。该研究提出了一种新型神经网络架构,旨在构建物理或工程系统的代理模型时保留其内在的几何或物理结构,同时引入可计算的不确定性量化方法。论文讨论了该模型在复杂系统仿真中的潜在优势,特别是在保证预测精度和可靠性方面的进展。作者团队来自相关领域,论文已获arXiv编号,并提供了PDF及HTML预览。该工作有望为科学计算与机器学习交叉领域提供新工具,尤其适用于需要高置信度预测的工程应用。 #学术论文 #神经网络 #不确定性量化 #结构保持 #arXiv #机器学习 #科学计算
新论文提出在策略蒸馏中的鲁棒内化方法
据arXiv预印本,一篇题为《When Context Returns: Toward Robust Internalization in On-Policy Distillation》的论文由Xun Wang等四位作者提交。该研究聚焦于在策略蒸馏(on-policy distillation)框架下,如何使模型在面对上下文信息回归时实现鲁棒内化(robust internalization),从而提升知识迁移的稳定性。论文探讨了蒸馏过程中上下文信息动态变化对模型性能的影响,并提出相应策略以增强模型在不同环境下的适应能力。这一工作有望为强化学习与知识蒸馏领域提供新的理论视角和技术路径。 #arXiv #论文 #知识蒸馏 #强化学习 #AI研究 #机器学习
据arXiv预印本,一篇题为《When Context Returns: Toward Robust Internalization in On-Policy Distillation》的论文由Xun Wang等四位作者提交。该研究聚焦于在策略蒸馏(on-policy distillation)框架下,如何使模型在面对上下文信息回归时实现鲁棒内化(robust internalization),从而提升知识迁移的稳定性。论文探讨了蒸馏过程中上下文信息动态变化对模型性能的影响,并提出相应策略以增强模型在不同环境下的适应能力。这一工作有望为强化学习与知识蒸馏领域提供新的理论视角和技术路径。 #arXiv #论文 #知识蒸馏 #强化学习 #AI研究 #机器学习
信息论分解方法助力多模态交互学习研究
近日,一篇题为“Information-Theoretic Decomposition for Multimodal Interaction Learning”的论文在arXiv预印本平台发布。该论文由Zequn Yang等五位作者完成,提交于2026年6月10日。论文提出了一种基于信息论的多模态交互学习分解方法,旨在更有效地理解和建模不同模态之间的交互关系。该研究有望推动多模态人工智能系统的发展,为视觉、语言等多模态融合任务提供新的理论框架。目前,论文已开放PDF全文下载,并获得了学术界的关注。 #多模态学习 #信息论 #人工智能 #arXiv #论文 #机器学习 #AI研究
近日,一篇题为“Information-Theoretic Decomposition for Multimodal Interaction Learning”的论文在arXiv预印本平台发布。该论文由Zequn Yang等五位作者完成,提交于2026年6月10日。论文提出了一种基于信息论的多模态交互学习分解方法,旨在更有效地理解和建模不同模态之间的交互关系。该研究有望推动多模态人工智能系统的发展,为视觉、语言等多模态融合任务提供新的理论框架。目前,论文已开放PDF全文下载,并获得了学术界的关注。 #多模态学习 #信息论 #人工智能 #arXiv #论文 #机器学习 #AI研究
大型语言模型驱动的物理蒸馏神经网络,助力制造过程属性预测建模
近日,一篇题为《Physics-Distilled Neural Network enabled by Large Language Models for Manufacturing Process-Property Predictive Modeling》的论文提交至arXiv预印本平台。该研究由Ge Song等五位作者完成,旨在利用大型语言模型(LLM)实现物理知识的蒸馏,构建面向制造过程属性预测的神经网络模型。传统物理建模往往依赖大量实验与领域知识,而数据驱动方法又缺乏可解释性。作者提出将LLM作为知识抽取工具,从文献或专家描述中提取物理规律,并融入神经网络训练,从而在保证预测精度的同时增强模型的可解释性与泛化能力。该方法有望在材料加工、工艺优化等工业场景中降低建模成本,提升预测效率。论文已开放PDF全文供学术社区参考。 #AI #机器学习 #制造 #物理蒸馏 #大语言模型 #神经网络 #过程建模 #工智能 #论文
近日,一篇题为《Physics-Distilled Neural Network enabled by Large Language Models for Manufacturing Process-Property Predictive Modeling》的论文提交至arXiv预印本平台。该研究由Ge Song等五位作者完成,旨在利用大型语言模型(LLM)实现物理知识的蒸馏,构建面向制造过程属性预测的神经网络模型。传统物理建模往往依赖大量实验与领域知识,而数据驱动方法又缺乏可解释性。作者提出将LLM作为知识抽取工具,从文献或专家描述中提取物理规律,并融入神经网络训练,从而在保证预测精度的同时增强模型的可解释性与泛化能力。该方法有望在材料加工、工艺优化等工业场景中降低建模成本,提升预测效率。论文已开放PDF全文供学术社区参考。 #AI #机器学习 #制造 #物理蒸馏 #大语言模型 #神经网络 #过程建模 #工智能 #论文
Kuramoto Attention
近日,一篇题为《Kuramoto Attention: Synchronizing Self-Attention on the Torus》的预印本论文在arXiv上公开发布。论文作者Joshua Nunley提出了一种将Kuramoto模型与自注意力机制相结合的新方法,旨在通过环面(torus)上的同步动力学改进注意力计算。Kuramoto模型是一种经典的同步现象数学模型,常被用于描述耦合振荡器的集体行为。该研究将这一理论引入深度学习领域,探索如何使注意力头之间实现更高效的同步,从而提升Transformer架构的性能。目前论文尚未提供开源代码或详细实验数据,但已引起学术界的关注。研究人员认为,这一方向可能为增强注意力机制的可解释性和计算效率提供新思路。 #AI #深度学习 #注意力机制 #Kuramoto模型 #arXiv #论文
近日,一篇题为《Kuramoto Attention: Synchronizing Self-Attention on the Torus》的预印本论文在arXiv上公开发布。论文作者Joshua Nunley提出了一种将Kuramoto模型与自注意力机制相结合的新方法,旨在通过环面(torus)上的同步动力学改进注意力计算。Kuramoto模型是一种经典的同步现象数学模型,常被用于描述耦合振荡器的集体行为。该研究将这一理论引入深度学习领域,探索如何使注意力头之间实现更高效的同步,从而提升Transformer架构的性能。目前论文尚未提供开源代码或详细实验数据,但已引起学术界的关注。研究人员认为,这一方向可能为增强注意力机制的可解释性和计算效率提供新思路。 #AI #深度学习 #注意力机制 #Kuramoto模型 #arXiv #论文
LLM
研究人员提出一种创新的图学习范式,即通过大型语言模型(LLM)与图神经网络(GNN)的协同教学来替代传统“金标准教师”模式。该研究认为,传统依赖单一预训练教师模型的方式限制了图学习在复杂场景下的泛化能力,而LLM与GNN的互补特性——LLM擅长语义理解与推理,GNN擅长结构化信息建模——能够实现更有效的知识迁移与联合优化。实验表明,该协同教学框架在多个图学习基准任务上取得了显著性能提升,尤其是在零样本和少样本场景下优势明显。这一工作为图学习与语言模型的深度结合提供了新思路,有望推动知识图谱、推荐系统等领域的进一步发展。 #图学习 #LLM #GNN #协同教学 #人工智能 #机器学习 #知识图谱
研究人员提出一种创新的图学习范式,即通过大型语言模型(LLM)与图神经网络(GNN)的协同教学来替代传统“金标准教师”模式。该研究认为,传统依赖单一预训练教师模型的方式限制了图学习在复杂场景下的泛化能力,而LLM与GNN的互补特性——LLM擅长语义理解与推理,GNN擅长结构化信息建模——能够实现更有效的知识迁移与联合优化。实验表明,该协同教学框架在多个图学习基准任务上取得了显著性能提升,尤其是在零样本和少样本场景下优势明显。这一工作为图学习与语言模型的深度结合提供了新思路,有望推动知识图谱、推荐系统等领域的进一步发展。 #图学习 #LLM #GNN #协同教学 #人工智能 #机器学习 #知识图谱
APEX:专为无线边缘运营设计的网络原生时间序列基础模型
该论文提出了APEX,一种专为无线边缘运营设计的网络原生时间序列基础模型,主要用于预测和异常检测。APEX由Swadhin Pradhan、Niloo Bahadori和Peiman Amini共同完成,在arXiv上提交,状态为“等待注册”。该模型针对无线边缘环境中的时间序列数据特点进行了优化,能够有效提升预测准确性和异常检测效率。论文详细介绍了模型架构、训练方法及其在无线网络运营中的潜在应用,为边缘计算和网络运维提供了新的解决方案。 #APEX #时间序列 #基础模型 #无线边缘 #预测 #异常检测 #网络运营 #arXiv #AI #论文
该论文提出了APEX,一种专为无线边缘运营设计的网络原生时间序列基础模型,主要用于预测和异常检测。APEX由Swadhin Pradhan、Niloo Bahadori和Peiman Amini共同完成,在arXiv上提交,状态为“等待注册”。该模型针对无线边缘环境中的时间序列数据特点进行了优化,能够有效提升预测准确性和异常检测效率。论文详细介绍了模型架构、训练方法及其在无线网络运营中的潜在应用,为边缘计算和网络运维提供了新的解决方案。 #APEX #时间序列 #基础模型 #无线边缘 #预测 #异常检测 #网络运营 #arXiv #AI #论文
用推理智能体进行大规模反例引导学习
近日,一篇题为《Counterexample Guided Learning in the Large using Reasoning Agents》的论文在arXiv预印本平台上线。该研究由Hongyi Liu等四位作者共同完成,主要探讨如何利用推理智能体在大型系统中进行反例引导学习。反例引导学习是一种通过寻找反例来迭代改进模型或程序正确性的方法,而借助推理智能体,该方法有望扩展到更大规模、更复杂的问题领域。论文可能涉及将形式化验证、自动推理与机器学习相结合,以提升系统可靠性和鲁棒性。目前论文以PDF和HTML格式提供,并附有源代码及相关引用链接。该工作对人工智能安全性、形式化验证以及自动程序修复等领域具有潜在参考价值。 #arXiv #反例引导学习 #推理智能体 #机器学习 #形式化验证 #AI安全 #学术论文
近日,一篇题为《Counterexample Guided Learning in the Large using Reasoning Agents》的论文在arXiv预印本平台上线。该研究由Hongyi Liu等四位作者共同完成,主要探讨如何利用推理智能体在大型系统中进行反例引导学习。反例引导学习是一种通过寻找反例来迭代改进模型或程序正确性的方法,而借助推理智能体,该方法有望扩展到更大规模、更复杂的问题领域。论文可能涉及将形式化验证、自动推理与机器学习相结合,以提升系统可靠性和鲁棒性。目前论文以PDF和HTML格式提供,并附有源代码及相关引用链接。该工作对人工智能安全性、形式化验证以及自动程序修复等领域具有潜在参考价值。 #arXiv #反例引导学习 #推理智能体 #机器学习 #形式化验证 #AI安全 #学术论文
SirenFNO
一篇题为《SirenFNO: Efficient and Full Frequency Learning of Fourier Neural Operators》的论文于2026年6月9日提交至arXiv预印本平台。该论文由Pengqing Shi等四位作者完成,提出了一种名为SirenFNO的新型神经网络架构,旨在解决傅里叶神经算子(FNO)在全频率学习中的效率瓶颈。传统FNO在处理高频成分时往往计算成本高昂或精度不足,SirenFNO通过引入正弦激活函数与频率自适应机制,实现了对全频段特征的高效捕获,在保持较低计算开销的同时显著提升了模型对复杂物理场(如流体动力学、弹性力学)的逼近能力。该工作为科学计算与偏微分方程求解领域提供了新的工具,有望加速相关工业仿真与工程优化进程。 #论文 #AI #机器学习 #傅里叶神经算子 #科学计算 #SirenFNO #arXiv #深度学习
一篇题为《SirenFNO: Efficient and Full Frequency Learning of Fourier Neural Operators》的论文于2026年6月9日提交至arXiv预印本平台。该论文由Pengqing Shi等四位作者完成,提出了一种名为SirenFNO的新型神经网络架构,旨在解决傅里叶神经算子(FNO)在全频率学习中的效率瓶颈。传统FNO在处理高频成分时往往计算成本高昂或精度不足,SirenFNO通过引入正弦激活函数与频率自适应机制,实现了对全频段特征的高效捕获,在保持较低计算开销的同时显著提升了模型对复杂物理场(如流体动力学、弹性力学)的逼近能力。该工作为科学计算与偏微分方程求解领域提供了新的工具,有望加速相关工业仿真与工程优化进程。 #论文 #AI #机器学习 #傅里叶神经算子 #科学计算 #SirenFNO #arXiv #深度学习
概率对比预训练用于多任务ADME属性预测
来自arXiv预印本的一篇新论文提出了一种名为概率对比预训练(Probabilistic Contrastive Pretraining)的方法,用于多任务ADME属性预测。ADME即药物在体内的吸收、分布、代谢和排泄特性,是药物研发中至关重要的环节。该研究由Yifan Xue等五位作者完成,旨在通过对比学习和概率建模,提升模型在不同ADME任务间的泛化能力。传统的预训练方法往往忽略任务间的不确定性差异,而新方法通过引入概率分布,更有效地捕捉多任务间的共享与特有信息。实验结果显示,该方法在多项ADME预测基准上取得了显著提升,为计算机辅助药物设计提供了更高效的解决方案。目前该论文已可在arXiv上获取全文。 #药物研发 #ADME #对比学习 #概率建模 #多任务学习 #AI #arXiv
来自arXiv预印本的一篇新论文提出了一种名为概率对比预训练(Probabilistic Contrastive Pretraining)的方法,用于多任务ADME属性预测。ADME即药物在体内的吸收、分布、代谢和排泄特性,是药物研发中至关重要的环节。该研究由Yifan Xue等五位作者完成,旨在通过对比学习和概率建模,提升模型在不同ADME任务间的泛化能力。传统的预训练方法往往忽略任务间的不确定性差异,而新方法通过引入概率分布,更有效地捕捉多任务间的共享与特有信息。实验结果显示,该方法在多项ADME预测基准上取得了显著提升,为计算机辅助药物设计提供了更高效的解决方案。目前该论文已可在arXiv上获取全文。 #药物研发 #ADME #对比学习 #概率建模 #多任务学习 #AI #arXiv