Huggingface Daily Papers
3 subscribers
972 photos
972 links
Download Telegram
Stemming Hallucination in Language Models Using a Licensing Oracle

👥 Authors: Simeon Emanuilov, Richard Ackermann

📄 Abstract: 许可预言机是一种架构创新,通过基于结构化知识图谱的形式化验证强制实施真值约束,从而消除语言模型中的幻觉。与统计方法(如微调或RAG)不同,它在生成过程中嵌入了确定性验证步骤,确保仅生成事实准确的陈述。实验表明,其绝对 abstention 精度达到完美(AP = 1.0),虚假答案率完全为零(FAR-NE = 0.0),同时保持89.1%的事实准确率;相比之下,RAG和微调虽能减少但无法消除幻觉。许可预言机在知识密集型领域提供了可保证的真实性,实现了从概率性到逻辑基础的AI生成范式转变。其框架为认识上可靠的AI系统奠定了基础,证明了架构设计而非仅靠数据规模,是实现真值约束语言生成的必要且充分条件。

🔗 Read More: HuggingFace | ArXiv
MADD: Multi-Agent Drug Discovery Orchestra

👥 Authors: Gleb V. Solovev, Alina B. Zhidkovskaya, Anastasia Orlova, Nina Gubina, Anastasia Vepreva et al. (21 authors)

📄 Abstract: MADD 是一个多智能体AI系统,旨在通过整合大语言模型(LLMs)与专用分子模型,提升药物发现中的命中分子识别效率,增强湿实验研究人员的性能与可及性。与复杂且不透明的AI工具不同,MADD 使用四个协同智能体,自主从自然语言查询中生成并筛选新型化合物,实现可定制、可解释的流程。在七个药物发现案例中评估表明,MADD 表现优于现有基于LLM的方法,并成功将AI优先设计应用于五个生物靶点,识别出新型命中分子。为推动领域发展,作者发布了包含超过300万组查询-分子对及其对接分数的新基准,为代理驱动的AI药物设计奠定基础。MADD 缩小了AI能力与实际药物发现流程之间的差距。

📊 👍 29 upvotes | 10 stars

🔗 Read More: HuggingFace | ArXiv | GitHub
Adapting Web Agents with Synthetic Supervision

👥 Authors: Zhaoyang Wang, Yiming Liang, Xuchao Zhang, Qianhui Wu, Siwei Han et al. (12 authors)

📄 Abstract: SynthAgent通过联合优化任务与轨迹,提升网页代理的合成数据质量,以克服生成数据中的幻觉和噪声。现有方法因动作不一致或冗余而产生不可执行的任务和噪声轨迹。SynthAgent采用双阶段优化流程:首先,通过分类的网页元素探索合成多样化、环境特定的任务;随后,在轨迹收集过程中,通过与真实观测对齐,动态修正任务幻觉,保持任务一致性。轨迹收集后,全局上下文轨迹优化消除噪声与不一致。优化后的合成数据用于微调开源网页代理,显著提升其对未知网站的适应能力。实验表明,SynthAgent优于先前的合成监督方法,凸显了高质量优化数据的关键作用。代码详见:https://github.com/aiming-lab/SynthAgent。

📊 👍 1 upvotes | 14 stars

🔗 Read More: HuggingFace | ArXiv | GitHub
Motif 2 12.7B technical report

👥 Authors: Junghwan Lim, Sungmin Lee, Dongseok Kim, Taehyun Kim, Eunhwan Park et al. (22 authors)

📄 Abstract: Motif-2-12.7B 是一种高效开源权重大语言模型,通过架构与系统级创新,在更小的规模下实现竞争力性能。它引入了分组差分注意力(GDA),分离注意力路径中的信号与噪声,提升表征效率。模型在5.5T个涵盖语言、数学、科学与编程领域的令牌上,采用课程驱动调度器进行预训练,并利用MuonClip优化器、融合PolyNorm激活函数和并行Muon算法实现高吞吐、内存高效的训练。后训练阶段采用三阶段监督微调流程,增强指令遵循、组合推理与语言精确性。Motif-2-12.7B在效率上达到业界领先水平,在基准测试中媲美更大模型,证明智能扩展与优化训练可媲美巨型架构,而无需成比例的计算成本。

📊 👍 1 upvotes

🔗 Read More: HuggingFace | ArXiv
Depth Anything 3: Recovering the Visual Space from Any Views

👥 Authors: Haotong Lin, Sili Chen, Junhao Liew, Donny Y. Chen, Zhenyu Li et al. (8 authors)

📄 Abstract: Depth Anything 3(DA3)是一个极简的基于Transformer的模型,能够从任意数量的图像中预测空间一致的3D几何结构,无论是否已知相机位姿。DA3仅采用简单的DINO编码器作为其唯一主干网络,并以单一的深度射线预测为目标,从而无需复杂的多任务学习或架构专门化。该模型通过在公开学术数据上采用教师-学生范式进行训练,在保持与DA2相当的细节和泛化能力的同时,在一个全新的视觉几何基准上取得了新的SOTA结果——相机位姿精度比先前的SOTA模型VGGT提升了44.3%,几何精度提升了25.1%。此外,DA3在单目深度估计上也优于DA2,表明简洁的架构与稳健的训练方法能够在无需领域特定设计的情况下实现更优越的几何推理能力。

📊 👍 1 upvotes

🔗 Read More: HuggingFace | ArXiv
UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

👥 Authors: Zhengyang Liang, Daoan Zhang, Huichi Zhou, Rui Huang, Bobo Li et al. (11 authors)

📄 Abstract: UniVA 是一个开源的多智能体框架,通过“计划-执行”架构将视频理解、分割、编辑和生成统一为连贯的交互式工作流。计划智能体解析用户意图并将其分解为结构化步骤,而执行智能体则利用基于MCP的模块化工具服务器完成分析、生成和跟踪任务。分层记忆(涵盖全局知识、任务上下文和用户偏好)支持长时程推理、上下文连贯性以及可追溯的自反思视频生成。UniVA 支持复杂的多轮工作流(例如,文本/视频条件生成 → 编辑 → 分割 → 合成),克服了单任务模型的局限性。为评估此类系统,作者提出了 UniVA-Bench,一个用于多步视频任务的基准测试。UniVA 和 UniVA-Bench 均已开源,以推动智能体驱动的通用视频人工智能研究。(https://univa.online/)

📊 👍 10 upvotes | 6 stars

🔗 Read More: HuggingFace | ArXiv | GitHub
Black-Box On-Policy Distillation of Large Language Models

👥 Authors: Tianzhu Ye, Li Dong, Zewen Chi, Xun Wu, Shaohan Huang et al. (6 authors)

📄 Abstract: 生成对抗蒸馏(GAD)是一种新颖的黑盒蒸馏方法,用于大语言模型(LLMs),其将学生模型视为生成器,并训练一个判别器以区分其输出与专有教师模型的输出,从而形成一个极小极大博弈。与传统的序列级知识蒸馏不同,GAD 利用判别器作为共同进化的在线策略奖励模型,无需访问教师模型内部即可提供自适应且稳定的反馈。实验表明,GAD 显著优于传统方法:通过 GAD 蒸馏得到的 Qwen2.5-14B-Instruct 在 LMSYS-Chat 评估中的表现可与 GPT-5-Chat 相媲美,确立了 GAD 作为黑盒 LLM 蒸馏的高效范式。

📊 👍 9 upvotes

🔗 Read More: HuggingFace | ArXiv
AlphaResearch: Accelerating New Algorithm Discovery with Language Models

👥 Authors: Zhaojian Yu, Kaiyue Feng, Yilun Zhao, Shilin He, Xiao-Ping Zhang et al. (6 authors)

📄 Abstract: AlphaResearch 是一个自主AI代理,通过双重研究环境——基于执行的验证和模拟同行评审——在开放性问题中发现新型算法。它迭代地提出、验证和优化想法,实现算法的自主发现。在AlphaResearchComp基准上进行评估,该基准包含八个精心策划的、可执行且可复现的算法挑战,其胜率为2/8,优于人类研究人员。值得注意的是,它在“圆形 Packing”问题上超越了包括AlphaEvolve在内的所有先前方法,达到了新的最优水平。对其余六次失败的分析揭示了关键挑战,如探索与利用的权衡以及大语言模型生成提案中的语义漂移。本研究证明,大语言模型能够在特定领域超越人类能力加速算法发现,弥合自动化推理与科学创新之间的鸿沟。

📊 👍 2 upvotes | 14 stars

🔗 Read More: HuggingFace | ArXiv | GitHub
MuSc-V2: Zero-Shot Multimodal Industrial Anomaly Classification and Segmentation with Mutual Scoring of Unlabeled Samples

👥 Authors: Xurui Li, Feng Xue, Yu Zhou

📄 Abstract: MuSc-V2通过利用正常区域具有高2D/3D相似性而异常区域孤立这一关键洞察,推进了零样本异常检测(AC/AS)。它引入了迭代点分组(IPG)以优化3D表示,减少由噪声表面引起的误报。多尺度相似性邻域聚合(SNAMD)将多尺度2D/3D邻域线索融合为判别性区域特征。核心的互评分机制(MSM)实现模态内相互评分,而跨模态异常增强(CAE)则融合2D与3D评分以恢复模态特异性异常。通过约束邻域重评分(RsCon)重新评估与代表性样本的相似性,抑制误报。MuSc-V2支持单模态或多模态输入,并在不同数据集和子集上表现出稳健的可扩展性。其在MVTec 3D-AD上达到+23.7%的AP提升,在Eyecandies上达到+19.3%的AP提升,超越了大多数少样本方法。代码:https://github.com/HUST-SLOW/MuSc-V2

🔗 Read More: HuggingFace | ArXiv
Superpositional Gradient Descent: Harnessing Quantum Principles for Model Training

👥 Authors: Ahmet Erdem Pamuk, Emir Kaan Özdemir, Şuayp Talha Kocabay

📄 Abstract: 叠加梯度下降(SGD)是一种类量子优化器,通过量子电路扰动将量子叠加引入梯度更新,从而提升大语言模型(LLM)的训练效果。与经典AdamW不同,SGD利用混合量子-经典电路(在PyTorch和Qiskit中实现)调节优化动态,在合成序列分类和大规模LLM微调任务中实现更快收敛和更低最终损失。该方法提出了一种将量子原理与深度学习优化相联系的新数学框架,为类量子机制如何改善模型行为提供了新见解。尽管性能优越,但其实际应用目前受限于硬件约束与可扩展性挑战。本工作开创了将量子计算概念嵌入经典深度学习工作流的路径,连接了量子理论与AI训练。

📊 👍 6 upvotes | 1 stars

🔗 Read More: HuggingFace | ArXiv | GitHub
Music Flamingo: Scaling Music Understanding in Audio Language Models

👥 Authors: Sreyan Ghosh, Arushi Goel, Lasha Koroshinadze, Sang-gil Lee, Zhifeng Kong et al. (11 authors)

📄 Abstract: Music Flamingo 是一种大型音频-语言模型,旨在通过克服先前模型在数据稀缺和浅层推理方面的局限性来推进音乐理解。它利用 MF-Skills——一个涵盖和声、结构、音色、歌词和文化背景的大规模多阶段标注数据集——来微调增强的 Audio Flamingo 3 主干。为提升推理能力,它引入了 MF-Think——一个基于音乐理论的思维链数据集,并结合基于 GRPO 的强化学习与自定义奖励。该后训练流程使 Music Flamingo 在 10 多个音乐理解与推理基准上达到最先进性能。与以往仅生成表面性描述的模型不同,Music Flamingo 展现出分层的、类人的音乐感知能力,超越了识别层面,迈向解释性理解。这项工作确立了音乐智能 AI 的新标准,并为未来旨在像人类一样深刻理解音乐的模型提供了基础性基准。

🔗 Read More: HuggingFace | ArXiv
One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models

👥 Authors: Aleksandr Razin, Danil Kazantsev, Ilya Makarov

📄 Abstract: LUA(潜在上采样适配器)是一种轻量级的即插即用模块,直接在扩散模型的潜在空间中执行超分辨率,绕过了昂贵的像素空间上采样。与引入伪影和延迟的后处理ISR方法不同,LUA在VAE解码前运行,通过共享的Swin式主干网络配合特定尺度的像素重排头,仅需一次前向传递即可实现2倍/4倍上采样。它无需重新训练模型或增加扩散步骤,与图像空间SR基线保持兼容,并在感知质量上达到与原生高分辨率生成相当的水平——将解码和上采样时间缩短近3倍(从512px提升至1024px仅增加0.42秒,而SwinIR需1.87秒)。LUA可泛化至不同VAE,无需重新训练即可无缝部署。这使其成为现代扩散管道中实现可扩展、高保真图像合成的高效实用方案。

📊 👍 6 upvotes

🔗 Read More: HuggingFace | ArXiv
Benchmarking Diversity in Image Generation via Attribute-Conditional Human Evaluation

👥 Authors: Isabela Albuquerque, Ira Ktena, Olivia Wiles, Ivana Kajić, Amal Rannen-Triki et al. (7 authors)

📄 Abstract: 本文提出了一种综合框架,用于评估文本到图像(T2I)模型的多样性,以应对其输出同质化的倾向。该框架结合了人工评估与图像嵌入的系统分析。主要贡献包括:(1)一种用于精细多样性判断的新颖人工评估模板;(2)一组经过整理的提示集,并标注了变化因素(如“苹果”→颜色、形状);(3)一种基于二项检验的统计方法,通过人工标注比较模型多样性。本研究严格评估了多种图像嵌入方法用于多样性度量,实现了对模型的系统性排序并识别表现不佳的概念类别。该工作提供了一种稳健、可扩展的多样性评估方法,为未来T2I模型与评估指标的改进提供指导。(498字符)

🔗 Read More: HuggingFace | ArXiv
Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following

👥 Authors: Yun He, Wenzhe Li, Hejia Zhang, Songlin Li, Karishma Mandyam et al. (22 authors)

📄 Abstract: AdvancedIF 和 RIFL 通过解决评估与训练中的关键缺口,提升了大语言模型(LLMs)的指令遵循(IF)能力。AdvancedIF 是一个包含 1,600 多个复杂、多轮、系统提示指令的新基准,采用专家制定的评分标准进行评估,实现了严谨且可解释的评估。RIFL 是一种新颖的后训练流程,通过指令评分生成、微调的评分验证器和奖励塑形,利用这些评分标准实现有效的强化学习。实验表明,RIFL 在 AdvancedIF 上将 IF 性能提升了 6.7% 的绝对值,并在公开基准上表现优异。消融实验验证了各组件的贡献。本研究确立了评分标准作为训练与评估高级 IF 的基础工具,为构建更可靠、更强大的 AI 系统铺平了道路。

🔗 Read More: HuggingFace | ArXiv
AffordBot: 3D Fine-grained Embodied Reasoning via Multimodal Large Language Models

👥 Authors: Xinyi Wang, Xun Yang, Yanlong Xu, Yuchen Wu, Zhen Li et al. (6 authors)

📄 Abstract: AffordBot 提出了一种用于细粒度3D具身推理的新框架,代理根据任务指令预测3D场景中功能元素的空间位置、运动类型和轴向。与以往在对象层级进行推理或缺乏指令驱动 grounding 的方法不同,AffordBot 将多模态大语言模型(MLLMs)与定制的思维链(CoT)流程相结合。它从3D点云渲染全景图像以对齐视觉输入与 MLLMs,随后通过主动感知阶段选择最优视角,再逐步推理以定位元素并推断物理交互。在 SceneFun3D 上的评估表明,AffordBot 达到了最先进性能,仅凭3D输入和 MLLMs 即可实现稳健且物理 grounded 的推理,从而在物理环境中实现精确、指令感知的人机协作。

🔗 Read More: HuggingFace | ArXiv
SliderEdit: Continuous Image Editing with Fine-Grained Instruction Control

👥 Authors: Arman Zarei, Samyadeep Basu, Mobina Pournemat, Sayan Nag, Ryan Rossi et al. (6 authors)

📄 Abstract: SliderEdit 提出了一种新颖的框架,通过利用全局训练的低秩适配矩阵,实现基于指令的图像编辑中的连续、细粒度控制。与以往固定编辑强度或需要逐属性微调的方法不同,SliderEdit 将多部分指令解耦为可解释的平滑滑块,使用户能够动态调整单个编辑强度。它在泛化多样组合提示的同时,保持了空间局部性和全局语义一致性。应用于 FLUX-Kontext 和 Qwen-Image-Edit 等前沿模型时,显著提升了编辑可控性、视觉保真度和用户引导性。作为首个实现图像编辑中连续、可插值指令控制的方法,SliderEdit 为具备精确实时用户引导的交互式组合图像操作铺平了道路。

🔗 Read More: HuggingFace | ArXiv
ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents

👥 Authors: Manasi Sharma, Chen Bo Calvin Zhang, Chaithanya Bandi, Clinton Wang, Ankit Aich et al. (16 authors)

📄 Abstract: ResearchRubrics 是一个全面的基准,用于评估深度研究(DR)代理——利用大语言模型(LLMs)执行多步推理、跨文档综合与基于证据的长篇回答以应对开放性问题的AI系统。该基准凝聚了2800多小时的人力投入,包含2500多条由专家撰写的评分标准,评估事实依据、推理严谨性与表达清晰度在多样化复杂任务中的表现。该基准引入了一种新颖的复杂性框架,根据概念广度、逻辑嵌套与探索深度对DR任务进行分类。人类与基于模型的评估协议测量评分标准的遵循程度,发现如Gemini和OpenAI的DR等顶尖代理的合规率低于68%,常在处理隐含上下文与检索信息的推理上失败。通过公开所有提示、评分标准与评估代码,ResearchRubrics 实现了对DR能力的可扩展、严谨评估,推动可信赖、论证充分的研究助手的发展。

🔗 Read More: HuggingFace | ArXiv
PAN: A World Model for General, Interactable, and Long-Horizon World Simulation

👥 Authors: PAN Team, Jiannan Xiang, Yi Gu, Zihan Liu, Zeyu Feng et al. (22 authors)

📄 Abstract: PAN 是一种通用、可交互的长周期世界模型,通过动作条件化的高质量视频生成,使 AI 代理能够模拟未来世界状态。它引入了生成潜在预测(GLP)架构,结合了一个由大语言模型(LLM)驱动的自回归潜在动力学主干与一个视频扩散解码器。该设计将模拟建立在文本知识基础上,支持以自然语言动作进行条件控制,同时生成感知细节丰富且时间连贯的视觉序列。与缺乏因果控制的先前视频生成器或局限于狭窄领域的世界模型不同,PAN 能在开放域环境中运行,保持长期一致性和交互性。在多样化的视频-动作对上训练后,PAN 在动作条件模拟、长周期预测和模拟推理方面表现卓越,连接了潜在推理与真实世界动态,为预测性规划与自主决策迈向通用世界模型迈出了重要一步。

📊 👍 1 upvotes

🔗 Read More: HuggingFace | ArXiv
Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPO

👥 Authors: Nikolay Blagoev, Oğuzhan Ersoy, Lydia Yiyu Chen

📄 Abstract: 本文首次提出了针对大语言模型去中心化组相对策略优化(GRPO)的对抗攻击,揭示了恶意攻击者只需在去中心化训练过程中向良性模型注入恶意标记,即可在短短50次迭代内通过上下文内和上下文外投毒实现高达100%的攻击成功率。GRPO低通信量的设计虽适合分布式训练,但由于节点间交换文本补全时缺乏有效验证,反而成为安全隐患。在数学和编程任务上的评估表明,此类攻击严重破坏了本地模型更新。作者提出了两种针对同构(相同模型)和异构(不同模型)训练场景的防御机制,均能通过检测并过滤中毒响应实现高达100%的攻击阻断率,在不牺牲效率的前提下恢复训练完整性。

📊 👍 5 upvotes

🔗 Read More: HuggingFace | ArXiv
Solving a Million-Step LLM Task with Zero Errors

👥 Authors: Elliot Meyerson, Giuseppe Paolo, Roberto Dailey, Hormoz Shahrzad, Olivier Francon et al. (9 authors)

📄 Abstract: MAKER 是首个成功执行超过一百万次大语言模型(LLM)步骤且零错误的系统,克服了长期以来限制LLM在如汉诺塔等长程任务中可扩展性的持续错误率。它通过将任务极端分解为微代理(microagents)——处理子任务的小型专注模块——并在每一步应用基于多代理投票的错误校正机制来实现这一目标。这种模块化架构能够精确检测和纠正故障,使得在无需改进基础LLM的情况下实现扩展成为可能。结果表明,大规模分解的代理过程(MDAPs),而非增强的单个LLM,可能是解决需要长期可靠推理链的复杂、社会规模问题的关键。

📊 👍 3 upvotes

🔗 Read More: HuggingFace | ArXiv