定期推送个性化的 ArXiv AI 论文摘要 - 立即订阅
- 核心创新点(一句话): 提出教师顶-K局部支撑匹配的修正策略,通过截断逆KL、top-p 回溯采样和特殊token屏蔽,解决 sampled-token OPD 在长序列场景中的不稳定性与三大失败模式。 - 主要方法: - 对比分析 token-level OPD 与序列级 reverse-KL 的偏差与方差权衡,揭示其在未来奖励耦合下的梯度方差增大问题 - 引入教师顶-K本地支撑匹配(top-K local support matching),实现截断的逆KL目标 - 采用 top-p 回溯采样以及特殊token屏蔽来避免标记/编码层次的失真 - 在单任务数学推理与多任务代理-数学训练等任务中进行验证 - 结论/性能: 相比于传统的 sampled-token OPD,该方法带来更稳定的优化过程,并在下游任务上取得更好的性能表现。
- 核心创新点:提出 PICon 框架,利用逻辑连锁的多轮问询系统性评估 persona agent 的内部一致性、外部一致性与再测试一致性,从而揭示潜在的矛盾与不一致。 - 主要方法:通过设计逻辑链式的多轮问询,对 persona agents 进行三维度评测(内部一致性、外部一致性、再测试一致性),并与63名真实人类参与者进行对照比较,结合对抗/回避回答的分析,提供可重复的评估流程与工具。 - 结论/性能:在七组 persona agents 与63名真实人类参与者的对比中,许多此前被报道为高度一致的系统在三项维度上均未达到人类基线,展现出自相矛盾、偏离事实和在重复提问时的不稳定性;同时提供了概念基础与实际方法论,并附带源码与交互演示以便后续评估。
1. 核心创新点 - 提出一个可靠性驱动的两代理架构TopoPilot,通过编排器与验证器分工,将自然语言提示转化为可执行的拓扑数据分析与可视化工作流,并配套系统化的守则与故障分类以保障可靠性。 2. 主要方法 - 采用可靠性中心化的两代理架构:编排器将用户提示转化为由原子后端动作组成的工作流;验证器在执行前对工作流进行结构有效性与语义一致性评估,确保正确性。 - 采用模块化架构以实现组件隔离,便于无改动核心系统即可接入新的描述符和领域工作流。 - 建立并应用针对不同故障模式的分类(故障模式 taxonomy)及相应的保护措施,针对拓扑数据分析与可视化领域进行定制化守则。 - 在评估中使用100个提示、1000轮多轮对话的设置,包含对抗性与不可行请求场景。 3. 结论/性能 - 在包含对抗性与不可行请求的测试中,TopoPilot的成功率超过99%,显著优于没有完整守则与校验的基线(约50%)。
1) 核心创新点:提出一个以指南为基础、模态无关的LLM代理AD-CARE,能在缺失模态的现实临床数据中动态编排诊断工具、嵌入临床指南并输出透明的报告式诊断结果,适用于真实世界的多模态AD诊断。 2) 主要方法: - 构建模态无关的LLM代理,AD-CARE,能够在输入不完整、数据来自不同中心的情况下进行诊断推理,而不对缺失模态进行填充。 - 动态编排专业诊断工具箱,与临床指南嵌入到LLM推理过程,确保诊断过程的可解释性和指南一致性。 - 输出符合真实临床工作流的报告式诊断结果,便于临床决策使用。 - 评估覆盖六个队列共10,303例,比较多种基线和八种骨干LLM,包含公平性分析(对种族与年龄的差异)及受控读者研究。 3) 结论/性能: - 在六队列共10,303例中实现84.9%诊断准确率,比基线方法提升4.2%-13.7%(相对)。 - 数据集内准确度保持在80.4%-98.8%,始终优于所有基线,且跨数据集表现鲁棒。 - 减少了种族和年龄子群的性能差异,平均四项指标的 dispersion 分别下降21%-68%(种族)和28%-51%(年龄)。 - 在受控读者研究中,为神经科医生和放射科医生分别带来6%-11%准确率提升,决策时间减少大幅超过一半。 - 相对于八个骨干LLM,AD-CARE实现2.29%-10.66%的绝对增益并实现性能收敛,显示具备可扩展和可落地的临床应用潜力。
- 核心创新点:将深度研究代理的行为用范畴论中的结构保持映射(函子)进行形式化建模,并基于此提出一套机制感知的结构性压力测试基准,用以系统评估多步结构合成与本体论推理能力。 - 主要方法:以范畴理论作为理论框架,将深度研究工作流看作结构保持映射的组合;设计了包含296道题的机制感知基准,围绕四条评测轴构建:连续连接链的遍历、V-结构下的交集拉回(pullback)验证、检索子结构的拓扑排序、以及通过Yoneda探针进行本体论的虚假断言检验;在11个主流模型上进行评测。 - 结论/性能:最优模型仅实现约19.9%的平均准确率,显示在此类结构性压力测试上的难度很大;高端研究管线在动态拓扑重排序和本体验证方面表现较好,能与纯推理模型在揭穿虚假前提方面相当,但在多跳结构合成上几乎普遍崩溃,且不同任务之间性能差异显著,表明仍依赖脆弱的启发式而非系统性理解,全面掌握复杂结构信息仍是一个待攻克的挑战。
- 核心创新点:提出一种解耦的代理-技能设计,通过 OpenClaw 实现对计算化学多步工作流的集中控制与调度,将推理、工作流规划、软件执行与 HPC 执行解耦,并结合模式化规划技能、领域技能和 DPDispatcher 支撑跨工具与异构 HPC 的自动化执行。 - 主要方法: - 使用 OpenClaw 提供集中控制与监督。 - 采用 schema-defined (模式化) 规划技能将科学目标转化为可执行任务。 - 以领域技能封装具体的计算化学流程。 - 由 DPDispatcher 在异构 HPC 环境中管理作业执行。 - 以甲烷氧化的分子动力学案例为验证,展示跨工具执行、对运行时故障的边界恢复以及反应网络提取。 - 结论/性能: - 实现了跨工具执行、对运行时故障的有界恢复以及反应网络的提取,展示了该方法在多步计算化学自动化中的可扩展性与可维护性。
- 核心创新点:在天气仿真任务中将神经缩放规律应用于持续训练,结合极简的 Swin Transformer 架构与恒定学习率+周期性 cooldown,揭示可预测的扩展性并用于指示高效的资源配置。 - 主要方法:采用可扩展的 Swin Transformer;进行持续训练(恒定学习率+定期 cooldown)并通过光谱损失调整提升预测;在不同模型规模、数据规模与计算预算下系统性构建 IsoFLOP 曲线以寻找计算最优训练规程,并与标准余弦学习率进行对比;并开源代码。 - 结论/性能:在该最小化设置下呈现可预测的缩放趋势,且甚至优于常用的 cosine 学习率;cooldown 阶段可提升下游性能(如实现更长 horizon 的多步 rollout 与更尖锐的预测),并在更大规模下揭示潜在性能上限,表明神经缩放可作为资源分配的有效诊断工具。
- 核心创新点:提出 VISAGE,一种训练无关的解码框架,通过利用跨注意力分布的空间熵与多头局部化共识,在推理阶段重新校准解码目标,从而提升 MDLLMs 的视觉 grounding、抑制幻觉。 - 主要方法: - 诊断问题:将幻觉归因于仅以文本概率排名导致的目标不匹配,引入代理目标的校准需求。 - VISAGE 框架:在推理时对代理目标进行调校,基于跨模态注意力的空间信息来估计代理差异(proxy discrepancy)。 - 空间熵与局部化共识:度量跨注意力分布的空间熵,强制不同注意头在局部区域达成一致,惩罚空间分布过于均匀的情形,进而重新排序 token。 - 稳定性保证:给出分析性结果,证明在估计误差下 VISAGE 能保持有界的目标损失。 - 训练-free:方法不依赖额外训练,直接在推理阶段应用。 - 结论/性能: - 在幻觉敏感的 MMMU-val 数据集上相对提升 8.59%,在 HallusionBench 上相对提升 7.75%,展现对鲁棒性和视觉 grounding 的显著改进。
- 核心创新点:提出一个轻量级的对象中心槽适配器 SlotVTG,通过将视觉信息分解为语义化的槽并结合对象性先验,在不大幅修改模型的前提下显著提升视频时序定位的跨域鲁棒性。 - 主要方法:引入一个轻量级槽适配器,将视觉 token 通过 Slot Attention 分解成抽象的槽并重建原始序列,同时利用自监督视觉模型的对象性先验引导槽的语义一致性,与多模态大模型结合使用,避免重新训练整个管线。 - 结论/性能:在标准 VTG 基准的跨域评测中,显著提升了 OOD 鲁棒性,同时以极低开销保持了较具竞争力的 In-Domain 性能。
- 核心创新点:提出一个统一的 Vision-Language-World-Action(Vega)模型,能够基于自然语言指令实现指令驱动的生成与规划,克服以往只用于描述或推理而缺乏指令跟随的局限。 - 主要方法:构建包含约10万条场景及相应轨迹的 InstructScene 数据集;在 Vega 中同时采用自回归(处理视觉输入与语言指令)和扩散(生成未来预测/世界建模与轨迹)两大范式,通过跨模态联合注意力和为各模态设定的独立投影层实现多模态协同。 - 结论/性能:在大量实验中实现了更优的规划性能并具备强指令跟随能力,推动更智能、个性化的驾驶系统的发展。
- 核心创新点:提出基于运动令牌熵的自适应采样结合组相对策略优化的铁路式交通仿真模型R1Sim,通过高不确定性但潜力巨大的令牌进行探索-开发平衡,实现更真实、多样且安全的多主体交通仿真。 - 主要方法: - 以 tokenized 交通仿真策略R1Sim为核心,结合NTP范式的序列建模与强化学习思想。 - 引入熵导向的自适应采样机制,重点关注高不确定性但具有潜在价值的运动令牌。 - 采用Group Relative Policy Optimization (GRPO)进行行为优化,并设计安全感知奖励以引导安全性。 - 通过组内对比估计实现探索与利用的平衡,提升多智能体行为的现实性与多样性。 - 结论/性能:在Waymo Sim Agent基准上,R1Sim展现出与前沿方法相竞争的性能,生成现实、安全且多样的多智能体交通行为。
- 核心创新点:提出可插拔的 Token-Reweighting(ToR)策略,动态对感知类与推理类关键 token 进行重加权,以显式建模两者的耦合关系,从而同时提升视觉 grounding 与推理连贯性。 - 主要方法:在现有 RLVR 框架(如 GRPO、DAPO)之上,通过 token 级分析识别感知与推理的关键 token,并对它们进行差异化、动态权重调整,使两类 token 的作用相互促进;ToR 为 plug-and-play 模块,可无缝结合到现有方法中。 - 结论/性能:在多模态推理基准上实现稳定的性能提升,叠加现有方法达到更高的视觉 grounding 与推理连贯性,达到或接近 state-of-the-art。
1) 核心创新点:通过提出形式化保护的生成模型(FGGM)与三阶段的 SEVerA 框架,在自进化代理中对生成模型调用设定可证明的形式化输出契约并以拒绝采样回退保障契约成立,从而实现可验证的正确性与安全性并提升性能。 2) 主要方法: - FGGM(Formally Guarded Generative Models):使用一阶逻辑指定每次生成模型调用的输出契约;将底层模型包装在带有已验证回退的拒绝采样器中,确保对任意输入和参数均返回符合契约的输出。 - SEVerA(三阶段框架):Search(合成含 FGGM 调用的候选参数化程序)、Verification(对硬约束的正确性在所有参数值下进行证明,问题转化为无约束学习)、Learning(进行可扩展的梯度优化,包括 GRPO 风格微调,在保持正确性的前提下提升软目标性能)。 - 评估领域:Dafny 程序验证、符号化数学综合、τ^2 基线下的策略性工具使用等任务。 3) 结论/性能: - 实验在所有任务上达到零约束违规(zero constraint violations),且性能优于无约束基线和当前SOTA基线。 - 结果表明,形式化行为约束不仅保证正确性,还能引导合成出更高质量的自进化代理。
- 核心创新点(1句):提出 HIVE 框架,在 RL 训练中结合历史奖励信息的粗筛和在线基于提示熵的实时裁剪,精准定位并优先选取“学习边缘”样本,实现数据更高效的提示选择与在线验证。 - 主要方法:采用双阶段策略:1) 基于历史奖励轨迹进行粗筛选以选取高效样本;2) 以提示熵作为实时代理,在线验证并裁剪效用已过时的样本,从而在训练过程中动态保留高价值提示用于 rollout。 - 结论/性能:在多组数学推理基准与模型上验证,HIVE 在不牺牲性能的前提下显著提升 rollout 效率(数据/计算效率更高)。
1) 核心创新点:提出 Translation-Augmented Policy Optimization(TAPO),在基于 GRPO 的强化学习框架中通过英语作为中介的理解-再推理策略,并引入步级相对优势机制实现对理解与推理的解耦与翻译质量奖励的无冲突优化。 2) 主要方法:基于 GRPO 的强化学习框架,设定显式对齐策略以英语为 pivot,采用理解-再推理的两阶段流程;引入步级相对优势机制以将翻译质量奖励与推理优化分离,且与多种语言模型兼容,适用于多语言数学推理和翻译任务。 3) 结论/性能:实验表明 TAPO 能有效将语言理解与推理能力协同提升,在多语言数学推理和翻译任务中优于基线方法,并具备对未见语言和域外任务的良好泛化能力。
1. 核心创新点:首次实现多模态多视角的视频到视频翻译,将多视图对齐到一个共享的4D潜在空间,并通过在不同扩散时间步训练来实现可扩展的多视角自回归合成,确保视图间的一致性。 2. 主要方法: - 以单视图流式V2V模型为起点;基于Pi3这一前馈空间基础模型将所有视图投影到共同的4D潜在空间,促进视图间的一致性。 - 将视图在不同扩散时间步进行训练,学习联合与条件的视图分布,支持跨视角的自回归合成。 - 通过多模态、多视角的框架,达到对复杂摄像头布置(含egocentric与异质相机)的翻译能力。 3. 结论/性能: - 在单视图基线上达到或优于现有SOTA;首次在多视角设置中实现物理与风格上一致的翻译,能够处理自我视角与异质摄像头场景,适用于机器人学习中的世界随机化任务。
- 核心创新点:提出面向真实世界微视频谣言的跨类型可归因分析框架和基准数据集 WildFakeBench,其中 WildFakeBench 覆盖10k+现实微视频并附带专家定义的归因标签,FakeAgent 将多模态理解与外部证据结合用于可归因的谣言分析与去谣。 - 主要方法: - WildFakeBench:建立大规模真实微视频基准,涵盖多种误导类型与来源,具备专家标注的归因标签。 - FakeAgent:一个受 Delphi 启发的多代理推理框架,联合处理多模态信息与检索得到的外部证据,进行内容操控识别、认知偏差与 AI 生成模式识别,以及 out-of-context(断章取义)信息检测,输出可归因的分析。 - 结论/性能:实验表明 FakeAgent 在所有误导类型上均显著优于现有的多模态大语言模型(MLLMs),WildFakeBench 也提供了一个现实且具挑战性的测试床,推动可解释的微视频谣言检测研究。
- 核心创新点:提出 EcoThink,一种基于蒸馏的轻量级自适应推理路由框架,通过按查询复杂度动态决定是否进行推理与 Chain-of-Thought,从而在保持性能的同时显著降低能耗。 - 主要方法:使用基于蒸馏的路由器对输入进行快速复杂度评估,按需开启或跳过推理(CoT),对事实性检索跳过不必要的推理,仅在遇到复杂逻辑时进行深度推理,形成一个能量感知的选择性推理框架。 - 结论/性能:在9项基准评估中,EcoThink 平均将推理能耗降低约40.4%,在网络知识检索场景最高降幅可达81.9%,且性能没有统计显著下降。
- 核心创新点:本研究首次在同一模型与数据集上系统揭示数学解题能力与逐步错误定位评估能力之间的关系,并通过 PROCESSBENCH 的 earliest erroneous step 任务量化解题水平对评估准确性的正向影响及其局限性。 - 主要方法:使用两种基于大型语言模型的数学辅导代理(GPT-4 与 GPT-5),在 GSM8K 与 MATH 的 PROCESSBENCH 子集上进行两项任务——1) 直接求解原题;2) 评估给定解答并预测最早的错误步骤;通过统计分析比较解题成功与否对评估准确性的影响。 - 结论/性能:评估准确性在同模型中对其正确解题的题目显著更高,且该关联在两数据集与两模型间均显著;但总体上评估仍比直接解题更困难,尤其是在解答含错时。研究表明解题专长有助于提升评估性能,但实现可靠的逐步诊断还需额外能力如逐步追踪、监控与精准的错误定位,对设计/评估 AI 支持的自适应教学系统(AIS)具有重要意义。
- 核心创新点(1句):提出 Colon-Bench 的多阶段代理式工作流,在全流程结肠镜视频中实现密集且丰富的标注,形成可用于评估多模态大模型的首个大规模基准数据集。 - 主要方法:结合 temporal proposals、边界框跟踪、AI 驱动的视觉确认以及人工在环审核的协同流程,完成对 528 条视频、14 类病变、超过 30 万个边界框、21.3 万个分割掩码和 13.3 万字临床描述的标注;并用于系统评估对 lesion classification、Open-Vocabulary Video Object Segmentation(OV-VOS)以及 video VQA 的多模态大模型,同时提出“colon-skill”提示策略以提升零样本性能。 - 结论/性能:该基准数据集在医学领域对 MLLMs 的定位能力表现出显著优势(高于 SAM-3),并且通过 colon-skill 提示在多数模型上实现了最高约 9.7% 的零-shot 提升;数据集和代码公开,便于进一步分析与评测。