PAMI中心19项研究成果被人工智能领域顶级学术会议AAAI 2026录用

时间:2025-12-14 点击:

近日,我中心19篇论文被第40届人工智能领域顶级学术会议AAAI Conference on Artificial Intelligence(简称AAAI,CCF A类会议)录用。本届AAAI共收到23680份有效论文投稿,录用4167篇,录用率为17.6%,录用论文简要介绍如下:(按第一作者姓氏拼音排序)

论文1:SAM2-OV: A Novel Detection-Only Tuning Paradigm for Open-Vocabulary Multi-Object Tracking

简介:开放词汇多实例跟踪(OV-MOT)旨在同时处理已知与未知类别,但现有方法通常依赖从静态图像合成的伪序列数据,难以反映真实的运动模式,从而在跨帧关联上存在明显瓶颈。为解决这一问题,我们提出了一种仅基于检测调优范式的方法SAM2-OV,无需伪序列数据和时空信息的监督,显著减少可学习参数量。该方法的关键组件是统一检测模块(UDM),能够在关键帧上生成实例级提示,使SAM2能够适配开放词汇跟踪任务并发挥其零样本跨帧关联能力。同时为了提升在遮挡与急剧视角变换等极端场景下的关联质量,我们引入了运动先验辅助模块(MPAM),将运动信息引入SAM2掩码选择过程。同时,通过从CLIP蒸馏的语义增强适配器(SEA)提升模型语义表达能力,改善对其未见类别的分类泛化能力。而在推理过程中,我们通过引入稀疏提示的策略,仅在关键帧中执行检测,从而有效降低计算开销。由于只需在静态图像上调优检测模块,避免了对伪造序列数据的依赖,我们达到了简化OV-MOT方法训练过程的目的。在TAO数据集上的实验结果表明,SAM2-OV在TETA指标上具有明显的优势,特别是在新类别上的提升尤为显著,而KITTI数据集上的实验进一步证明了该方法在跨域场景下强大的零样本迁移能力。

该论文的第一作者是厦门大学信息学院2024级硕士研究生陈洋凯,通讯作者是王菡子教授。由吴强强(香港城市大学)、黎光耀、高俊龙助理教授以及牛广林助理教授(北京航空航天大学)共同合作完成。

论文2:OWL: Unsupervised 3D Object Detection by Occupancy Guided Warm-up and Large Model Priors Reasoning

简介:无监督三维目标检测通过启发式算法发现潜在目标,为自动驾驶降低标注成本提供了有效途径。现有方法主要通过生成伪标签并进行自训练迭代来优化模型,但这些伪标签在训练初期往往存在错误。为此,本文提出基于占用引导预热和大模型先验推理的无监督目标检测方法OWL。首先采用占用引导的自监督预热策略学习场景特征,有效缓解错误伪标签对网络收敛的干扰;其次引入实例线索推理模块,利用大模型先验知识评估与优化伪标签质量;最后设计自适应权重自训练策略提升模型性能。在Waymo和 KITTI 数据集上的实验表明OWL显著优于SOTA无监督方法。

该论文第一作者是厦门大学信息学院2024级硕士研究生郭徐晟,共同通讯作者是温程璐教授和博士毕业生吴海助理研究员(鹏城实验室)。并由张万发、赵世佳、夏启明、王明明(GAC R&D Center)共同合作完成。

论文3:Hybrid Routing for a Mixture of LoRA Experts

简介:本文提出了一种名为HotMoE 的异构路由混合LoRA专家模型框架,旨在解决多任务指令微调中专家利用效率低和专家与任务适配不足的问题。HotMoE 引入分层混合路由机制,在浅层促进跨任务协作与泛化,在深层实现任务语义与专家能力的精确对齐。此外,提出相似度引导的辅助损失,增强专家专化性与路由确定性。实验结果表明,HotMoE 在多个自然语言理解与大模型生成任务上显著优于现有多任务微调方法,有效缓解了多任务学习中的“跷跷板效应”。

该论文第一作者是厦门大学信息学院2023级硕士研究生黄逸桐,通讯作者是范晓亮高级工程师。并由杨子棋、王子徽(鹏城实验室)、Jianzhong Qi (墨尔本大学)、俞容山教授、王程教授共同合作完成。

论文4:Target Refocusing via Attention Redistribution for Open-Vocabulary Semantic Segmentation: An Explainability Perspective

简介:开放词汇语义分割通过像素级的视觉-语言对齐技术,将类别相关提示与对应像素建立关联。其核心挑战在于提升多模态密集预测能力——尤其是像素级的多模态对齐性能。现有方法虽借助CLIP的视觉-语言对齐能力取得显著成果,却鲜少从解释性机制视角探究CLIP在密集预测任务中的性能边界。本研究系统揭示了CLIP的内部机制,发现关键现象:类比人类分心行为,CLIP会将大量注意力资源从目标区域转移至无关token。分析表明,这些干扰token源于维度特异性过激活现象,过滤此类token可显著增强CLIP的密集预测性能。据此,本文提出ReFocusing CLIP方法(简称RF-CLIP),这种无需训练方案通过模拟人类"分心-再聚焦"行为,将注意力从干扰token重定向至目标区域,从而提升CLIP多模态对齐的精细度。本方法在八大基准测试中刷新最先进性能,同时保持高效推理效率。

该论文第一作者是厦门大学信息学院2023级博士生李佳豪,通讯作者是曲延云教授和谢勇教授(南京邮电大学)。

论文5:V2VLoc: Robust GNSS-Free Collaborative Perception via LiDAR Localization

简介:多智能体依赖于精确的姿态信息共享和对齐观测数据,以实现对环境的协同感知。然而,现有定位方法在GNSS信号受限环境下容易失效,导致难以实现一致的感知特征对齐。为此,本文提出一种基于激光雷达定位的无GNSS协同目标感知框架。首先提出了轻量级的置信度姿态生成器估计紧凑的姿态和置信度表示,其次设计了姿态感知时空对齐变换器,在捕获关键时间上下文的同时,执行置信度感知的空间对齐。此外,提出一个新的仿真数据集V2VLoc,用于验证定位和协同检测任务。在 V2VLoc和V2V4Real 数据集上的实验验证了本方法的有效性和泛化能力。

该论文第一作者是厦门大学信息学院2024级硕士研究生林文铠,通讯作者是温程璐教授,由夏启明、李文、黄勋共同合作完成。

论文6:RCP-LO: A Relative Coordinate Prediction Framework for Generalizable Deep LiDAR Odometry

简介:基于学习的激光雷达里程计方法通过端到端回归相对位姿展现了优越性能,然而当迁移到新场景时性能显著降低。为此,本文提出一种简洁而高效的激光雷达里程计框架RCP-LO。首先,创新性地将相对位姿表示为相对坐标并基于几何验证进行求解,避免了过度简化的位姿表示。其次,为捕捉动态环境中遮挡点云相对位姿估计固有的不确定性,引入去噪扩散模型进行相对坐标采样,在增强鲁棒性的同时生成合理位姿假设。还设计了可微分加权奇异值分解模块,通过单次前向传播即可实现高效位姿估计。实验表明,仅在KITTI数据集上进行训练,在KITTI-360、Ford和Oxford数据集上均达到与当前最优学习方法相当的精度。

该论文共同第一作者是厦门大学信息学院2022级硕士研究生刘晨和2025届博士毕业生李文,通讯作者是王程教授,由黄泳树、朱明航、杨煜阳、刘敦强及敖晟助理教授共同完成。

论文7:Walking Further: Semantic-aware Multimodal Gait Recognition under Long-Range Conditions

简介:步态识别能通过人的行走方式实现非接触、难伪造的身份识别。然而,现有的方法仍局限于近距离、单模态场景,在复杂的真实环境中难以适应远距离或跨距离识别需求。为解决这一问题,本文提出首个面向远距离、室外多场景的LiDAR-相机多模态步态识别基准数据集LRGait。此外,本文设计一个全新的端到端框架EMGaitNet,专为远距离多模态步态识别而优化,通过语义引导的多模态融合策略,有效弥合了RGB图像与点云数据之间的模态差距。

该论文第一作者是厦门大学信息学院2024级博士研究生陆志阳,通讯作者是程明教授,由江文、吴天任、王志超、沈思淇长聘副教授、张长旺高级研究员(OPPO研究院)共同合作完成。

论文8:SpikingIR: A Novel Converted Spiking Neural Network for Efficient Image Restoration

简介:脉冲神经网络(SNN)因其事件驱动机制和低能耗特性,被视为替代传统人工神经网络(ANN)的理想方案,但在图像恢复等对输出精度高度敏感的低层视觉任务中,其离散脉冲表示易引入量化误差与信息损失,严重制约了性能表现。针对这一问题,本文提出了一种面向图像恢复任务的ANN-to-SNN转换框架 SpikingIR。该框架围绕输出层与中间层的量化误差与信息损失问题,分别引入卷积像素映射模块(CPM)和膜电位复用神经元(MPRN):CPM通过卷积操作将离散脉冲输出映射至连续空间,并结合残余膜电位信息增强像素级表示能力;MPRN则通过额外的后处理步骤充分释放神经元残余膜电位,减少信息丢失,从而提升整体表达精度。在此基础上,结合能耗约束的微调策略,SpikingIR 在去雾、去噪和超分辨率任务中实现了在极少时间步下接近ANN模型的性能,同时显著降低能耗,展现出良好的效率优势与实际应用潜力。

该论文第一作者是厦门大学信息学院2024级硕士生欧阳洋,通讯作者是曲延云教授,由程梓涵、罗小同(香港理工大学)、李国齐研究员(中国科学院自动化研究所)共同合作完成。

论文9:PC-CrossDiff: Point-Cluster Dual-Level Cross-Modal Differential Attention for Unified 3D Referring and Segmentation

简介:针对当前3D视觉定位(3DVG)方法在多目标复杂场景下面临的两大关键瓶颈——隐式定位线索解析能力不足与空间匹配关系干扰抑制缺失,本文提出一种基于点-簇协同优化的跨模态差分学习网络(PC-CrossDiff)。该方法通过点层级跨模态差分注意力,自适应提取文本描述中的隐式定位线索,有效缓解文本潜在语义丢失问题,显著增强模型在多目标场景下的定位判别能力;同时,引入簇级差分注意力,通过差异化建模空间匹配关系并动态抑制无关干扰,解决定位关联关系的选择性提取难题。通过点级局部语义感知与簇级全局关系筛选的协同建模机制,PC-CrossDiff统一建模3D指代表达式理解(3DREC)与3D指代表达式分割(3DRES)任务。该方法无需复杂的投影流程,在保持高推理速度的同时,显著提升了多目标复杂场景下的定位精度与鲁棒性,为3D视觉定位提供了一种新的双任务学习范式。

该论文第一作者是厦门大学信息学院2024级博士生谭文斌,共同通讯作者为张亚超助理教授和谢勇教授(南京邮电大学),由2024级硕士生林嘉文、谢源教授(华东师范大学)和曲延云教授等共同完成。

论文10:PC-CrossDiff: Point-Cluster Dual-Level Cross-Modal Differential Attention for Unified 3D Referring and Segmentation

简介:扩散模型在一体化图像恢复(AiOIR)中展现出强大的潜力,尤其擅长生成丰富的纹理细节。现有的 AiOIR 方法通常需要重新训练扩散模型,或者在预训练扩散模型的基础上加入额外的条件引导进行微调。然而,这些方法往往面临推理成本高、对多样化退化类型适应性有限的问题。本文提出了一种高效的 AiOIR 方法——Diffusion Once and Done(DOD),旨在仅通过 Stable Diffusion(SD)模型的一步采样就实现优异的恢复性能。具体而言,首先引入了多退化特征调制机制,通过预训练的扩散模型来捕获不同的退化提示;随后,参数高效的低秩条件适配方法将这些提示进行融合,从而使 SD 模型能够通过微调适应多种退化类型。此外,本文在 SD 的解码器中集成了高保真细节增强模块,以提升结构与纹理细节。实验结果表明,本文方法在视觉质量与推理效率方面均优于现有基于扩散模型的图像恢复方法。

该论文共同第一作者为厦门大学信息学院2024级博士生唐妮和香港理工大学罗小同,通讯作者为曲延云教授,由程梓涵、周亮太、张东晓(集美大学)共同合作完成。

论文11:Self-supervised Multiplex Consensus Mamba for General Image Fusion (Oral)

简介:图像融合通过整合不同模态的互补信息,生成高质量的融合图像,从而提升目标检测、语义分割等下游任务的表现。不同于面向单一任务的专用融合方法,通用图像融合旨在不增加复杂度的前提下,实现更广的任务范围并提升性能。为此,本文提出一种用于通用图像融合的自监督多路共识SMC-Mamba框架。首先,该框架创新性地设计了模态无关特征增强(MAFE)模块,通过自适应门控保留局部精细细节,并以空间通道与频率旋转扫描强化全局表征。其次,多路共识跨模态 MCCM 通过专家间动态协作与跨模态互扫,高效整合多模态的互补信息:一方面鼓励专家形成多样的特征偏好与融合策略,另一方面促使被激活专家向统一表征收敛,从而为图像融合及下游任务提供更可靠的结果。此外,本文提出一种新颖的双层自监督对比正则化损失(BSCL),在不增加模型复杂度的前提下,同时在特征层与像素层增强高频信息,并进一步提升下游视觉任务的性能。实验结果表明,该方法在红外可见光、医学、多焦点与多曝光等多类融合任务及相关下游视觉任务上均优于SOTA方案。

该论文第一作者是厦门大学人工智能研究院2022级博士生王莹莹,通讯作者是涂晓彤副教授,由丁兴号教授指导完成。

论文12:MMMamba: A Versatile Cross-Modal In Context Fusion Framework for Pan-Sharpening and Zero-Shot Image Enhancement (Oral)

简介:遥感全色锐化(Pan-sharpening)旨在将高分辨率全色(PAN)与低分辨率多光谱(MS)融合,生成高分辨率多光谱图像。传统 CNN 方法多依赖通道拼接与固定卷积算子,难以适应多样的空间与光谱变化;而 Transformer 虽能实现全局交互,但计算开销大,且易弱化细粒度对应关系,难以刻画复杂语义关联。为此,本文首次将上下文条件(in-context conditioning)范式引入全色锐化,并提出跨模态上下文融合框架 MMMamba。该方法基于 Mamba 架构,在保持强跨模态交互能力的同时实现线性计算复杂度。其次,为充分释放上下文条件的潜力,本文设计了一种新颖的多模态交错(MI)扫描机制,通过在空间上将PAN和MS的相应信息单元(token)交错排列,促进了两种模态间高效、直接的双向信息交换。此外,该框架具备卓越的零样本泛化能力:仅针对全色锐化任务训练后,模型无需任何微调即可直接应用于多光谱图像的超分辨率任务。在多个基准数据集上的大量实验证明,MMMamba在全色锐化和零样本图像增强任务中均一致性地优于现有的SOTA方法。

该论文共同第一作者是厦门大学人工智能研究院2022级博士生王莹莹、香港科技大学何炫华和中国科学技术大学伍宸,通讯作者是车昊轩(华为诺亚方舟实验室),由丁兴号教授指导完成。

论文13:BeyondSparse: Facilitating Mamba to Enhance Cross-Domain 3D Semantic Segmentation in Adverse Weather

简介:该论文探索了恶劣天气下,空间噪声的注入影响LiDAR点云的反射率,加剧域分布差异化,降低3D模型泛化性能的问题。当前方法主要依赖于3D稀疏卷积架构处理点云数据。但受限于局部感受野,难以有效捕获不同稀疏度点云的全局几何特征,导致跨域迁移能力受限。因此,本文创新性地将状态空间模型集成到3D稀疏卷积的体系结构中,序列建模所有特征以学习域不变表示。首先,设计领域特征解耦模块,在序列建模之前将特征分离为域不变特征和域特定特征,为后续跨域表征对齐奠定基础。其次,设计基于Mamba的3D编码器,将状态空间模型与3D稀疏卷积块集成,实现对体素化点云的全局序列化建模,突破局部感受野限制。最后,引入风格增强模块,捕获输入数据的内在属性,强化域不变表示的鲁棒性。该方法的提出有效缓解了恶劣天气下点云分布偏移导致的性能退化问题。实验结果证明,在场景SemanticKITTI→SemanticSTF和SynLiDAR→SemanticSTF下实现点云域泛化和域自适应的突破性进展,显著超越当前最先进的方法。

该论文的第一作者是厦门大学信息学院2025届博士毕业生吴垚,共同通讯作者是曲延云教授和张亚超助理教授,由2025届硕士毕业生邢明炜、王方勇教授(汉江国家实验室)、张晓沛教授(美国加利福利亚大学)共同合作完成。

论文14:OmniEvent: Unified Event Representation Learning OmniEvent

简介:事件相机因其超高的动态范围和时间分辨率,在计算机视觉领域日益受到关注。然而,由于事件数据流的非结构化分布和时空非均匀性,现有方法主要依赖特定任务的设计,导致模型难以在不同任务间复用。为此,本文提出了首个统一的事件表示学习框架OmniEvent,旨在消除对特定任务设计的需求。OmniEvent在空间域和时间域上独立进行局部特征聚合与增强,以避免时空不均的问题。此外,采用空间填充曲线以极高的内存和计算效率实现大感受野,并最终通过注意力机制融合时空特征。在3个代表性任务和10个数据集上均取得了SOTA性能。该论文共同第一作者是厦门大学信息学院2024级博士研究生严伟奇和2023级硕士研究生林晨露,通讯作者是臧彧副教授、蔡志鹏研究员(Meta AI)。并由汪有标、林修弘、施阳阳研究员(Meta AI)、刘伟权副教授(集美大学)共同合作完成。

论文15:Decompose and Attribute: Boosting Generalizable Open-Set Object Detection via Objectness Score

简介:开放集目标检测(Open-set Object Detection, OSOD)的目标是在识别已知类别目标的同时,定位先前未见过的实例。然而,真实场景中往往同时存在域偏移与未知类别的问题。现有的 OSOD 方法通常忽略域偏移,依赖仅在源域上训练的特征表示。这些表示往往将域特定的风格与语义内容纠缠在一起,从而削弱了模型对未知域和未知类别的泛化能力。为应对这一挑战,我们提出了一个统一框架——Decompose and Attribute (DOAT),旨在将域特定风格与语义结构解耦,从而实现更具泛化能力的目标检测。DOAT 通过基于小波的特征分解,显式地分离并建模了域偏移与类别偏移。针对域偏移,DOAT 在风格子空间内对低频分量进行扰动,以模拟多样化的域特征;针对未知类别的发现,利用高频分量,通过归因机制融合小波能量与语义距离,以估计目标性得分。

该论文的共同第一作者是厦门大学人工智能研究院2024级博士生袁与炫和2024级硕士生魏励晨,通讯作者为黄悦教授,由唐路垚(香港大学)、陈超奇(深圳大学)、丁兴号教授等共同完成。

论文16:xMHashSeg: Cross-modal Hash Learning for Training-free Unsupervised LiDAR Semantic Segmentation (Oral)

简介:本文针对无监督、无需训练的LiDAR点云语义分割问题,提出了一种新的跨模态哈希学习框架xMHashSeg。现有方法在面对新场景或新类别时通常需要大量重新训练,依赖标注数据或模型微调。为解决这一挑战,xMHashSeg充分利用2D图像与3D点云的互补信息,在完全不使用标签、不进行任何训练的前提下实现语义分割。本文设计了一种新型非参数网络Point-SANN,用于从原始LiDAR点云中提取对密度变化鲁棒的3D特征。为有效融合多模态特征,论文引入哈希码学习模块,将不同模态特征投影到统一的哈希空间中,通过协同离散表示学习和二值聚类结构优化,获得一致且判别性强的哈希编码用于聚类分割。在多个公开数据集上的实验验证了方法的优越性。

该论文第一作者是厦门大学人工智能研究院2024级博士生张嘉龙,共同通讯作者是曲延云教授与张亚超助理教授,由吴垚(福州大学)、 王方勇(汉江国家实验室)等共同合作完成。

论文17:Joint Implicit and Explicit Language Learning for Pedestrian Attribute Recognition(Oral)

简介:本文研究行人属性识别(PAR)任务,PAR因其在视频监控和行人分析中的广泛应用而日益受到关注。一些文本增强方法通过将属性转换为语言描述来解决这一任务,以促进属性与视觉图像之间的交互学习。然而,这些通用语言无法唯一描述不同的行人图像,缺乏个体特征。本文提出一种联合隐式与显式语言引导增强学习(JGEL)方法,通过双语言学习将每个行人图像转换为语言描述,以有效学习增强的属性信息。具体而言,我们首先提出隐式语言引导学习(ILGL)流,将视觉图像特征投影到文本嵌入空间以生成伪词标记,隐式建模图像属性并提供个性化描述。此外,我们提出显式属性增强学习(EAEL)流,显式引导ILGL生成的伪词标记与行人属性对齐,从而有效将伪词标记与文本嵌入空间中的属性概念对齐。大量实验表明,JGEL在提升PAR性能及挑战性零样本PAR任务方面具有显著优势。

该论文第一作者是厦门大学信息学院2024级博士后张玉康,通讯作者是王菡子教授,由谭磊、卢杨副教授、严严教授共同合作完成共同合作完成。

论文18:WinMamba: Multi-Scale Shifted Windows in State Space Model for 3D Object Detection

简介:三维目标检测是自动驾驶感知的重要任务,但在最大化计算效率和捕捉长距离空间依赖关系方面仍存在挑战。Mamba模型凭其线性状态空间设计,能以更低的计算成本捕捉长距离依赖,从而在效率与精度间取得良好平衡。然而,现有方法依赖固定窗口内的轴对齐扫描,不可避免地丢失部分空间信息。为此,本文提出基于Mamba的三维特征编码主干网络WinMamba。首先,为增强主干网络的多尺度表征能力,引入了一个窗口尺度自适应模块,在采样过程中对不同分辨率下的体素特征进行补偿。其次,为了在线性状态空间中获取丰富的上下文线索,引入了可学习的位置编码和窗口移位策略。在KITTI和Waymo数据集上的实验表明提出的方法显著优于基线方法。

该论文第一作者是厦门大学信息学院2025级硕士研究生郑龙辉、2022级博士研究生夏启明,通讯作者是温程璐教授,由陈晓璐、刘昭亮、王程教授共同合作完成。

论文19:Physically-Based LiDAR Smoke Simulation for Robust 3D Object Detection

简介:在烟雾等恶劣天气下,激光雷达点云往往稀疏且噪声显著,导致三维目标检测性能严重下降。为此,本文提出了一种基于物理原理的烟雾仿真框架,用于合成高保真烟雾点云并增强模型感知鲁棒性。首先,构建了基于三维流体动力学的烟雾仿真系统,模拟烟雾粒子的空间扩散与时间演化;结合物理精确的激光雷达感知模块,捕捉光束衰减、散射与多路径效应等复杂光学交互,生成高保真、物理一致的烟雾点云。其次,使用基于距离图像的数据融合策略将仿真烟雾点云集成至真实LiDAR数据集,准确模拟LiDAR扫描特性并自然引入遮挡效应。此外,构建了真实场景LiDAR烟雾数据集LiSmoke用于方法性能验证。结果表明,使用本方法合成数据训练的模型在烟雾场景中检测性能显著提升。

该论文第一作者是厦门大学信息学院2021级博士研究生郑世均,通讯作者是王程教授、刘伟权副教授(集美大学),由郭宇、臧彧副教授、沈思淇长聘副教授、程明教授共同合作完成。