PAMI中心10项研究成果被计算机视觉国际顶级学术会议ICCV 2025录用

时间:2025-07-05 点击:

近日,我中心10篇论文被第20届计算机视觉国际顶级会议International Conference on Computer Vision(简称ICCVCCF A类会议)录用。本届ICCV共收到有效论文投稿11239篇,其中2698篇论文被录用,录用率为24%,录用论文简要介绍如下。(按第一作者姓氏首字母排序)

论文1Task-Aware Prompt Gradient Projection for Parameter-Efficient Tuning Federated Class-Incremental Learning  

简介:该论文第一作者是厦门大学信息学院2023级硕士生柯华龙,共同通讯作者是曲延云教授和张亚超助理教授,由2022级博士生施江鸣、王方勇(汉江实验室)、谢源教授(华东师范大学)共同合作完成近年来,联邦增量学习因其在保护用户隐私的情况下实现连续学习而受到广泛关注。然而,现有工作常需训练整个模型,这在去中心化的联邦设置下带来较大的模型传输和训练负担。本文提出一种基于提示梯度投影的参数高效的微调方法,在有效缓解灾难性遗忘问题的同时,降低了模型训练和传输开销。该方法以visual prompts为基础,提出了“任务感知的提示梯度投影”和“双层提示回放”两个主要模块,前者有效避免对已学习知识的破坏,后者有效利用知识复盘,相辅相成,有针对性地缓解了灾难性遗忘问题。实验结果表明,我们的方法仅以基准方法1%的训练参数量,在相同主干框架下取得了5%的性能提升。


论文2Language Decoupling with Fine-grained Knowledge Guidance for Referring Multi-object Tracking

简介:本文第一作者是厦门大学人工智能研究院2023级博士生黎光耀,通讯作者是王菡子教授,由2023级硕士生庄思萍、2022级硕士生简亚军、严严教授共同合作完成。本文提出了一种新颖的语言引导多目标跟踪方法DKGTrack,通过将自然语言表达解耦为局部描述与运动状态两部分,有效提升了模型对语言细粒度信息的理解能力,从而实现更精确的目标定位与持续跟踪。为增强语言引导下的目标识别能力,本文设计了静态语义增强模块(SSE),通过分层的跨模态特征交互机制强化区域级视觉语言对齐,获得更具判别性的目标表示;同时,提出的运动感知对齐模块(MPA)建模语言中的动态描述与目标轨迹之间的对应关系,提升了跨帧跟踪的一致性。该方法在多个RMOT基准上均取得了优异表现,验证了其在复杂场景中稳健跟踪能力。


论文3Pretend Benign: A Stealthy Adversarial Attack by Exploiting Vulnerabilities in Cooperative Perception

简介:本文第一作者是厦门大学信息学院2024级硕士生林宏伟,通讯作者是温程璐教授。并由潘东屿、夏启明、吴海、沈思淇长聘副教授、王程教授共同完成。现有的协同目标感知对抗攻击方法缺乏隐蔽性,由于不加区分地扰乱传输信息,产生大量误报,而这些误报很容易被基于共识的感知防御机制检测到。本文提出了一种新颖的隐蔽对抗攻击方法Pretend Benign (PB),该方法利用协同感知机制的漏洞,使攻击者能够伪装成良性合作者。PB首先引入了攻击区域选择模块,根据置信度将感知区域划分为子区域,从而精确定位最佳攻击位置;然后利用多目标对抗扰动生成模块生成攻击信号,以此维持共识,赢得被攻击者的信任,从而影响协同目标感知的性能。该方法可用于提升多智能体协同目标感知的安全性。


论文4Iterative Prompt Relocation for Distribution-Adaptive Visual Prompt Tuning

简介:该论文的第一作者是厦门大学2025级硕士生尚驰凯,共同通讯作者是卢杨助理教授与广东工业大学辜方清,由李梦柯(深圳大学)、张逸群(广东工业大学)、陈阵(中国科学院香港创新研究院)、吴锦林(中国科学院自动化研究所)、张晓明(香港浸会大学)等共同合作完成。视觉提示学习旨在通过仅微调轻量化提示使预训练模型适应于下游任务。然而,现有提示方法通常在不同任务下不加区分地使用固定的提示分布,忽略了每个预训练层的提示需求在不同任务中存在显著差异。为此,本文提出了一种全新的视觉提示学习框架——PRO-VPT,旨在通过一个嵌套优化定义来实现提示分布的动态自适应。具体而言,本文基于嵌套优化定义设计了一种提示重定位策略,包含两个优化步骤:首先识别并剪枝惰性提示,随后通过决策将这些提示分配至最优层。通过将提示重定位结合于提示学习中,PRO-VPT能够以优化的形式动态学习各任务的最优提示分布,从而充分发挥提示的潜力。实验结果表明,PRO-VPT在多个下游任务中均显著优于现有方法。


论文5Multi-Schema Proximity Network for Composed Image Retrieval

简介:本文第一作者是厦门大学人工智能研究院2022级博士生施江鸣,共同通讯作者是曲延云教授和华东师范大学谢源教授,由2023级硕士生尹祥博、2022级博士生陈烨赟、张亚超助理教授、张志忠(华东师范大学)等共同合作完成。组合图像检索(CIR)支持用户通过图像与文本的组合方式来检索目标图像,极大提升了表达检索意图的灵活性与准确性。然而,现有CIR 方法仍面临两大挑战:其一,缺乏细粒度的显式视觉监督,导致模型难以实现高质量的多模态交互,难以充分理解参考图像与目标图像之间复杂的语义关系;其二,训练过程中往往忽视潜在的噪声负样本对,从而引入干扰,影响检索性能。针对这些问题,本文提出了多模态邻近网络(MAPNet),核心包括多模式交互模块(MSI)与松弛邻近损失函数(RPLoss)。其中,MSI 利用文本描述作为隐式引导,在参考图像和目标图像中建立对象与属性之间的细粒度关联,提升图文语义理解能力;RPLoss 则通过去噪与重加权策略,显著缓解噪声负样本的干扰,增强查询与目标图像的特征对齐能力。在CIRRFashionIQ LaSCo 三个数据集上进行了大量实验结果表明MAPNet相较当前主流方法在多个指标上均表现出色,展现出强大的检索能力。


论文6Dissecting Generalized Category Discovery: Multiplex Consensus under Self-Deconstruction  

简介:本文共同第一作者是厦门大学信息学院2022级硕士生唐路垚和2023级硕士生黄焜泽,通讯作者是深圳大学陈超奇助理教授和黄悦教授,并由香港中文大学的学者共同参与完成。尽管广义类别发现(GCD)旨在弥合机器与人类在未知类别识别上的能力差距,但现有方法多聚焦于优化目标函数,忽视了视觉识别的组合本质。本文受人类认知过程启发——将物体分解为视觉基元并建立跨知识比较,提出了ConGCD框架。该框架通过语义重建构建面向基元的表示,利用解构过程绑定类内共享属性;同时模拟人类视觉处理中的偏好多样性,设计主导共识单元与上下文共识单元,分别捕获类别判别模式和内在分布不变量,并通过动态共识调度器优化激活路径,最终通过多重共识整合生成预测。实验表明,ConGCD在粗细粒度基准上均展现出有效性,作为共识感知范式实现了对GCD方法的即插即用兼容。


论文7Motal: Unsupervised 3D Object Detection by Modality and Task-specific Knowledge Transfer  

简介:该论文第一作者是厦门大学信息学院2021级博士生吴海,通讯作者是温程璐教授。并由林宏伟、郭徐晟、Xin Li (Texas A&M University) 教授、王明明(GAC R&D Center)、王程教授共同完成。无监督三维目标检测不使用标签监督进行三维目标的检测。现有无监督三维目标检测产生的伪标签无法同时保证目标分类和位置尺寸回归任务的性能,进而导致检测精度下降。为此,本文提出了基于模态和特定任务知识迁移的无监督三维目标检测方法——MotalMotal首先将伪标签解耦为两组候选框。一组通过运动和图像外观先验提取目标分类信息,另一组通过几何先验提取目标回归信息。然后,Motal使用任务特定的掩码训练方法将所有知识迁移到一个学生网络中,实现分类与回归任务的双重提升。该方法可用于构建高效离线三维目标样本自动标注流程。


论文8You Are Your Own Best Teacher: Achieving Centralized-level Performance in Federated Learning under Heterogeneous and Long-tailed Data

简介:本文的第一作者是厦门大学23级硕士生严珊珊、通讯作者是卢杨助理教授,由李则熹(剑桥大学,浙江大学)、吴超(浙江大学)、庞孟(南昌大学)、严严教授、王菡子教授共同合作完成。数据异质性问题,包括本地数据的非独立同分布和全局长尾分布,是联邦学习面临的主要挑战之一,也是其性能与集中式学习存在显著差距的关键原因。已有研究认为,特征表示不足和分类器偏差是主要瓶颈,并提出了受神经坍塌启发的合成单纯形ETF方法,但这些方法依然难以真正达到神经坍塌,与集中式训练仍有较大差距。为此,本文从self-bootstrap的角度出发,提出了FedYoYo方法——“你是自己的最佳老师”。我们通过增强自蒸馏,在本地弱增强和强增强样本间进行知识蒸馏,无需额外数据集或模型,有效提升了特征表示能力。同时,引入分布感知的Logit调整,进一步平衡self-bootstrap过程,纠正特征偏差。FedYoYo显著缩小了与集中式学习的性能差距,即使在复杂异质性场景下也能接近集中式表现。大量实验表明,FedYoYo取得了当前最优效果,在全局长尾分布下,甚至比集中式Logit调整方法高出5.4%


论文9RALoc: Enhancing Outdoor LiDAR Localization via Rotation Awareness

简介:本文第一作者是厦门大学信息学院2023级硕士生杨煜阳、2021级博士生李文,通讯作者是王程教授。并由敖晟助理教授、徐青山(南洋理工大学)、于尚书(东北大学)、郭宇、周寅(GAC R&D Center)、沈思淇长聘副教授共同完成。现有基于隐式表达的激光雷达定位方法对旋转敏感,容易导致定位精度显著下降。针对以上问题,本文提出旋转感知增强的户外点云视觉定位方法-RALocRALoc设计了点云规范化模块,通过有效提取等变特征将输入点云转换至规范方向,有效消除旋转对点云定位的干扰。此外,本文构建了双向激光雷达定位数据集(BiLiLo),为评估大旋转变化场景下的定位性能提供基准平台。该方法可显著提升大规模复杂户外场景下激光雷达点云的定位精度。 这项成果攻克了成像方向干扰难题,提升了激光雷达视觉定位的可用性,赋能#城市空间/#无人驾驶/#低空经济应用。


论文10ASGS: Single-Domain Generalizable Open-Set Object Detection via Adaptive Subgraph Searching

简介:本文共同第一作者是厦门大学人工智能研究院2024级博士生袁与炫和信息学院2022级硕士生唐路垚,共同通讯作者是深圳大学陈超奇助理教授和黄悦教授,由陈轶鑫和丁兴号教授等共同合作完成。论文首次探索单源域泛化开集检测任务,直面“未知领域+未知类别”的双重挑战。本文提出了ASGS 框架,其包含Subgraph-wise Unknown-class Learning (SUL)Class-wise Embedding Compaction(CEC)两大模块:SUL 通过自适应子图搜索先检测潜在未知样本并提取高阶结构子图,CEC则引入对比学习压紧类内嵌入分布,强化判别边界。实验结果显示,ASGS 在同时存在域偏移和未知类别时,显著优于现有开集检测方法,验证了其具有对未知目标的感知与泛化能力。