Language Decoupling with Fine-grained Knowledge Guidance
for Referring Multi-object Tracking

简介:本文提出了一种新颖的语言引导多目标跟踪方法 DKGTrack,通过将自然语言表达解耦为局部描述与运动状态两部分,有效提升了模型对语言细粒度信息的理解能力,从而实现更精确的目标定位与持续跟踪。为增强语言引导下的目标识别能力,本文设计了静态语义增强模块(SSE),通过分层的跨模态特征交互机制强化区域级视觉语言对齐,获得更具判别性的目标表示;同时,提出的运动感知对齐模块(MPA)建模语言中的动态描述与目标轨迹之间的对应关系,提升了跨帧跟踪的一致性。该方法在多个RMOT基准上均取得了优异表现,验证了其在复杂场景中稳健跟踪能力。
该论文第一作者是厦门大学人工智能研究院2023级博士生黎光耀,通讯作者是王菡子教授,由2023级硕士生庄思萍,2022级硕士生简亚军,严严教授共同合作完成。