近日,我中心有5篇论文被多媒体国际顶级会议ACM International Conference on Multimedia(简称ACM MM,CCF A类会议)录用,5篇论文分别关注人工智能-计算机视觉中的行人重识别、小样本行为识别、人脸表情识别、任务超分辨率和语义分割。
由我中心博士生张玉康完成的论文《Towards a Unified Middle Modality Learning for Visible-Infrared Person Re-Identification》被ACM MM接收,论文框架如图所示。跨模态行人重识别中主要的难点在于白天的彩色行人图像和夜间的灰度图像行人图像之间的模态差异。该论文提出了一种基于统一中间模态网络的跨模态行人重识别方法(MMN),包括中间模态生成器和分布差异损失,中间模态生成器首先将两个模态的图像分别输入到两个参数不共享的通道层面的编码器进行编码,接下来将其输入到一个共享的解码器中生成统一的中间模态图像,中间模态图像与原始图像一起输入到网络中用于辅助原始图像学习有效的特征表征。为了进一步的降低模态差异、拉近两种中间模态图像之间的距离,该论文提出了一个分布差异损失,有效的改善了模型的性能。实验结果表明,该方法在2个常用的跨模态行人重识别数据集上都达到了最好的性能。就rank1而言,超越了现有方法10%以上。该论文由王菡子教授、严严副教授、卢杨老师共同指导。

算法框架图
由我中心博士生王晓、硕士生叶伟荣完成的论文《Semantic-Guided Relation Propagation Network for Few-shot Action Recognition》被ACM MM接收,论文框架如图所示。小样本行为识别任务最大的难点就是训练样本不足,一些深度学习方法在该任务上无法发挥其优势,导致无法获得较好的训练模型。由于训练样本较少,学习到的相近的类的视觉特征非常相似,导致无法正确区分这两类。因此,该论文提出了一种语义引导的关系传播网络小样本行为识别方法。通过引入利用样本的标签信息去监督网络进行学习。当训练样本较少时,语义信息可以辅助网络学习更具有判别力的信息。然而,对于特别复杂的相似类,仅仅使用语义信息还是不能够很好的进行视频分类。考虑到视频序列里面含有丰富的时序信息,该文提出了时空差异性模块来提升对视频的视觉特征学习能力。实验结果表明,该方法在3个数据集都达到了优越的行为识别性能。该论文由王菡子教授、腾讯PCG应用研究中心(ARC)主任单瀛、高级研究员祁仲昂、赵珣共同指导。

算法框架图
由我中心硕士生莫榕云完成的论文《D3Net: Dual-Branch Disturbance Disentangling Network for Facial Expression Recognition》被ACM MM接收,论文框架如图所示。人脸表情图像中存在常见干扰因素(如身份、光照、姿态等)和潜在干扰因素(如发型、配饰、遮挡等)。该论文提出了一种基于多任务框架的双分支干扰分离的人脸表情识别方法(D3Net),包括表情分支和干扰分支,可以同时分离常见干扰特征和潜在干扰特征,提取更有效的表情特征。其中,干扰分支包含两个子分支。一个子分支利用其它人脸数据集的干扰标签和迁移学习的方式来训练,可以提取常见干扰特征。另一个子分支结合非参数贝叶斯先验——印度自助餐过程(IBP)先验,以无监督的方式学习潜在干扰特征。同时,该方法通过对抗训练来区分干扰特征和表情特征。最后,优化联合损失,促使表情分支更专注于提取高判别力的表情特征。实验结果表明,该方法在3个室内数据集和2个室外数据集上都达到了优越的识别性能。该论文由严严副教授、王菡子教授、伦敦大学学院薛景浩副教授和厦门理工学院陈思副教授共同指导。

算法框架图
由我中心2020级博士生罗小同与2020级硕士梁秋源合作完成的论文《Boosting lightweight Single Image Super-resolution via Joint-distillation》被ACM MM接收,该论文由曲延云教授、字节跳动研究科学家刘鼎共同指导。
超分辨率模型存在模型复杂性高和内存占用大的问题,该论文提出了一种联合蒸馏框架,以进一步增强已有轻量级超分模型的表达能力。该框架包括同伴低分生成阶段和联合蒸馏学习阶段。同伴低分生成通过高分图像训练获得,使用该低分图作为输入的网络能以极少的花销达到与大模型相当的超分性能。联合蒸馏学习包括模型内部的自蒸馏和外部的互学习。内部自蒸馏旨在通过将知识从网络深层迁移到浅层,从而实现模型的自提升。外部互学习旨在从同伴网络中获取交互信息。此外,引入了课程学习策略和性能差距阈值,以平衡原始网络和同伴网络的收敛速度。实验结果表明,该方法在超分基准数据集提升了当前轻量级超分模型的性能,同时保持相同的模型结构和推理开销。论文框架如图所示。

算法框架图
由我中心2019级硕士生戴必成与2020级硕士生吴楷生合作完成的论文《Faster-PPN: Towards Real-Time Semantic Segmentation with Dual Mutual Learning for Ultra-High Resolution Images》被ACM MM接收,该论文由曲延云教授、华东师范大学谢源教授共同指导。
大尺度图像语义分割的主要难点在于计算资源消耗大、分割精度低等问题。已有的大尺度语义分割方法PPN、GLnet存在执行效率低等问题,该论文提出了一种可用于大尺度图像的实时语义分割的高效全局-局部协同的快速块推荐网络 Faster-PPN。Faster-PPN由双向互学习模块和像素提议融合模块组成,双向互学习模块从教师网络中挑选出分布合理的图像块用于全局和局部分支的互学习,在提升分支结果的同时缓解了以往互学习所带来的同质化问题,使得全局和局部分支的融合结果能得到进一步提高。相比于PPN的块推荐机制,Faster-PPN中的像素推荐融合模块可以自适应地从全局分支中挑选出像素级别的待增强特征,从而大大减少了待增强特征的数量。基于像素级的推荐网络使得Faster-PPN可以实现大尺度图像的实时语义分割。实验结果表明,该方法在3个大尺度图像数据集的精度,推理速度以及内存占用方面都达到了当前同类算法中最好的结果。论文框架如图所示。

算法框架图