伦敦大学学院薛景浩教授访问我中心

时间:2026-04-23 点击:

2026年4月16日上午,伦敦大学学院薛景浩教授应邀访问我中心,并为信息学院师生作了题为《Probing CLIP's Comprehension of 360-Degree Textual and Visual Semantics》的专题讲座。薛景浩教授首先介绍了360度全景图像生成的快速发展背景,指出了在评估生成图像与文本语义对齐时,标准CLIP模型面临的挑战,并且介绍了应对这些挑战的三个核心工作:

1)首次提出了两个全新概念:360度文本语义(由显式格式标识符传达的语义信息)和360度视觉语义(在水平循环平移下保持不变的视觉语义),并设计了基于关键词替换和不同幅度水平平移的全新评估方法来探究CLIP模型的理解能力。

2)通过严谨的统计学分析揭示了现有CLIP模型的局限性:实验证明,虽然CLIP模型能够有效利用显式的全景文本标识符,但它们无法在水平循环平移下保持稳定的语义对齐,表明其对360度视觉语义的理解非常有限。

3)针对上述缺陷,提出了一种基于LoRA的微调框架。该框架引入了专门的损失函数,在显式注入水平平移不变性的同时,通过正则化项保留原始的语义预测能力。证明了微调后的模型能显著提升对360度视觉语义的理解,同时也揭示了在基础语义评估能力和全景图像适配性之间的权衡。

讲座结束后,现场气氛热烈,在场师生对薛景浩教授介绍的科研成果踊跃提问,薛景浩教授耐心解答了每一位师生的提问,并分享了自己在研究过程中的心得体会和宝贵经验。此次讲座不仅为我校信息学院的师生提供了一个了解多模态模型在前沿全景图像领域最新评估及改进成果的平台,也给了正在做文本驱动全景图像生成、多模态对齐和微调技术的同学新的启发。

 薛景浩老师本科就读于清华大学,先后获得清华大学工学博士学位与格拉斯哥大学统计学博士学位,现任伦敦大学学院(UCL)统计模式识别教授,曾于2018至2023年间担任艾伦·图灵研究所研究员。他在ICLR、NeurIPS等人工智能顶级会议,以及IEEE TIP、IEEE TCSVT、IEEE TMM、IEEE TNNLS等国际权威学术期刊上发表了大量高水平学术成果,并担任多本权威期刊的高级领域主编或杰出副主编。其研究兴趣主要包括统计学、人工智能、机器学习、模式识别以及计算机视觉。