本中心的主要研究方向有:视频跟踪和监控,目标检测,目标识别,视觉显著性分析,鲁棒统计学和模型拟合,图像三维重构。各个部分的主要内容如下: 视频跟踪和监控计算机视觉领域的核心研究课题之一,主要目的是模仿生理视觉系统的运动感知功能,通过对摄像头获得的图像序列进行分析,计算出运动目标在每一帧图像上的二维坐标位置,根据不同的特征值,将图像序列中连续帧间的同一运动目标关联起来,得到每帧图像中目标的运动参数以及相邻帧图像间运动目标的对应关系,得到运动目标完整的运动轨迹,和连续视频序列中运动目标的对应关系。简单地说,就是在下一帧图像中找到目标的确切位置,并反馈给跟踪系统进行跟踪,为视频序列分析和理解提供重要的依据和基础。智能视频监控是计算机视觉领域新兴的研究方向,它通过对摄像机拍摄的视频图像序列进行自动分析来对被监控场景中的事物变化进行定位、跟踪和识别,并以此对相关目标的行为进行分析和判别,在实现了日常管理工作的同时又能对目标的异常行为做出及时反应。 目标检测目标检测是与计算机视觉领域和图像处理技术相关的一项计算机应用技术,它主要用来检测数字图像和视频中一个特定类型的语义目标实例,(比如人类、建筑物或车辆)。目前被广泛深入研究的领域包括人脸检测与行人检测。目标检测在计算机视觉的许多领域中都得到应用,包括图像检索、视频监控等。 目标识别在计算机视觉领域中,目标识别就是从图像和视频序列中寻找所给定目标的任务。人类可以毫不费力地从大量的图像中认知物体,尽管实际上这些物体的图像可能具有不同的视角,各种不同大小、尺度,甚至是经过变换或者旋转过的。甚至当物体在视野中被部分遮挡,人们还是照样可以识别出来。而对计算机视觉系统来说,这还是一个极具挑战性的工作。 显著性分析与检测对于一幅图像来说,用户感兴趣的只是图中的部分区域,这些区域集中反映了用户的查询意图。显著性区域就是图像中最能引起用户兴趣、最能表现图像内容的区域。常用的显著性检测方法是利用人的视觉注意力的生理机制为基础计算图像的显著性。显著性源于视觉的独特性、不可预测性、稀缺性以及奇异性,与人类视觉感知、刺激处理模式密切相关。 认知心理学的研究表明,图像中有些区域能显著的吸引人的注意,这些区域含有较大的信息量。 鲁棒统计学鲁棒统计学是经典统计学的一种替代,目标是当存在与模型假设不相符合的噪音数据时,依然能够对模型产生正确的估计。经典统计学在这种情况下往往会失败。在统计学中,经典的估计方法严重地依赖于一些假设,而这些假设在实际中往往无法得到满足。比如,数据误差通常被假设成满足正态分布,至少是近似的正态分布。鲁棒统计通过设计一些能够满足事先选择的影响函数的估计子来实现鲁棒估计,或者将那些只在正态分布假设前提下最优的描述子替换为在其它分布假设下最优的描述子。通常鲁棒统计被用于估计模型的位置、尺度、回归系数等参数。 三维重建三维重建是从一组二维图像中重建出场景或目标的三维模型的过程。它是从三维场景获得二维图像的逆过程。二维图像的本质是三维场景或目标在二维屏幕的投影,在投影过程中丢失了深度信息。但如果对同一场景或目标从不同角度拍摄两张或更多二维图像,就可以利用摄像机的视差来计算场景中三维点的坐标。这个过程的关键是各个摄像机拍摄的多个视角的图像必须包含对应点的相关结构,这种结构与摄像机的姿势和标定有关。 文本检测识别自然场景图像中的文本包含丰富的高层语义信息,文本检测和识别技术可广泛应用于图像和视频的理解、存储和检索、车辆牌照识别和移动导盲等领域。由于图像的复杂背景和光照变化,以及文本的尺寸、字体、颜色和排列方式的多样化,其研究具有极大挑战。当前基于End-to-End的文本检测和识别方法,是利用了多类目标检测和目标识别的思想,将检测和识别过程同时进行,有效的提高了检测和识别率。但该方法只能针对类别较少的英文和数字,还不能直接应用到中文。本中心致力于中文自然场景图像数据库的建立和针对中文的End-to-End识别算法研究。 |
|