一种行人视频检测中阴影检测去除设计和实现

时间:2011-07-04

 

  随着计算机技术的飞速发展,基于计算机视觉技术的智能视频监控成为一个研究热点。从视频中进行行人检测是是智能视频监控中为关键的一步。基于梯度方向直方图(hog)的检测方法以其良好的检测效果得到很多研究者的广泛关注。然而,由于基于hog的检测方法需要大量的计算,实时性很难满足实际应用的需求。而基于运动信息的运动检测算法,如背景差分法等,因为计算简单在很多实际系统中得到运用,但是在复杂场景下很难获得较高的准确率。

  本文提出一种新的基于YUV颜色空间的阴影去除算法,因为很多摄像头的输出信号采用YUV颜色空间,与基于RGB颜色空间的处理方法相比,省去了图像颜色空间转换的步骤,能提高处理速度。在图像特征上,本文结合像素点的光谱特征与图像整体的空间特征,首先通过亮度差和色差对像素点进行判断,再利用目标本体与阴影只相接不相交的空间特征,对去除结果进行修正,使其阴影去除效果更好。同时,为了使算法适应光照、场景等的变化,采用模糊神经网络进行目标本体与阴影的分类,用遗传算法对网络参数和权值进行自适应调整,以提高算法的鲁棒性。

  1 YUV颜色空间

  在色彩学上,为了可以准确定量地描述颜色,将色彩定义为三大属性:"Y"表示明亮度,即灰度值;"U"和"V"表示色度,作用是描述图像色彩及饱和度,用于指定像素的颜色。根据美国国家电视制式委员会NTSC制式的标准,白光的亮度用Y来表示,色差U、V由B-Y、R-Y按不同比例压缩而成,与红、绿、蓝三色光的关系可用式(1)描述,这也是常用的转换公式。YUV到RGB的转换公式则如式(2)所示。


 

    式中,R、G、B的取值范围均为0~255。通常摄像机的数据以RGB、YUV或YCrCb的格式输出。采用YUV颜色空间的重要性是它的亮度信号Y和色度信号U、V是分离的。目前有很多种颜色空间可以将图像的色度分量和亮度分量区分开来,如HSV颜色空间,但是这种转换较为复杂,对于大型图像非常耗时,并且在亮度值和饱和度较低的情况下,采用HSV颜色空间计算出来的H分量是不可靠的。

    在YUV颜色空间中,如果只有Y信号分量而没有U、V信号分量,则这样表示的图像就是黑白灰度图像。除去亮度信号后,由U和V单纯表现出色度。因此,如果要将U与V色差信号用色相及饱和度来表示,必须从含有三维空间的色点P投影到U-V平面的P′点,如图1(a)所示。U-V平面投影法在受到不稳定光源亮度的扰动时,对于目标色度有较大的性且不易辨识错误,但是当光源色温变化过大时,其饱和度和色相的增减变化不易掌握。因此,如果需要判定两个任意色点是否为同一色度时,必须确定其色相与饱和度都是相等的。如图1(b)所示,对两个色点P1与P2,当其与U轴的夹角α1=α2时,表示色相相等;当其与原点的距离L1=L2时,表示饱和度相等。当两者都相等时,表示色度完全相同。

 

 

    对于光源亮度的不稳定因素,只要光源亮度不是极值(极亮或极暗),对于相似颜色,如深蓝色和蓝色,就有相近的色度关系。对运动目标本体和阴影,也有相近的色度,但亮度值差别较大,可通过计算当前图与背景图之间的亮度差值和色差来进行阴影去除。



    上述准则在应用中,要注意Ymin、ε和Δα等阈值的选取,因为这对判断结果的影响较大。要找到合适的阈值[9],需要对视频资料进行大量的仿真实验,这需要花费很长时间,而且根据现有资料得到的阈值不能根据场景、光照等的变化自适应进行调整,实用价值不大。

    针对上述问题,将模糊神经网络[10-11]融入到目标本体与阴影的分类中是很好的解决方法。它利用神经网络的自学习能力和自适应能力来调整模糊规则和隶属度函数,通常对神经网络的训练采用BP算法,但是BP算法具有收敛性依赖初始条件,容易陷入局部极小值等问题。因此,本文采用遗传算法优化模糊神经网络的结构和参数,并自动获得的模糊规则,使网络能自动适应场景与光照的变化。

    2.3 模糊神经网络

  模糊理论和神经网络技术是近年来人工智能研究较为活跃的两个领域。人工神经网络是模拟人脑结构的思维功能,具有较强的自学习和联想功能,人工干预少,较高,对知识的利用也较少。但缺点是它不能处理和描述模糊信息,不能很好利用已有的经验知识,特别是学习及问题的求解具有黑箱特性,其工作不具有可解释性,同时它对样本的要求较高;模糊系统相对于神经网络而言,具有推理过程容易理解、知识利用较好、对样本的要求较低等优点,但它同时又存在人工干预多、推理速度慢、较低等缺点,很难实现自适应学习的功能,而且如何自动生成和调整隶属度函数和模糊规则,也是一个棘手的问题。如果将二者有机地结合起来,可以起到互补的效果。

    模糊神经网络的结构如图2所示。

 



  式中,ui表示对第i个模糊子集的隶属度,zi表示输出结论的支集值。,对输出结果进行二值化表示,1表示目标本体,0表示阴影。当结果小于0.05时,认定为阴影;结果大于0.95时,认定为目标本体,当结果在0.05~0.95之间时,认为无法判断。

  2.4 网络自适应优化

  用遗传算法对模糊神经网络的结构和参数进行优化。网络的结构优化指确定第3层节点数、第3层和第2层的连接数、以及第3层和第4层的连接数和连接权值。网络的参数优化包括输入变量的隶属度函数的中心参数和宽度参数、输出变量的隶属函数支集值。

  种群的每个个体由网络结构和网络的输入隶属度函数参数和结论参数组成,其长度为结构基因长度+参数基因长度。结构基因中"连接"采用二值的编码,"0"表示没有连接,"1"表示有连接,连接权值ωji用(0~1)之间实数编码。输入的隶属度参数Cji和bj、结论参数zi采用实数编码。一个染色体对应一种模糊神经网络结构及其参数。初始种群中包含着对应于节点数及输入变量和输出变量在其变化范围内均匀划分模糊子集的个体,其余个体随机产生。将根据经验得到的规则集及输入输出模糊划分对应的向量选入初始种群。

  遗传操作包括复制、交叉、变异。为简化运算实现实时处理,本文仅采用变异操作。二值编码按一定的概率将控制基因串中的位从0变异为1,或者从1变异为0.实数编码按下式突变:


 

  2.5 空间特征

  考虑到图像中阴影和目标本体相接但互不相交,对于不能判断的像素及初步识别结果,按下述规则进行判断和修正:(1)如果周围像素点多数为"阴影",则该点是"阴影".(2)如果周围像素点多数为"目标",则该点是"目标".(3)如果周围像素点多数是目标而被判断为"阴影",则改判断为"目标".(4)如果周围像素点多数是阴影而被判断为"目标",则改判断为"阴影".这里的多数是指相邻8个像素点中5个以上。

  3 实验结果和分析

  图3、图4是室外拍摄的视频序列的处理结果,视频序列共2 571帧,单帧图像大小为354×288,图3是第154帧图像,图4是第363帧图像。

 

 

    童车在图3中作为背景被提取出来,而在图4中成为前景。与图3相比,图4中光照有较大变化,图3(d)、图4(d)、图5(d)表明模糊神经网络分类器能有效地进行阴影去除。由图5(d)可见,通过阴影去除,行人能被分隔开来,这样有利于提高视频检测的准确率。

    表1是对在不同路口拍摄的行人视频进行行人检测的结果,进行阴影去除后视频检测的平均准确率由61.52%提高到80.15%。

 


 

    本文给出了一种新的阴影去除算法,该算法以YUV颜色空间为基础,用模糊神经网络分类器识别对像素点提取的光谱特征是否为阴影,网络的结构和参数采用遗传算法进行实时更新,结合运动目标与阴影的空间特征对分类结果进行修正。实验表明,该方法能适应光照、场景的变化,通过阴影去除能明显提高行人视频检测的准确率。

    本文关于行人视频检测的研究尚处于起步阶段,对视频检测中的遮挡问题、运动描述和行为理解问题还在进一步研究中。


  
上一篇:透析WINCE的控制面板
下一篇:Wind River令你的设备测试工作神清气爽

免责声明: 凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

相关技术资料