核学习的行人再识别分析范文

时间：2022-01-07 08:54:32

核学习的行人再识别分析

《自动化学报》2015年第十二期

行人再识别指的是在非重叠监控视频中,检索某个监控视频中出现的目标是否出现在其它的监控视频中.最近几年,行人再识别问题引起了广大科研人员的兴趣与研究.监控视频中的目标图像分辨率低、场景中存在着光照变化、视角变化、行人姿态变化以及摄像机自身属性的问题,导致同一目标在不同的监控视频中外观区别很大,使得行人再识别问题遇到了很大的挑战。为了有效的解决这些挑战,广大的研究者提出了很多解决方法.目前的行人再识别算法可以简单概括为四种:直接法、基于深度学习的方法、显著性学习的方法和间接法.

直接法利用视觉特征对行人建立一个鲁棒性和区分性的表示,不需要通过学习直接利用行人特征然后根据传统的相似性度量算法(欧式距离、巴氏距离等等)来度量行人之间的相似度.文献[1]首次提出了利用直方图特征来表征目标并通过度量直方图的相似度来识别不同的目标.文献[2]将行人图像粗略分为头部、上半身和下半身3部分,然后串联每一部分的颜色直方图对行人描述.文献[3]采用分割的技术提取人的前景,并利用行人区域的对称性和非对称性将人的前景划分成不同的区域.对于每个区域,提取带权重的颜色直方图特征、极大稳定颜色区域(maximallystablecolorregions)特征和重复度高的结构区域(recurrenthighlystructuredpatches)特征描述它们.文献[4]提出了一种结合gabor特征和协方差矩阵描述的BiCov描述子来对行人描述.文献[5]采用图案结构(pictorialstruc-ture)算法定位图像中人的各个部件所在的区域.对于每个部件的区域，提取与文献[3]类似的颜色直方图特征、极大稳定颜色区域特征来描述它们.文献[6]利用lbp特征和21个滤波器特征(8个gabor滤波器和13个schmid滤波器)来描述图像中的行人.文献[7]通过共生矩阵对行人的形状和外形特征进行描述.虽然直接法的算法模型简单,但由于在光照变化、视角变化以及姿态变化等情况下,同一个人的外观变化往往很大,很难提取出鲁棒性和区分性的特征描述.因此在光照变化、视角变化以及姿态变化等情况下,直接法的效果很差.

深度学来在计算机视觉中得到了广泛的应用,因此不少学者研究并提出了基于深度学习的行人再识别算法.文献[8]LiWei等人提出了一种六层的FPNN神经网络,它能有效解决行人再识别中出现的光照变化、姿态变化、遮挡和背景粘连等问题,从而提高了识别率.文献[9]Ahmed等人提出了一种深层卷积结构能够同时自动学习特征和相应的相似性测度函数.但基于深度学习的行人再识别算法需要非常大的训练数据库,导致训练时间长,此外还需要针对特定问题搭建相应的模型,因此不利于方法的推广.同时,深度学习方法中还存在调置参数缺乏理论性指导,具有较大主观性的问题.基于显著性学习的行人再识别方法近年来也受到研究者的广泛兴趣.人们可以通过行人的一些显著信息来识别行人,但传统的方法在比较两张图片的相似性的时候,往往忽略了行人身上的显著性特征.对此,文献[10]赵瑞等人提出了一种通过学习行人图像的显著性信息来度量两张行人图像的相似性的方法.但显著性学习的行人再识别算法在行人姿态变化的情况下,显著性区域会出现偏移或者消失,导致识别效果较差.间接法主要是学习得到一个分类器或一个排序模型.间接法代表性的算法有距离测度学习、支持向量机、迁移学习和流形排序算法.距离测度学习算法作为间接法中的一种,最近几年在行人再识别中得到了广泛的应用.本文提出的算法也是基于距离测度学习,所以下面着重介绍基于距离测度学习的行人再识别算法.

与手动设计特征的直接法不同,距离测度学习方法是一种利用机器学习的算法得出两张行人图像的相似度度量函数,使相关的行人图像对的相似度尽可能高,不相关的行人图像对的相似度尽可能低的方法.代表性的测度学习算法有文献[11]郑伟诗等人把行人再识别问题当成距离学习问题,提出了一种基于概率相对距离的行人匹配模型,文献[12]提出了一种基于统计推断的方法学习测度矩阵来度量两张行人图像的相似度,以及文献中提出的相应测度学习算法.距离测度算法是将原始特征空间投影到另一个更具区分性的特征空间.与其它的算法相比,距离测度学习算法具有更好的效果.距离测度学习算法即使只使用简单的颜色直方图作为特征,算法的性能往往优于其它算法.文献[12]提出了一种基于统计推断的方法学习测度矩阵来度量行人对的相似度,但作者直接在原始特征空间训练得到测度矩阵,进而得到样本之间的相似性函数.原始特征空间的线性不可分性导致通过原始特征空间直接训练得到的测度矩阵不能很好的表征样本之间的相似性和差异性.本文提出基于核学习的方法,首先通过相应的核函数将原始特征空间投影到非线性空间,然后在非线性空间中学习得到相应的测度矩阵.投影后的非线性特征空间具有很好的可分性,这样学习得到的测度矩阵能准确的表征样本之间的相似性和差异性.另外,基于测度学习的行人再识别算法一般是把多特征融合并建立特征模型,然后基于相应的测度学习算法,学习得到一个测度矩阵.然而这种特征融合往往忽略了不同属性特征之间的差别,这样学习得到的测度矩阵不能准确的表征样本之间的相似性与差异性.对此,本文提出在不同的特征空间中学习相应的测度矩阵,进而得到表示不同特征空间的相似性函数,最后根据不同的权重结合这些相似性函数来表征样本之间的相似性.本文算法在公共实验数据集上的实验效果优于目前主流的行人再识别算法,尤其是第一匹配率(Rank1).本文其余章节的组织安排如下.第1节介绍本文提出的行人再识别算法.第2节介绍本文算法在公共数据集上的实验.第三节总结全文以及展望.

1基于多特征子空间与核学习的行人再识别算法

1.1基于核学习的相似度量函数的学习文献[12]中提出了一种KISSME的算法,文中指出,从统计学角度考虑,一对有序行人对(i,j)的相似度可以表示为式。文献[12]中提出的算法是直接在原始线性特征空间中训练得到测度矩阵,进而得到表示样本之间相似性的相似度函数.由于原始特征空间的线性不可分,上述方法得到的测度矩阵不能准确表达样本之间的相似性和差异性,导致识别效果差.本文提出基于核学习的算法首先通过相应的核函数将原始特征空间投影到更易区分的非线性空间,然后在非线性空间中训练得到测度矩阵M.这样得到的测度矩阵具M有很好的区分性,能使同类样本之间的距离尽可能小,异类样本之间的距离尽可能大.核学习的主要思想是将原始线性特征空间投影到区分性好的非线性空间.原始特征空间中的特征xxi通过函数Φ投影到非线性空间,则非线性空间的特征表示为Φ(xxi).非线性映射函数一般是隐性函数,则很难得到显示表达式,可以利用核函数求解特征空间中样本点的内积来解决。

1.2基于多特征子空间的测度学习基于测度学习的行人再识别算法一般是把多特征融合并建立特征模型,然后基于相应的测度学习算法得到测度矩阵.这种方法忽略了不同属性特征之间的差别,导致学习得到的测度矩阵不能准确的体现样本之间的相似性与差异性.对此,本文提出对于不同的特征空间单独学习相应的测度矩阵,进而得到表示不同特征空间的相似性函数,最后根据不同的权重结合这些相似性函数来表示样本之间的相似性.

1.3行人图像的特征表示本文采用颜色特征和LBP特征对行人目标进行描述,生成两种特征子空间.颜色空间有很多种,用不同的色彩空间描述一图片的效果是不同的.依据文献[20]和文献[21],本文采用的颜色特征从RGS、HSV、YCbCr和CIELab4种颜色空间中提取.RGS空间的定义为R=R/(R+G+B)、G=G/(R+G+B)、S=(R+G+B)/3.为了获取具有鲁棒性和区分性的颜色特征表示,本文将上述四种颜色特征空间融合.融合后的颜色特征描述对于光照变化的场景具有良好的鲁棒性.图1给出了一张被平均分成6个水平条带的行人图像,对于每个水平条带的每种颜色空间的每个通道,提取16维的颜色直方图特征,将所有的颜色直方图特征串联形成行人图像的颜色特征,从而得到行人图像颜色特征的维数为1152维(4*6*3*16).原始特征空间的1152维特征经过核函数投影后的特征维度较高且大部分信息都是冗余的.因此实验中利用PCA将核空间中的特征维数降到保持大于90%的能量。为了更好的描述图像的局部信息,本文中提取的局部特征来自于LBP等价模式中邻域点数为8半径为1和邻域点数为16半径为2两种模式的特征.上面两种LBP等价模式的维度分别为59维和243维.类似于颜色特征的提取,一张行人图像被平均分成6个水平条带,对于每个水平条带提取LBP两种模式的特征,将所有的LBP特征串联形成行人图像的局部特征,从而得到行人图像局部特征的维数为1812维((59+243)*6).同理,原始特征空间的1812维特征经过核函数投影后的特征维度同样较高并且大部分信息也都是冗余的.因此实验中同样利用PCA将核空间的特征维度降到保持90%以上的能量.

1.4本文算法的具体操作步骤利用步骤3得到不同核空间中的测度矩阵计算样本在不同核空间的相似度,然后将样本在不同核空间中的相似度按照一定的权值结合来表示样本之间的相似性.

2实验测试与结果

本节首先介绍实验中所使用的测试数据和算法性能的评测准则,其次介绍本文算法在不同公共实验集上与已有的行人再识别算法的性能比较,然后在不同公共实验集上对比核映射前后的算法性能,最后在不同公共实验集上分析权值不同时对算法性能的影响.文中所有的实验是基于vs2010+opencv2.4.9实现的,实验平台是24G内存的Intel(R)Xeon(R)CPUE5506@2.13GHz(2处理器)PC台式机.

2.1测试数据和算法性能的评测准则为了与已有算法公正比较,实验中,采用先前工作普遍采用的评价框架.如文献[22]所述,随机选择p对行人图像对作为测试集,余下的行人图像对作为训练集.测试集由查询集和行人图像库两部分组成.每对行人图像,随机选择一张图像并入查询集,另一张则并入行人图像库.当给定一个行人再识别算法,衡量该算法在行人图像库中搜索待查询行人的能力来评测此算法的性能.为了测试算法在只有少量的训练样本时的性能,p分别取316,432,532进行实验.p取值越大,则测试样本越多(匹配越困难),训练样本越少(训练越困难).对于每组实验,以上产生测试集和训练集的过程重复10次,10次实验结果的平均值作为本组实验的结果.已有的行人再识别算法大部分采用累积匹配特性(CumulativeMatchCharacteristic,CMC)曲线评价算法性能.给定一个查询集和行人图像库,累积匹配特征曲线描述的是在行人图像库中搜索待查询的行人,前r个搜索结果中找到待查询人的比率.第1匹配率(r=1)很重要,因为它表示的是真正的识别能力.但是当r取值很小时,第r匹配率也很有现实意义.因为在实际应用中,反馈的前r个搜索结果中,可以通过人眼判断找到查询目标.

2.2不同公共实验集上实验对比本文算法选择在VIPeR[23]数据集、iLIDS[24]数据集、ETHZ[25]数据集和CUHK01[26]数据集上进行实验.VIPeR数据集中相关行人对来自两个不同的摄像机.相关行人对的外观由于姿态、视角、光照和背景的变化而差异大.iLIDS数据集包含119个行人的476张图像,每个行人的图像从两张到八张不等.iLIDS数据集是从机场收集的,数据集有严重遮挡和光照变化的问题.ETHZ数据集包含146个行人的8555张图像.数据集中的图像来自移动摄像机拍摄的三个视频序列.ETHZ数据集中的图像由同一摄像机拍摄,则数据集中行人姿态变化和视角变化的程度没有VIPeR数据集那么明显.为了使ETHZ数据集具有挑战性,实验中相关行人提取两张图像,一张近景和一张远景.远景图像含有大量无用的背景信息,使选用的数据集有明显的遮挡情况和光照变化.CUHK01数据集是由两个摄像机在校园环境中拍摄得到,包含971个行人的3884张图像.每个行人包含四张图像,前两张图像是摄像机拍摄的行人前后景图像,两张图像是摄像机拍摄的行人侧面图像.每个行人的前两张图像只是姿态上有稍许的变化,前两张图像与后两张图像在视角上、姿态上差异较大以及有明显的光照变化.实验中,每个行人前后景图像随机选择一张,侧面图像随机选择一张,这样得到的实验集具有显著的视角变化、姿态变化和光照变化.

2.2.1VIPeR数据集VIPeR数据集是由632对相关行人对图像组成.如图2所示,同一列中的行人图像为同一个人，为了对比本文算法基于不同核函数的实验效果,下表1给出了该算法基于不同核函数的实验对比.实验中测试样本集和训练样本集均为316对相关行人图像.VIPeR数据集上的其它实验,如果没明确表明测试样本集和训练样本集的个数,都默认有316对相关行人图像.从表1可知,本文算法基于RBF-χ2核函数的效果最优.为了充分体现算法的效果,在后面的实验效果对比中都是基于RBF-χ2核函数.下表2给出了该算法与当前主流算法的效果对比.从表2可知,该算法性能有较大的提升,尤其是Rank1,Rank1比表中最好的结果提高了约8(%).此外,该算法与表中的PCCA、rPCCA、kLFDA和MFA等算法都是基于RBF-χ2核函数;但该算法整体效果明显优于它们.值得一提的是,对于Rank1,该算法的效果相对主流的行人再识别算法有了显著的提高.第1匹配率很重要,因为它表示的是真正的识别能力.行人再识别技术一个典型的应用是刑事侦查;若Rank1越高,则在刑事侦查中,搜集与嫌疑人有关的线索的效率就会提高.为了充分说明本文算法的优越性,表3给出该算法在仅用HSV特征情况下与其它算法效果对比.由表3可知,该算法虽然只使用了HSV特征,但是效果比采用多特征的算法(SDALF、PS、RDC和KISSME)更好.KISSME融合了HSV、LAB和LBP等特征,Rank1仅有20(%);该算法只用HSV特征,Rank1就达到了28.4(%).另外,该算法与同样只使用HSV特征的算法(如ITML、Euclidean、NRDV和KRMCA等)相比,仍然优于它们.其中,ITML和Euclidean算法整体效果都比该算法差.NRDV算法虽然Rank1与该算法相近,但是Rank10和Rank20较低,且NRDV算法模型比该算法复杂得多.KRMCA算法效果总体上都不如该算法且KRMCA的代价函数收敛很慢,算法训练时间很长.当测试集规模为P=432和P=532时,该算法与已有行人再识别算法的性能比较如表4和表5.从表中可知,在只有少量的训练样本情况下,该算法性能同样优于已有算法.由此可见,该算法有效解决了学习相似度度量函数中出现的过拟合问题.

2.2.2iLIDS数据集iLIDS数据集中每个行人包含两张到八张照片不等.实验中,从每个行人所包含的图像中随机取两张作为实验集,最后得到的实验集为119对相关行人图像.最终实验效果是多次随机取得的实验集效果的平均值.数据集中的图像尺寸是不尽相同的,实验中统一把图像的尺寸设置为高128宽48.实验中训练集为59对行人图像,测试集为60对行人图像.本文算法在iLIDS数据集上与其它算法的效果对比如下。该算法与表中基于测度学习的算法PCCA、rPCCA、MFA和kLFDA都是基于RBF-χ2核函数.但从表6可知,该算法整体性能优于PCCA、rPCCA和MFA等算法;该算法虽然与kLFDA算法性能接近,但总体上还是优于kLFDA算法.由此可见,该算法比使用相同核函数的其它算法效果更好.另外,该算法整体性能也优于KISSME、SVMML和LFDA算法.

2.2.3ETHZ数据集数据集中的图像尺寸是不相同的,实验中统一把图像尺寸设置为高128宽48.实验中训练集为76对行人图片,测试集为70对行人图片.表7分析了本文算法在ETHZ数据集上与其它算法的效果对比.从表7可知,该算法在ETHZ数据集上的整体性能优于同样基于RBF-χ2核函数的PCCA、rPCCA、MFA和kLFDA等算法.在ETHZ数据集上,同样证明了该算法比使用相同核函数的其它算法效果更好.值得一提的是,该算法的rank1较于其它算法显著提升了.另外,该算法整体性能也优于KISSME、SVMML和LFDA算法.

2.2.4CUHK01数据集数据集中的图片的尺寸是不相同的,实验中统一把图片的尺寸设置为高128宽48大小.实验中训练集为486对行人图片,测试集为485对行人图片.本文算法在CUHK01数据集上与其它算法的效果对比如下表8：从表8可知,该算法在CUHK01数据集上的整体性能同样优于KISSME和SVMML算法以及基于测度学习的算法PCCA、LFDA、rPCCA、MFA和kLFDA.该算法与MidLevel算法效果接近,但MidLevel算法模型复杂.该算法与其它算法效果对比可知,该算法可以学习得到具有良好区分性的相似性度量函数.通过在CUHK01数据集上的效果对比,进一步说明该算法与使用相同核函数的其它算法相比效果更好.

2.3特征核映射前后算法性能的比较为了分析特征经过核映射后对算法的影响,表9、表10、表11和表12分别给出在四种数据集上特征经过核映射前后算法效果的对比实验.通过在四个公共数据集上实验对比可知,特征经过核映射后算法效果在VIPeR、iLIDS和CUHK01数据集上整体上都得到了显著的提升,在ETHZ数据集上虽然提高不明显,但还是优于已有算法.总的来说,该算法在特征经过核映射后,学习得到的相似度度量函数更具有区分性,能够得到较好的识别效果.

2.4权值a取值不同时算法的性能比较为了分析权值a对算法性能的影响,图3、图4、图5和图6分别给出在四种数据集上不同的权值a下,本文算法性能的对比实验.其中SC为颜色特征子空间的相似度函数,ST为LBP特征子空间的相似度函数.权值a越大,代表相似度函数中颜色特征子空间的相似度函数比重越大.通过在四种数据集上不同的权值a下算法性能的对比实验可知,a取值对算法效果的影响较大.当a取值很小时,算法效果不是很理想,当a增大时,算法性得到一定程度的提升,当a在0.5到0.7范围内取相应的值时,算法性能能达到最优,当a继续增大后,算法性能有一定程度的下降.

3结论

已有基于测度学习的行人再识别算法一般是把多特征融合并建立特征模型,然后基于相应的测度学习算法在原始特征空间学习得到测度矩阵.但是将不同的属性特征融合成一起,却忽略了不同属性特征之间的差别以及由于原始特征空间的线性不可分,这样学习得到的测度矩阵不能准确的表示样本之间的相似性与差异性,从而导致识别效果较差.对此,本文提出基于多特征子空间与核学习的行人再识别算法.该算法首先将不同特征子空间投影到可分性好的核空间,其次在不同核空间中学习得到测度矩阵和相应的相似性函数,最后将样本在不同核空间的相似性按照一定的权值结合来表示样本之间最终的相似性.总的来说,四个公共数据集里的图像有着光照变化、行人姿态变化、视角变化以及遮挡等情况,但该算法在四个数据集上的识别效果都比已有算法更好.由此可见,算法对光照变化、行人姿态变化和视角变化以及遮挡都具有较好的鲁棒性.基于距离测度学习的行人再识别算法其实就是要寻找一个最优的测度矩阵M,使得同类样本之间的距离尽可能小,异类样本之间的距离尽可能大.为了得到一个最近似于最优的测度矩阵M,下一步可以考虑如何融合不同方法得到的测度矩阵.

作者：齐美彬檀胜顺王运侠刘皓蒋建国单位：合肥工业大学计算机与信息学院

核学习的行人再识别分析范文

扩展阅读

推荐期刊

双语学习

学习导报

俄语学习

财会学习