多储备池回声状态网络研究范文

时间：2022-11-09 08:55:55

多储备池回声状态网络研究

1引言

随着计算机技术、Internet网络以及存储技术的发展,各种形式的数字信息正在以惊人的速度增长。数字图像作为数字信息的重要成员之一,以其内容丰富、形象生动、清晰明了等特点在社会生活中扮演着越来越重要的角色,与此同时,人们对图像检索的需求也越来越高。20世纪90年代,基于内容的图像检索技术(CBIR)应运而生,该技术与图像识别技术进行了深层次的结合,但单纯的图像低层特征无法表示图像的内在本质,深层语义得不到很好的体现,也就是存在所谓的“语义鸿沟”。由于机器学习技术能够很好地获取图像低层特征和文字描述之间的对应关系,越来越多的研究者将机器学习技术应用于图像的语义映射之中,以解决“语义鸿沟”问题,并取得了一定的成果。Li等将模糊支持向量机(FSVM)应用于图像分类与检索中,通过模糊支持向量机计算出样本x对i类的归属程度im(x),将样本x归属到im取值最大的一类,有效地提高了不可分区域的分类精度。

Kundu等提出了一种交互式的图像检索模型,该模型使用MPEG-7边缘直方图描述符(EHD)[6]作为低层特征,通过神经网络预分类器对图像库进行预分类,利用不同的编号表示被分成的各个子集,减少了检索时的搜索空间,提高了检索速度。杨栋等[5]提出了贝叶斯通用背景模型并将其应用到图像语义标注之中,该方法引入受限的对称Dirichlet分布来描述GMM权重参数的先验分布,利用Bayes最大后验概率对高斯混合模型参数集进行估计,具有良好的图像标注精度。但传统神经网络结构复杂,训练速度慢,难以满足目前对大数据信息处理的需求。支持向量机虽然训练速度较快但其作为一种二分类器,对于多分类问题具有一定的局限性。同时目前存在的语义映射方法大多缺乏对特征数据的针对性,鲁棒性及泛化能力有待提高。针对上述问题,本文结合语义映射框架,尝试性地将回声状态网络分类模型应用于图像语义映射之中。由于回声状态网络以随机稀疏连接的储备池作为隐藏层,结构相对简单,并且只需训练储备池至输出层的权值,训练过程简单快速,有效地解决了传统神经网络训练速度慢、结构复杂等问题。同时,为解决图像特征数据间关系复杂、维数较高的问题[8],引入集成学习思想,对图像特征按相关性进行划分,针对划分后的图像特征分别构造储备池形成多个分类器,并对各分类器得到的分类结果进行集成,使得各分类器对特征数据更具针对性,并且能够提高分类器的泛化能力和鲁棒性。

2图像特征提取

图像的低层特征主要包括图像的颜色、纹理、形状等。本文主要利用图像的颜色矩、灰度共生矩阵以及Gabor小波变换提取图像的低层视觉特征。(1)颜色矩[9]能够很好地描述颜色的分布特征。通常提取颜色分量的一阶矩、二阶矩和三阶矩表示图像的颜色分布。一阶矩表示每个颜色分量的平均强度,二阶矩表示待测区域的颜色方差,三阶矩表示颜色分量的偏斜度及不对称性。本文提取图像R、G、B三种颜色分量的三个低阶矩,共9维。(2)灰度共生矩阵[10]是对图像上保持距离d的两像素分别具有某灰度的状况进行统计得到的。假设图片共有M×N个像素点,从某像素点(x,y)开始,该像素点的灰度级为i,灰度共生矩阵即统计与其方向角为θ、距离为d、灰度级为j的像素点同时出现的概率,假设mnf(x,x)为像素点mn(x,x)对应的灰度级,Count(M)表示M情况出现的次数,由此可将灰度共生矩阵的获取方法概括为公式。其中,T表示灰度共生矩阵元素个数。本文取通过灰度共生矩阵得到的能量、对比度、相关值以及熵4个特征值分别在0°、45°、90°、135°方向的最大值、最小值、平均值及标准差值作为训练集,共16维。(3)Gabor小波变换[11]与人类视觉系统中简单细胞的视觉刺激响应非常相似。在提取目标的局部空间和频率域信息方面具有良好的特性。Gabor函数是一个用高斯函数调制的复正弦函数,能够在给定区域内提取局部的频域特征,本文所用的Gabor滤波器对应的实部如公式(2)所示,虚部如公式(3)所示。本文提取不同方向的Gabor小波变换过后结果的能量均值及标准方差作为特征,共12维。

3回声状态网络模型

3.1基本模型回声状态网络(EchoStateNetwork,ESN)由Jaeger于2001年提出,其独特之处在于将随机稀疏连接的神经元构成的储备池作为隐藏层,用以对输入进行高维的、非线性的表示[13]。ESN是一种新型的递归神经网络,由输入层、储备池、输出层组成,其结构如图3所示:假设该网络中输入层有K个输入,储备池有N个内部连接单元,输出层有L个输出,储备池内部单元状态更新方程如公式(7)所示:其中,outW表示储备池与输出单元的连接权值为输出层到储备池的连接权值,通过状态变量计算得到,outf为输出单元处理函数。

3.2分类模型回声状态网络常用于解决时间序列预测方面的问题,2009年,Alexandre等[7]提出面向静态模式分类的回声状态网络方法。在此基础上,彭喜元等[14]提出了随机子空间多储备池分类模型,提高了传统回声状态网络分类模型的泛化能力及分类性能;郭嘉等提出了基于相应簇的回声状态网络静态分类方法,将储备池子簇与需分类数据类别数量建立对应关系,能够更好地满足对不同数据有针对性的分类需求。分类模型不同于预测模型,各数据间并不存在依赖关系,所以回声状态网络分类模型在训练某特征数据对应的状态变量x(n)时保持输入数据不变,当状态变量的变化量(i)(i1)||x(n)x(n)||小于阈值时,表示状态变量趋于稳定,该特征数据对应的状态变量训练完成。

4语义映射方法

4.1语义映射框架图像的语义映射主要是通过分析训练集中图像的特征,并通过机器学习的方式将训练集中的图像低层特征和语义关键词建立联系,得到一定的知识或者规则,之后通过这些知识对新图像进行语义映射,从而获得新图像的高层语义描述。整个框架主要包括图像低层特征提取、语义训练、样本图片语义映射等环节。本研究采取的语义映射框架如图4所示。

4.2多储备池回声状态网络语义映射模型集成学习能有效地提高学习器的泛化能力,是目前机器学习领域重要的研究方向之一。本文借鉴集成学习思想,针对不同特征提取算法得到的特征数据之间相对独立的特点,提出多储备池回声状态网络分类模型。该模型将提取出的低层图像特征按类划分,对不同类型的数据分别构造与其相对应的储备池,在仿真时将各储备池的映射结果进行线性融合,提高分类器与特征数据的适应性。其主要结构如图5所示。本文将37维图像低层特征按照提取特征的方法划分为三组,包括根据图像灰度共生矩阵得到的16维特征,计算颜色矩得到的9维特征以及通过Gabor小波变换得到的12维特征。

5实验与结果分析

5.1实验环境实验在Windows764位操作系统下进行,测试软件为Matlab2010b。硬件环境:CPU为Intel酷睿22.2GHz双核处理器,内存为4GB。

5.2图像语义映射实验实验选取Corel图片库[18]中的汽车(Bus)、恐龙(Dinosaur)、花(Flower)、马(Horse)、山川(Mountain)以及食物(Food)各100张图片,共600张图片作为图片库,每类随机抽出其中的50张作为训练集,另外50张作为测试集。在实验中,储备池处理单元数N均为40,储备池内连接权值W均采用随机生成的方式。BP神经网络采用一层隐藏层,隐藏层中包含90个神经元,训练精度目标为10–10,为确保实验数据的准确性,全部采取交叉验证的方式进行。为了验证本文的特征提取算法在语义映射中的效果,首先对比了在回声状态网络模型下,分别以灰度共生矩阵特征(Glcm),颜色矩特征(Color_Moment),Gabor小波特征(Gabor)为特征数据时的分类准确度。不同数据特征在回声状态网络分类模型中的映射错误率如图8所示。从图8看出,不同类型的图像特征在不同种类图像的语义映射中表现各有优劣,Mountain类和Food类图片的映射错误率较高。本文将6类图片的映射错误率按三种特征分别计算平均值,得到每一类特征的整体错误率All,从整体映射错误率All来看,通过Gabor小波变换得到的图像特征具有较优的映射效果,但单一的图像特征得到的语义映射效果不够理想。图9显示了特征融合后各分类器的映射错误率,MESN对应多储备池回声状态网络语义映射模型,ESN对应单储备池回声状态网络语义映射模型,BPNN对应BP神经网络语义映射模型。(1)多储备池回声状态网络模型具有最低的语义映射错误率,相对于传统回声状态网络及BP神经网络,平均错误率分别相对下降了19.28%和31.64%。具体计算方法是。(2)对比图9中MESN、ESN以及图8中的数据可以看出,多储备池回声状态网络具有较强的泛化能力,能够有效提高语义映射精度。(3)特征融合后的分类效果明显优于单一特征的分类效果。为了更直观地显示映射得到的语义信息与目标语义之间的相似程度,在这里定义样本n与第q类目标语义的相似度程度(q)Sim(n)。通过图10可以看出,BP神经网络模型以及单储备池回声状态网络模型分别在返回11张、13张图片时出现错误样本,而多储备池回声状态网络在返回24张图片时出现错误样本,且在各返回图片数下均保持最高的准确率。因此,通过多储备池回声状态网络模型得到的语义信息更具鲁棒性。当返回50张图片时,ESN及BPNN对应的查准率分别为90%和87.67%,而本文提出的MESN模型对应的查准率为91.67%,查准率分别相对提高1.86%及4.56%。回声状态网络语义映射模型在具有较高映射精度的情况下同时具有较快的训练速度,在实验中MESN的平均训练时间仅为1.53s,而BP神经网络的平均训练时间为48.24s。

5结语

本文将多储备池回声状态网络分类模型应用于图像语义映射中,实验提取图像灰度共生矩阵的能量、对比度、相关值、熵4个标量,RGB颜色空间的颜色矩以及Gabor小波变换后图像的均值及方差作为图像特征,分类器采用多储备池回声状态网络分类模型,并对储备池中状态变量的调整方式进行优化。实验结果表明本文提出的语义映射方法是可行的、有效的。下一步工作将在大型图像数据库中进行实验,并提取更具区分力的图像低层特征,扩展特征向量。与此同时进一步优化回声状态网络储备池的结构,使其对特征数据更具针对性及适应性。

作者：王华秋王斌聂珍单位：重庆理工大学计算机科学与工程学院重庆理工大学图书馆