SVM混合集成的信用风险论文范文

时间：2022-10-08 04:45:24

SVM混合集成的信用风险论文

1相关概念

1.1支持向量机支持向量机(SupportVectorMachine,SVM)已经成为倍受关注的分类技术。基于结构风险最小化原则，SVM通过求解最优分隔超平面来得到高分类准确率的分类器(图1)。考虑有数据集Dx,y,i1,2,…,N,N为样本总数，xRR,x是p维向量，y1,1是二分类问题中的类标。在分类问题中，SVM尝试找到最小化期望分类误差的分类器fx。线性分类器fx是一个可以表示成fxsgnwxb的超平面。找到SVM的最优分类器fx的过程等同于优化如下公式(1)中的凸二次规划问题：其中，C是正规化参数，用于平衡分类器在数据集D中的时间复杂度与分类准确率。上述二次规划问题可以通过对偶函数求解。基于核方法，用核函数取代上述公式中的内积，可以将线性SVM转换成更为复杂的非线性SVM。一些典型的核函数如下。

1.2集成学习模型近来的研究表明集成多个分类器的学习模型能取得更高的准确率[8][14]。集成学习模型的核心观点在于，组合多个分类器从而得到比原始的单个分类器更加准确和有效的集成学习系统。这一思想源于组合多个相对简单的模式识别设备后出现的性质。集成学习模型通过汇集所有分类器的决策结果，从而得到一个优于所有成员分类器的混合模型。图2给出了集成学习模型的总体结构，几个不同组合成员分类器(专家)的输出被组合成最终的输出。

1.2.1AdaBoostAdaBoost是集成学习中常见的集成策略，其主要出发点在于，分类器的集成是增量式进行的，每次增加一个组合成员分类器。每个组合成员分类器的训练集的选择是基于上一个分类器表现的。在AdaBoost中，训练集中被错误分类的样本在下一次比被正确分类的样本有更高的概率被选中。因此，后续训练会使集成分类器更加注重错分的样本，这一方法也使得基于AdaBoost的集成学习模型在许多问题上的性能优于基Bagging的集成学习模型[13]。目前已经有多种不同的AdaBoost算法。在本文的研究中，我们选择了AdaBoostM1算法[15]作为AdaBoost集成策略。

1.2.2随机子集模型随机子集模型(RandomSubspaceMethod,RSM)是由Ho[16]提出的集成策略。RSM同样是通过改变训练数据集来达到抽样的目的。然而，这种改变是基于属性的。假定训练样本XX,X,…,X中的Xi1,…,n是一个p维向量：Xx,x,…,x由p个特征决定。在RSM中，首先从p维的训练集样本X中随机选择rp个特征。这样可以得到原来p维特征空间的r维随机子空间。修正后的训练数据集XX,X,…,X包含了r维的训练样本XX,X,…,Xi1,…,n，其中r个成分xj1,…,r是从训练集X向量的p个部分xj1,…,p中随机抽取的(每个训练样本被选择的属性是相同的)。接下来可以在不同的随机子空间X中生成不同的组合成员分类器，并使用组合投票方法得到最终结果。

2基于RSA-SVM的信用风险评估模型

为了得到评估准确率更高的信用风险评估模型，本文提出了一种新的被称作RSA-SVM的混合集成模型来进行信用风险评估，RSA-SVM使用了一种称作RSA的混合集成策略，并使用SVM作为组合成员分类器。根据文献[17]对于有效的集成学习模型的定义：“集成学习模型能取得更高预测准确率的充分必要条件为，用于组合的分类器必须是准确和有差异的”。对于第一个条件(准确)，我们选择了SVM作为组合成员分类器。对于第二个条件(多样)，意味着每个组合成员分类器对于问题都有自己独有的知识，并且相对于其它的组合成员分类器能有不同的预测错误。在集成学习中，RSM和AdaBoost是两种常见的生成不同组合成员分类器，从而提高其多样性的策略，已有许多应用证明了这两种策略的有效性[13]。然而，对于AdaBoost，提高多样性的方式仅仅在于训练数据集的不同分割方式。为了增加多样性，本文使用RSM选择一个属性子集作为输入，接下来使用AdaBoost获取不同的训练集子集，从而得到了由RSM和AdaBoost两种流行策略混合而成的集成策略。

2.1模型总体描述

本文提出的RSA-SVM模型的具体步骤算法1所示(对应的子抽样过程如算法2所示)。算法具体步骤为：1)运行子抽样过程(算法2)，从TR中有放回抽样得到当前分类器所需的训练数据集。2)使用RSM对TR的属性进行随机抽样(选取λ比例的属性)，得到新的训练数据集TR，对TR进行同样操作得到TR(对应的测试数据集进行同样操作)。3)在TR上训练得到组合成员分类器SVM。4)计算SVM在训练数据集TR上的预测错误ε，该ε决定了组合成员分类器SVM在加权组合投票时的权重。5)上述过程重复进行T次，在训练过程中组合成员分类器的权重根据其正确率变化而变化。6)最终模型的输出由T个组合成员分类器加权投票决定。RSA与AdaBoost的不同点在于：RSA在AdaBoost的样本随机抽取的基础上增加了属性的随机抽取，使得样本的随机性增加。RSA与RSM的不同点在于：RSA在RSM的属性随机抽取的基础上增加了样本的随机抽取。这样做的目的同样是为了增加样本的随机性。

2.2时间复杂度分析设n为训练样本的个数，d为每个样本包含的特征数目，T为组合成员分类器的数目。在算法1中，循环总共进行了T次，子抽样过程的时间复杂度为On，RSM随机抽样的时间复杂度为Ond，而预测错误和权重的计算的时间复杂度同样为On，又因为标准支持向量机的时间复杂度是On[18]，所以本文提出的RSA-SVM集成模型的时间复杂度。

3实验

3.1实验数据集为了验证混合集成模型RSA-SVM的有效性，本文在UCI机器学习数据库中常用的两组公开的信用数据集进行了实证分析，这两组数据集分别是澳大利亚信用数据(AustralianCredit)和日本信用数据(JapaneseCredit)。下表(表1)给出了两组数据集的具体内容。其中，对于日本信用数据集，为了避免属性中定性变量过多带来的负面影响，我们只使用了15个属性中的13个属性A1-A5，A8-A15。在数据属性处理过程中，有K个类别的定性变量的属性需要用K-1个布尔属性来表示。观察可知，在日本信用数据集中，A6与A7这两个属性为类别属性，且类别数最多。为了避免输入空间的维度过高，本文不使用A6与A7这两个属性，这种数据处理方式同样可以在文献[12]中找到。另外，在运行混合集成模型RSA-SVM之前，需要对两组数据集进行归一化处理。

3.2评价指标本文实验选择了信用风险评估领域常见的三种度量指标作为衡量模型好坏的标准，这三种指标包括平均准确率(Average)、第一类错误(TypeIerror)和第二类错误(TypeIIerror)。其中，第一类错误和第二类错误是信用风险评估系统中常见的两类分类错误。对于银行来说，第一类错误将好的客户分类为坏的客户并且拒绝该客户的贷款申请，这样会降低银行的利润。相反的，第二类错误将坏的客户分类为好的客户并提供贷款，这样会给银行带来损失。研究者通常更重视第二类错误，因为通常认为第二类错误能给金融机构带来更严重的冲击。在以往的信用风险评估模型的研究中，SVM通常被认为比ANN更优，因为它的目标函数可以控制第二类错误。然而，也不能忽视第一类错误在提高银行收益方面所起到的作用[19]。

3.3实验结果在本文的实验过程中，我们使用LIBSVM的二次开发接口进行了二次开发，在Eclipse平台上使用JAVA语言实现了本文提出的RSA-SVM模型。为了进行对比试验，本文还实现了基于Bagging的SVM集成学习模型(Bagging-SVM)[13]、随机子集SVM(RS-SVM)[13]、融合SVM的AdaBoost(AdaBoost-SVM)[13]和RSB-SVM[8]。在两组公开信用数据集上，采用10-折交叉验证的方式，实验比较了RSA-SVM和一些常见的信用风险评估模型的性能。这些常见的信用风险评估模型包括：线性回归(LR)、逻辑回归(LOG)、BP神经网络(BPNN)、标准支持向量机(SVM)、模糊支持向量机(B-FSVM)[20]、模糊近似支持向量机(FPSM)[21]、基于Bagging的SVM集成学习模型(Bagging-SVM)[13]、随机子集SVM(RS-SVM)[13]、融合SVM的AdaBoost(AdaBoost-SVM)[13]和RSB-SVM[8]。在实验过程中，组合成员分类器的数目为15[13]，随机子集模型中属性的抽样比例为0.9[8]。两组数据集上的实验结果如表3、表4所示。表3给出了不同的信用风险评估模型在日本信用数据集上的实验结果，根据实验结果可以得到以下结论：1)本文提出的RSA-SVM模型在三种核函数上都取得了最好的实验结果(取得了前三的排名)，这一结果证明了本文提出的模型的有效性；2)集成模型的预测准确率普遍优于单分类器模型，这也说明了在日本信用数据集中，集成多个分类器的集成学习模型能取得更高的预测准确率。表4给出了不同的信用风险评估模型在澳大利亚信用数据集上的实验结果，根据实验结果可以得到以下结论：1)本文提出的RSA-SVM模型取得了最好的实验结果；2)随机子集SVM(RS-SVM)取得了次优的结果，这说明了随机子集策略的有效性。综上所述，在信用风险评估问题中，本文提出的混合集成模型RSA-SVM模型能取得更高的预测准确率，是进行信用风险评估的有效模型。

4总结与展望

信用风险评估已经成为金融机构评估信用风险、增加现金流量、降低可能风险和做出有效决定的主要方法。信用风险评估模型的评估准确率对于金融机构的利润影响较大，评估准确率仅仅提高一个百分点常常能使金融机构挽回很大的损失。为了得到评估准确率更高的信用风险评估模型，本文提出了一种新的被称作RSA-SVM的混合集成策略，并使用SVM作为组合成员分类器来进行信用风险评估。实验在UCI机器学习数据库中常用的两组公开的信用数据集上比较了RSA-SVM和一些常见的信用风险评估模型的性能，实验结果表明混合集成模型RSA-SVM能取得更高的预测准确率，是进行信用风险评估的有效模型。本文以后的研究方向包括以下三个方面：首先，本文只在两组公开的标准数据集上进行了检验，模型在其它数据上的有效性还需要进一步验证；其次，我们选择了SVM作为组合成员分类器，模型在其它组合成员分类器(如ANN)上的性能分析也是未来的研究方向；最后，本文模型混合了两种流行策略(RS和AdaBoost)取得了较好的性能，如何构建其它的混合策略，从而进一步提高分类性能，也是未来的研究方向。

作者：陈云石松潘彦俞立单位：上海财经大学公共经济与管理学院上海市金融信息技术研究重点实验室