美章网 资料文库 统计学习框架中文新词检测方式范文

统计学习框架中文新词检测方式范文

时间:2022-08-14 05:27:03

统计学习框架中文新词检测方式

1引言

词语是语言信息自动处理的基本单位。为使处理过程顺利地进行,必须对大量产生的新词进行检测和识别。新词检测在句法分析、词典编纂、机器翻译以及舆情监测等领域都有着重要应用。与印欧语言不同,中文没有特定符号来表示词语边界,因此任何相邻中文字符都有构词的可能性;且书面语中没有字符形态变化,这都给中文新词自动检测带来了巨大障碍。目前在中文新词自动检测的研究中,主要有基于单字散串和基于高频重复模式方法。因后者具有能有效地识别新造词、对语料依赖程度小、适应能力强以及召回率高等特点[1],近年来受到了广泛关注,也取得了较多研究成果。

2相关研究

基于高频重复模式的新词检测包含2个基本步骤,即高频重复模式的提取和候选新词的过滤。前者从语料中提取重复模式,构造候选新词集合;后者对候选新词集合中的非词垃圾字串进行过滤,以提取新词。目前大量研究都集中在候选新词的过滤方面。刘挺等[2]使用滑动窗口来提取局部重复模式,构造候选词集合,然后应用经验函数来检测新词,研究表明,该方法能有效提高中文分词效果;郑家恒等[3]使用递增的n-gram模型提取重复模式,在此基础上使用手工编制的提取和过滤规则(包括常用构词规则、特殊构词规则和互斥性字串过滤规则)从互联网语料中提取新词;邹刚等[4]在文献[3]方法的基础上,使用正则表达式来表示过滤规则,实现任意长度新词的检测;崔世起等[5]将新词结构分成了不同的组成形式,如1+1、1+2、2+1、1+1+1等(其中1+1表示由2个单字构成的2字词,1+2表示由1个单字和1个双字词构成的3字词),并针对不同的组成结构采用特定的处理方法。LuoShengfen等[6]针对2字串,将多种字串的内部统计特征,包括出现频率、互信息、色子系数等9种特征组成了一个加权词语抽取模型,配合左右熵来进行词语抽取;罗智勇等[7]以支持向量机(SVM)为统计模型,使用左右熵、似然比和相关频率比作为特征进行武侠小说中新词的检测;贺敏[8,9]在重复模式提取的基础上,应用外部环境和内部特征相结合的方法来检测新词,研究中主要使用了上下文邻接分析、位置成词概率和双字耦合度,达到了较好的新词检测效果。目前的新词检测研究主要集中在新特征的挖掘和使用上,但因没有可靠模型的指导,特征选择还存在一定的盲目性;对特征的使用一般也仅限于单个特征或类型相似特征的简单组合,尚未考虑将语言知识特征和统计特征等不同类型特征进行有效整合,以实现组合特征的综合作用和更好的新词检测效果。本文在候选新词集合基础上,根据概率论的相关原理,提出一种新词检测的形式化描述模型,用于建立特征和新词检测结果之间的有效联系,并提出在新词检测中应用统计模型作为框架,以有效地整合新词的语言知识和统计这两种不同类型的特征,改进和提高新词检测效果。

3基于统计学习框架的新词检测方法

3.1新词检测的形式化描述在已经取得重复模式(候选新词)集合的前提下,新词检测的任务就转化为以重复模式的各种有效特征作为判别标准。判断其是否是新词的过程,实际是在可用特征的基础上对候选新词进行标注的过程。根据概率论的相关理论,候选新词标记t∧的最大似然估计可表示为t∧=argmaxt∈{新词,非新词}P(t|候选新词)(1)其中候选新词的标记结果集合为{新词,非新词}。该式可进一步转化为t∧=argmaxt∈{新词,非新词}P(候选新词|t)P(候选新词)=argmaxt∈{新词,非新词}P(候选新词|t)(2)新词本身具有未知性,候选新词本身和标记之间没有先验知识,也就是说候选新词同标记t之间的条件概率是未知的。如果是已知的,那么这个词就不能称之为“候选新词”了。为了解决这个问题,考虑对候选新词进行本质特征的分解,这样即可通过本质特征与标记t之间的关系来求解候选新词整体与标记之间的关系。但前提是,分解出来的特征要能充分体现候选新词的本质特性。在具体处理时,可用本质特征的集合来代表候选新词。这样候选新词与标记t之间的关系就转化为本质特征与标记t之间的关系,实际上是在候选新词的本质特征与标记t之间建立起了有效的联系。根据以上的论述,新词检测过程可进一步描述为t∧=argmaxt∈{新词,非新词}P(FS|t)(3)式中,FS表示能代表候选新词的本质特征集合。若根据上式对候选新词的特征和标记进行训练,因特征之间关系复杂,难以直接进行特征的训练和标注。为了解决特征之间的独立性问题,考虑应用有效的统计框架处理以上模型。鉴于条件随机域模型(CRF)在自然语言处理领域的广泛应用,并且不要求所用特征之间具有独立性,因而非常适合以上模型的求解,可用之有效地整合能代表候选新词的各类本质特征。

3.2条件随机域模型(CRF)条件随机域是一种无向图模型,对于确定结点的输入值,它能够计算该结点输出值上的条件概率,其训练目标是使得条件概率最大化。设x=x1…xT为给定的输入观察值数据序列,也就是无向图模型中T个输入结点上的数据,比如某个候选重复模式的所有特征所组成的数据序列;定义Y为有限状态机的状态集合,每个状态可以对应一个标记;设y=y1…yT为一个长度与x相等的状态序列,即无向图模型中T个输出值。在带有参数的线性链条件随机域模型的作用下,从给定输入序列x得到的输出序列y的条件概率表示为PΛ(y|x)=1ZΛ(x)exp(∑Tt=1∑kλkfk(yt-1,yt,x,t))(4)式中,ZΛ(x)是一个规范化系数,它确保在给定输入上所有可能的状态序列的概率之和为1。规范化系数ZΛ(x)的计算涉及到的状态序列数目非常巨大,一般呈指数级增长。但在线性链模型中,状态结点间没有闭合路径,可通过动态规划算法便捷地计算规范化系数,且寻找最可能状态序列的问题也可用动态规划方法加以解决。上式中的fk(yt-1,yt,x,t)表示一个特征函数,其值一般为布尔类型,满足特定条件时为1,否则为0。比如在新词检测中,当所给特征满足新词的条件时,该函数的值为1,不满足时为0。λk是在训练中得到的、与每个特征函数fk相关的权重参数。如果它为较大的正数,则事件更可能发生;如果为较大负数,则事件倾向于不发生[10]。条件随机域模型的主要优点是:(1)能够综合利用字、词、词性等多层次资源,能更好地使用领域知识和标记之间的依赖,充分利用各种语言知识特征和统计特征;(2)该模型对特征没有独立性要求,在使用时无需考虑特征之间是否相互独立,因此可将多个代表候选新词的本质特征放入CRF框架中,以实现各类特征的综合作用,改善新词检测效果。根据CRF模型的特点,可不用考虑特征之间的关系,将之直接加入到CRF框架中,测试特征对新词检测效果所做的独立或组合贡献,以确定能代表候选新词的本质特征集合,提高新词检测效果。

3.3新词检测所用特征集合在CRF框架下,训练和解码所选用的语言知识特征包括前缀、后缀、串长、命名实体后缀;统计特征包括候选模式的出现频率、互信息、色子系数和左右熵。上述特征并不复杂,应用CRF统计模型可充分利用各类特征,实现更有效的新词检测。其中,前缀、后缀、串长是用于词语检测的基本语言特征,命名实体后缀用于识别新词中的命名实体,是首次应用在CRF模型中的语言特征,该特征在使用时根据候选字串所具有的命名实体后缀的长度来构造;其他的统计特征,如互信息和左右熵等,用于衡量新词结构的独立性和在上下文中使用的灵活性。对其中的数值型特征,因CRF模型在训练和解码时将特征值作为字符串来处理,所以需对连续的数值型特征进行离散化并转化成字串特征,从而将无限量的连续数值特征量转化为有限的离散字串特征量,提高了训练和解码效率,并可有效地改善新词检测效果。为方便后续分析处理,对以上特征进行编号,具体见表1所列。

3.4基于统计框架的新词标注基于重复模式新词检测的基本步骤是,首先在语料中提取满足阈值约束的重复字串,构造候选新词集合,然后根据候选新词的相关特征,比如出现频率、前缀、后缀以及其它信息来判断和标注候选新词集合中的条目。为有效提高多类特征的组合作用,本文采用具有更强包容能力的CRF模型作为统计框架整合多类特征,以实现更好的新词检测效果。在具体实施新词检测时,首先提取候选新词的各类特征(见表1),然后根据特征值,应用标注语料对CRF模型进行训练,最后使用CRF模型标注从测试语料中提取的候选新词。标注的结果只有两个:“是新词”与“非新词”。

4实验

4.1实验及数据分析为验证本文方法的性能,进行了如下试验:实验所用的CRF工具采用日本Kudo教授所提供的开源工具“CRF++0.52”[11],训练语料采用北京大学计算语言研究所提供的1998年1月的标注语料,测试语料采用兰开斯特大学标注的汉语平衡语料库。实验时首先对训练语料和测试语料抽取重复模式,构造候选新词集合(提取重复模式所用的阈值为2),然后使用统计框架对其中字串进行标记。为检验新词的开放实验效果,需要确保训练语料与测试语料所提取的候选新词集合没有交集。实验中所用性能的评价标准为准确率、召回率和F值,F值中所用的调和因子为1,开放实验结果参见表2。表2多特征组合新词检测实验数据表编号特征集合准确率(%)召回率(%)F值(%)11-733.4459.4642.8121-837.6861.1646.6331-939.7159.547.6341-1141.462.2349.72注:特征集合“1-7”表示将编号从1到7的特征组合在一起构成特征集合,作用于条件随机域模型。其它的也类似。从实验数据可见,随着有效特征的加入,新词检测的效果在稳步提高。说明在条件随机域框架下,多特征组合可以实现更好的新词检测。这也进一步说明,多特征组合可以发挥特征之间的综合作用,比特征的简单组合具有更好的新词检测效果,实验4(特征集合1-11)已很好地说明了这个问题。为研究本文方法的效果与串长之间的关系,现对编号为3和4的试验数据做进一步分析,绘制串长和新词检测效果图,如图1所示。图1新词检测的串长-效果关系图从图中可见,无论使用哪种特征组合,串长和新词检测效果之间关系的变化趋势都是一致的:随着串长的增长,新词检测的效果在逐渐降低,短串具有更好的新词检测和提取效果。长串效果较差的主要原因是组成长串的字符较多,组合情况更加复杂;而短串的组合情况相对较少,其更适合在组合特征的作用下进行标注。可见,要改善新词检测效果,应从长串着手进行研究和改进。

4.2最大熵框架下的新词检测最大熵(ME)模型也是一个重要的统计框架,同CRF相似,都属于判别型模型。二者在处理标注问题时具有很多共同的优点,主要表现在ME模型也对特征没有独立性要求,也可作为统计学习框架对候选新词实施过滤。为了进一步验证本文所提出的新词检测方法的效果,对最大熵模型进行新词检测实验是非常必要的。实验时采用相同的实验语料和条件,使用特征组合1-9和1-11(在CRF框架中取得较好效果的特征组合),结果见表3。从表中可见,在最大熵统计框架下实验6的效果较实验5好些,也证明增加有效特征会提高新词检测效果;从横向上看,实验5和实验6分别比试验3和实验4的效果稍差,说明条件随机域模型比最大熵模型具有更好的新词检测性能,其主要原因是CRF模型是一种全局最优模型,且具有更强的特征融合能力。当然,如果有更好的统计模型出现,也许会取得比CRF更好的效果。同单个特征相比,CRF和ME都取得了较好的特征组合效果,可见,应用统计框架来进行特征整合是一个很有前途的新词检测研究方向。

4.3模型比较文献[8]对新词检测特征进行了深入探索并进行了较全面的实验,取得了相对较好的检测效果,但其采用的是封闭实验。为加强可比性,本文也采用封闭实验环境重新进行试验(所用特征组合为1-11,统计框架为CRF模型和ME模型),新词检测效果对比见表4。表4不同方法新词检测效果对比表新词检测方法准确率召回率F值文献[8]方法45.96%71.19%55.86%本文方法(CRF)69.15%70.53%69.83%本文方法(ME)66.49%69.33%67.88%从以上对比数据可见,文献[8]方法的召回率比本文方法高,本文方法在准确率和总体性能(F值)方面具有一定优势。文献[8]中采用的实验语料规模比本文中的要小得多,这会导致其中所用新词检测特征不能完全发挥作用,所以会在一定程度上影响其新词检测效果。但从理论上讲,本文所用的统计框架方法(无论是CRF模型还是ME模型),能有效地整合不同类型的多个特征,体现特征之间的合力作用,可实现更加有效的新词检测,是新词检测研究的发展方向。

采用统计模型作为框架,实现对新词检测特征的有效整合,以获得更好的新词检测效果。实验表明,本方法能充分发挥多特征的组合作用,随着特征的加入,新词检测效果在逐步提高。最终开放实验和封闭试验的F值分别为49.72%和69.83%,达到了较好的新词检测效果,证明使用统计模型作为框架整合有效特征是一种非常有前途的新词检测研究方法。由于使用相似的处理步骤,本文方法可方便地扩展到基于重复模式的命名实体、有意义串的识别研究中,以获得更好的识别效果。

被举报文档标题:统计学习框架中文新词检测方式

被举报文档地址:

https://www.meizhang.comhttps://www.meizhang.com/tjlw/tjjxlw/608860.html
我确定以上信息无误

举报类型:

非法(文档涉及政治、宗教、色情或其他违反国家法律法规的内容)

侵权

其他

验证码:

点击换图

举报理由:
   (必填)