美章网 资料文库 语义分析在水环境领域的应用范文

语义分析在水环境领域的应用范文

时间:2022-01-03 03:45:07

语义分析在水环境领域的应用

1绪论

潜在语义分析(LatentSemanticAnalysis,简称LSA)是一种基于潜概念的信息检索技术。LSA不需要预设基础知识、语义网络、词法、文法等信息,通过简单的数学方法实现对大规模的“词汇—文档”矩阵进行降维,进而完成对大规模文档的高效的在语义基础上的信息检索。根据上述优点以及水环境的特点,本文通过对环境领域内文档数据的特点,提出一种改进的LSA算法,用以提高水环境领域文档内容的查准率与查全率。

2LSA理论

LSA主要依赖于传统的向量空间模型,但在传统的向量空间模型基础上,将高维的表示投影在潜在语义空间中,从而体现文档和词语之间的潜在语义关系。传统的LSA实现过程如下:(1)通过将已有的文档与词语相关联,生成一个“词汇—文档”高阶稀疏矩阵,该矩阵包含了词汇的词频信息。(2)对生成的权重矩阵进行奇异值分解(简称SVD)并确定潜在语义空间。对于权重矩阵A是一个m行n列的矩阵。有如下分解因式:上式中U、V表示矩阵A的左右奇异值向量,U表示m行n列的正交矩阵,V表示n行n列的正交矩阵。通过求矩阵A的近似矩阵将原始的高维稀疏矩阵映射在低维的空间中,方便后续的计算以及准确率的提高。(3)根据词汇列表以及查询文本生成查询向量q,查询向量在潜在语义空间中的坐标计算公式如下:。取出生成矩阵X中文档i的列向量di并计算该向量在潜在语义空间中的坐标。因此,计算出所有文档与伪文本的向量夹角,并设定阈值,筛选相似文档。

3改进LSA算法

本文提出了一种改进的LSA算法,通过改进权重计算方法以及记录词语出现位置的信息,更加准确的表达了词语所表现出的语义信息,其流程如图1所示。

3.1文本预处理对于LSA算法在水环境领域的应用,通过创建水环境高频词典及停用词表对水环境相关文档实现文本预处理。(1)筛选水环境领域词典中属于水环境领域的专业词语;(2)采用中文分词工具实现对高频水环境词语的统计,将统计结果加入水环境高频词典中;(3)根据统计结果实现停用词表的补充。

3.2权重计算根据上述文本预处理创建的高频词典以及停用词表,构建“词汇—文档”中间矩阵。传统的LSA过程中,生成的权重矩阵中记录了用于对词汇出现频率的信息,也忽略了词汇的位置信息,降低了特殊词汇在文档中的权重。不利于词汇表达文档的语义信息。因此,本文根据所研究对象的具体特征,针对词汇出现的不同位置所代表的重要程度的不同进行赋值,以实现更准确的表达词汇在辨别文档类型过程中的作用。首先,本算法将标题中出现的词汇权重定义为3,文档中小标题中出现的词汇权重为2,正文中出现的词汇权重为1。其次,定义关键词表,出现在关键词表中的词汇重要性等同于出现在标题中的权重。最后,确定权重,权重计算公式中的词频信息计算表达式改进如下:式中的tij表示词语i在文档j的标题中出现的次数,stij示词语i在文档j的小标题中出现的次数,ctij表示词语i在文档j的正文中出现的次数。

4仿真实验

4.1实验设计通过高频词典进行文本预处理,针对文档中的具体文本内容进行停用词的过滤,并最终根据权重计算形成中间矩阵,并加入词汇位置信息所带来的影响。分别采用传统的LSA以及改进的LSA进行检索,对比检索结果。

4.2性能评价通过查准率、查全率以及截断奇异值作为算法性能评价的标准。设定Ar为查询到的文档集中所有相关文档组成的集合,A表示所查询到的所有文档组成的集合,Am表示在总的文档集中所有相关文档组成的集合。查准率是能准确的查询到用户所需要的具体内容,记为P=Ar/A;查全率是能将相关文档查询出来的概率,记为R=Ar/Am;截断奇异值是对查准率查全率进行测评的一个评价标准,记为F=(2*P*R)/(R+P)。

4.3实验结果及分析本文提出的改进LSA算法与传统LSA算法对比,当截断奇异值比例在65%-85%时检索效果趋于稳定且查准率处于峰值。如图2所示,可以看出改进LSA算法在权重计算的过程中更能体现出水环境领域中专业性较强的语义特点,并能针对这些语义特点提供更接近用户需求的查询结果。5结论本文根据水环境专业领域文档数据的特图2:算法效果对比图点提出了改进的LSA算法,充分考虑了词语出现在不同位置所代表的语义含义的不同以及权重的等级差别,同时考虑了在水环境领域中出现的高频词汇生成的关键词表,用以表达更加清晰的语义信息,通过该部分的改进可以提高用户在信息检索的过程中的准确率,更加符合用户对查询结果的需求。

作者:段荣伟 付立冬 夏广锋 单位:沈阳理工大学 信息科学与工程学院 辽宁省环境科学研究院

被举报文档标题:语义分析在水环境领域的应用

被举报文档地址:

https://www.meizhang.comhttps://www.meizhang.com/lylw/shjlw/685052.html
我确定以上信息无误

举报类型:

非法(文档涉及政治、宗教、色情或其他违反国家法律法规的内容)

侵权

其他

验证码:

点击换图

举报理由:
   (必填)