您现在的位置: 新晨 >> 商务论文 >> 网络安全论文 >> 正文

大数据时代网络安全及预测技术

2021/08/24 阅读:

摘要:大数据时代信息技术的快速发展,依托于各类硬件防护设备的网络体系架构的异构数据量每天以指数级的量级递增,基于传统的网络安全防护技术无法有效地适用于具有海量数据的特征网络安全和分析预测等工作,因此海量数据的保存、使用以及分析等信息挖掘和数据分析预测逐步成为社会各界重视和当前的研究趋势;以海量的异构数据为研究对象,识别网络安全大数据的典型特征,结合情报预测的主要方法,创新性地提出了大数据特征下的网络安全预测分析技术,提高网络安全风险识别和预测、预警能力,有效地改善网络防护效果。

关键词:大数据;机器学习;网络安全预测

0引言

我国进入到21世纪后,特别是近10年来,网络科技发展突飞猛进,大数据、云计算、物联网等技术逐步由新兴转为普遍,人类进入了海量信息的时代。各种移动设备的普及应用等带来了新的数据时代[1]。应运而生的是各种网络安全事件频繁出现。其根本原因在于大数据环境下的网络安全预测技术的瓶颈[2],基于传统的网络安全防御技术无法应对海量数据特征下的网络入侵,因而局面较为被动。基于此,研究大数据时代背景下网络安全海量数据的信息分析、提取以及安全问题的预测技术迫在眉睫。

1分布式模型训练架构

1.1大数据网络安全预测关键技术

海量数据分析挖掘及预测预警的基础以及核心在于大量异构、多维数据的清洗、降维和同构化等预处理工作[3]。在此核心的基础上,进行数据的分类、学习、训练形成安全预测模型,并结合实际情况,进行网络安全态势的感知和预警。1)异构、多维数据的清洗:首先结合各类交换机、路由器、网关机、传感器等采集设备的网络安全日志,进行数据的预处理,建立数据关联关系,实现数据融汇,按照固定的规范,将日志的数据进行标准化处理,并统一保存,做好进一步日志分析的准备[4]。2)多层级网络安全评估。通过建立网络安全多层级的评估模型,结合网络安全威胁评估算法,提炼、获取、形成网络威胁列表,根据目前常见的网络攻击的行为、攻击方式、网络异常的状态、主动攻击的手段等完成建模好训练,从中提取攻击核心代码、异常流程状态数据,并标记、学习、训练异常行为,结合分类计数,进行网络安全的基本评估。3)网络安全态势预测[5]。将多层级多维度的网络安全评估模型与当前获取的网络安全事件结合,建立网络安全状态图谱,整体分析完成安全态势预测。后续,结合目前常用的Gognos架构、帆软报表等数据可视化分析常用的工具,建立关系数据模型,以图形化额形式完成驾驶舱、预警图等可视化图形展示。目前针对数据的安全态势分析研究主要侧重于数据的预测方面,但是数据处理性能在面对互联网万物感知的海量数据时,性能降低非常大[67],传统的安全态势感知模型已无法适应大数据时代,另外由于科技发展带来的新型的攻击模式层出不穷,如果对各种不同类型的攻击做到精准预测和感知,需要对攻击模型进行不断地学习、训练,并更新攻击库[89]。基于上述问题,本文采用分布式的技术对数据进行处理和清洗。在处理数据过程中主要采用有别于传统的机器学习的方法,提出了基于神经网络的采样降维和聚类算法,在此基础上进行网络安全预测。第一步:使用基于开源平台的Hadoop进行分布式数据处理,将通过内存分析处理的数据进行自动划分,将数据随机分布到不同的节点完成基本的处理分析。第二步:分布式处理完成的数据需要进行降维和聚类,通过改进的聚类算法和基于特征值分解的降维办法进行降维,完成分析预测前的数据清洗。第三步,清洗后的数据挖掘,针对大数据时代异构数据,采用基于误差反馈的神经网络算法挖掘数据流的深层特质,通过循环、往复、迭代持续进行模型训练,提炼训练模型参数,完成数据的预测,并合理提升预测的准确性。

1.2分布式数据处理框架

基于传统的神经网络模式主要采取寻找目标函数最小化的方法进行处理模型的参数训练,其不足在于机器学习效率低、标准化能力差,是应用于海量网络安全数据提取的掣肘因素。考虑到传统算法的不足,设计了改进的前馈神经网络模型,基于Hadoop的分部署数据处平台,从算法和算力上解决训练模型的复杂性问题,设计了基于分治策略的分布式模型训练算法。Hadoop分布式数据处理平台的核心组件包括HDFS(hadoopdistributedfilesystem)分布式文件系统以及基于MapReduce的并行化处理编程单元。通过分布式文件系统将海量的预处理后的日志文件进行分布式的存储,在这个过程中,通过MapReduce完成并行高速运算,其在海量数据环境下的并行计算展示出了强大的能力,尤其适合万物互联状态下的海量网络安全日志数据的处理。因此,本文基于Hadoop的优势特点,建立了基于分治策略的分布式模型训练算法。该算法主要采用的是前反馈式训练神经网络架构,网络数据记录在该架构中包含两种传输路径。路径之一的起始点为输入层,途径隐藏层,然后到达传输层;路径之二为前向反馈型路径,起点为输出层,反向传输到隐藏层。两种路径互相结合、互相补充的模式,使得该架构具有较高的自我训练、自我反馈和协调的能力。通过输入的元数据特征持续的修改框架的训练模型,达到自我调整的目的,该框架尤其适合对于没有经过驯良的特征数据记录的识别,且在海量的网络安全数据集合汇总,该架构对比传统的神经网络算法识别数据的非线性内在规律较高。本文所设计的基于Hadoop的分布式数据处理架构其结构相对复杂,具有对原始数据中的异常数据值敏感性不足,对于脏数据、数据噪声的兼容性较好的优势。

2数据预处理-PSO-K-Means聚类算法

数据预处理的第一步为数据清洗,其主要是作用是进行错误数据的识别和纠正,通过两个关键步骤完成数据的清晰;第二步采用分布式聚类算法实现数据聚类,主要对网络安全设备收集的海量的多维数据进行聚类,聚类之前需要做必要的工作为对数据进行统一化处理,也就是降维操作,其作用是提升聚类的效率,提升大数据的处理速度。本文采用的是基于维度特征分析的降维算法,其前提条件是需要收集元数据的协方差矩阵的特征向量和特征值,并结合标准化公式,导出特征向量以及对应的特征值,在此基础上,进行数据的降维操作。处理海量数据的降维算法需要与分布式技术结合,其具体的过程如图2所示。数据预处理过程中的特征分解算法主要采取的是行数与列数保持一致的对角矩阵分解算法,由于原始矩阵的行数与列数不是完全相同,因此该算法无法直接处原始矩阵,通常采取的措施为对矩阵进行初步的降维处理,以得到对称矩阵。经过降维得到的对称特征向量矩阵后,采取改进后的迭代求解的聚类分析算法———K均值聚类算法(K-meansclusteringalgorithm),经典的K-Means算法目前基本使用在单机的情况下,算法执行效能较低,面对大数据环境下,其可伸缩性不足,且由于其对参数的敏感度非常灵敏,K值的简单变化都会影响到最终聚类的结果,抗噪声干扰能力很差。改进后的聚类算法可以解决传统的聚类算法的结果不可控的问题,算法的为稳固性更高、弹性更强。具体的做法包括粒子群寻优处理,数据特恒分析,迭代搜索获得最佳聚类中心值。

3数据挖掘-基于Hadoop的分布式挖掘算法

1)Apriori算法。主要应用与0对1类型的关联规则挖掘,其核心在于建议一个依托于两阶段数据项的递归算法。随着数据规模的扩大,该算法的瓶颈在于I/O的吞吐量的指数级增加降低了效率。2)Eclat算法。主要应用与关系型数据,其核心在于倒排二分查找思想,建立倒排表,提高频繁项集的产生速度。3)FP-Growth算法。其核心在于采用了频繁模式增长策略进行数据挖掘,识别频繁集。其优势在于不需要阐释候选模式,只需要进行两次数据扫描,在处理海量数据时,其性能对比前两种算法,优势非常明显。本文使用基于Hadoop分布式计算框架对FP-Growth算法,采用并行分笔试的数据挖掘策略,挖掘数据集的关联规则。在算法中通过上述算法获得最初的网络安全问题预测的结果。数据挖掘的第二步处理是应用基于时间维度的网络安全预测算法对初步的挖掘频繁项集进行处理,进行更精确的网络安全预测。步骤一:进行初步网络安全预测初判。输入原始数据集,进行数据异常情况统计,并拆分汇总生成异常数据库(ADL)。步骤二和步骤三:通过Hadoop的MapReduce的映射和规约模型进行分布式计算,输入数据的同时开展异常检测。在算法中使用BW(i)标识网络危险的类型。步骤四:设置BW(i)为已知风险,比对BW(i)和异常数据库(ADL),并记录ADL中的异常类型i的出现次数。步骤五:获取历史威胁数据集HBW。采用方法funca-tion()在历史库中随机产生初代网络安全威胁记录。步骤六、步骤七:对新的网络安全威胁记录进行处理。使用数字代表一定时间范围内该威胁出现的频率。步骤八:进行判断形成结论。比对当前威胁与历史威胁库的数据量。如果大于历史数量,则定义当前网络状态属于高级别风险。如果与历史持平,定义网络安全黄色预警。如果小于历史数据,则定义为安全,同步数据网络安全预测的定性预警和量化数据。

4实验过程及结果

4.1实验数据集选取

实验数据集包括:美国空军局域网网络流量数据集经过语出里后的KDDCUP99数据训练集和国家互联网网络安全中心提供的CAIDA数据集。

4.2网络安全预测结果

首先开展的实验为依据数据集合开展网络安全主动性威胁检测率。根据表中数据可以看出,基于本文的算法实现入侵检测率均高于94%,检测平均值为94.89%。接近95%。为了从多角度验证本文提出的网络安全预算框架及其算法,研究过程中采用了KDDCUP99数据训练集进行包括不同类型的5组实验,第一组实验选取包括Dos攻击,Probe,R2L,U2R4入侵等4类异常网络数据以及正常网络流量数据包。第二组数据选取单一的Dos攻击和正常的网络流量访问记录。第三组设置了包括Probe主动入侵病毒和正常网络访问数据集。第四组设置R2L病毒广播威胁和正常网络访问数据集,第五组数据集为大量的包含U2R病毒威胁的数据包和正常网络访问数据集。在全部5组数据集中的正常网络访问流量占总体测试数据集的数据比例为四分之三。基于对实验结果的多维多、多角度分析,以验证算法的可用性和性能,主要从实验结果的误判率、网络安全预测的准确率、网络安全威胁的漏检率这3个角度对实验数据进行分析。其中误判率指的是对正常数据表示为威胁数据信息。检测率指的是准确识别异常数据比率,漏检率是指异常数据未被识别,将其标识为了异常威胁数据。根据图5中的数据可以分析,基于本文的识别算法对于网络信息中的危险预测的误判率非常低,不到1%,检测率较高接近94%。其中对于R2L的主动入侵式攻击的漏检率对比其他攻击相对较高。由于其入侵行为特征较其他类型相对特殊,算法整体性能较高。

4.3分布式处理性能实验结果

为了测算分布式平台并行处理的算力和性能,本文在实验过程中选取了更大的数据集CAIDA进行实验。网络安全预测算法分布式处理平台上的分布式计算时间性能上优势明显,执行性能较高。因此,在进行海量数据处理时,分布式的处理方法是不二之选。实验过程中,设置了4种比对性实验用以验证本文的分布式算的处理能力和有效性。第一组实验未进行降维处理只采用分布式的聚类算法进行数据处理实验,实验异常检测率很低,不到70%。可以看出,多维数据极大地影响算法的准确率。第二组实验时在分布式聚类操作前,增加了降维和特征值的比对处理,异常检测率提升到了平均80%,效果改善较大;第三组实验,在采用经过同样降维处理的数据集后,并未进行数据清洗和特征值训练,仅采用了Hadoop的MapReduce算法进行了结果集的关联规则分析;最后一组实验是进行了本文的基于HadoopMapReduce算法进行网络安全预测,首先进行数据清理和预处理、降维、特征值训练,采用了Hadoop的MapReduce算法进行了结果集的关联规则分析得出结果集,实验结果显示本文的模型的检测率最高。

5结束语

本文提出并实现了基于Hadoop的分布式数据处理的网络安全预测算法,该算法通过对现有较为流行的机器学习算法进行有针对性的优化、改进后,进行网络安全事件的预测和预警。经过试验证实,采用Hadoop分布式大数据处理平台与数据挖掘算法结合的模式,实现了分布式数据处理和并行化计算提升海量数据处理能力的目的。通过数据降维和特征值训练,增加误差反馈自学习能力,解决了以往的网络安全预测模型的检测率低的问题。

作者:梁永坚 黄慷 韦田 黎锐杏 单位:国网安徽省电力有限公司 中能博望(北京)科技有限公司

大数据时代网络安全及预测技术

2021/08/24 阅读:

推荐度:

免费复制文章