数据挖掘下的臭氧发生器故障检测方法范文

时间：2022-09-14 04:23:18

数据挖掘下的臭氧发生器故障检测方法

摘要：将臭氧发生器系统做为研究对象，通过数据挖掘技术对系统故障进行检测。使用数据预处理技术对数据集进行整理工作，并通过数据特征分析对有效数据进行筛选，最后利用两种数据模型分别对系统故障进行检测。结果表明基于数据挖掘的臭氧发生器故障检测方法可以准确检测系统故障。

关键词：数据挖掘；臭氧发生器；故障检测；K均值聚类算法；线性回归

随着人工智能技术的发展和硬件计算能力的提升，基于数据建模的工业自动化方案可行性越来越高，利用数据挖掘技术解决工业难题已成为一种趋势。对于国内技术较为落后的臭氧发生器系统而言，若能找到隐藏于众多数据中的潜在联系并加以利用，将可大大提高生产效率。本文通过对臭氧发生器历史数据进行大量的数据挖掘工作，以对系统故障进行检测。

1数据预处理

数据预处理［1］（DataPreprocessing）是指在数据挖掘以前对数据进行的一些处理。现实环境中的数据大体上都是不完整、不一致的脏数据，无法直接进行数据挖掘，或挖掘结果不尽如人意。为了提高数据挖掘质量，发展出了数据预处理技术，其有多种方法，包括数据清理、数据集成、数据变换等。臭氧发生器数据主要包含水路、气路的传感器数据和臭氧发生器电源及放电室的相关数据，由于数据来源于较为复杂的工业现场，海量数据中可能会存在测量仪器异常及通信线路干扰等产生的异常数据，这些异常数据与在臭氧发生器正常运行状态下映射关系是不同的。并且在工业现场臭氧发生器设备大部分时间均在正常情况下运行，因此会产生大量重复数据，这些数据我们统称为冗余数据，如果不将这些数据进行删除，会显著降低数据挖掘速度以及模型的精准度，因此在对数据进行挖掘前应根据数据集特征进行合理的预处理。本文中所用臭氧发生器系统数据均来源于河南省某公司的同一设备，所用数据集选取的时间段为2018年3月上旬至11月下旬，去除设备断电期间，存在有效数据的天数共210天，数据总大小约为2．1GB（csv格式），在这些数据中存在众多重复数据，为了提高模型训练速度，首先将重复数据删除。去除重复数据后，数据量将大大减少，此时进一步删除存在异常的数据。在确定异常数据时，需要利用一定的专家建议去对异常数据进行锁定。通过臭氧发生器系统的相关知识与经验，找到对模型起到负面作用的数据并进行删除。最后由于存在臭氧发生器系统上电，但高频电源并未起振的情况，故对功率设置百分比小于80％（功率设置值小于4）的数据不进行使用。经过上述操作后可知每日设备数据量大多数相近，但也有一些时间段数据量显著低于其他时间，经过分析，该时间段服务器程序为关闭状态，导致并未储存当天的全部数据，但是由于每条数据均具有时间戳作为索引，对之后的数据特征分析和模型训练不会产生影响。并且经过去重复值操作后的数据减少比例最高，去除异常值之后的数据量变化较不明显，由此表明数据集中重复数据较多，而异常数据较为稀少。而在去除未起振值后有两个时间段数据量几乎降至为零，经过查看工作日志发现该段时间设备出现硬件损坏，上传的数据多为调试时的未起振数据。

2数据特征分析

数据特征一般可从数据集自身获取，也可通过外部数据辅助得出，两种方式对数据建模均有很大帮助。

2．1数据集内部特征分析

为了对数据有初步的了解，先对数据自身的特征进行详细分析。当前数据可分为传感器数据和高频电源、放电室数据，两类数据的类型不同，变化方式不同，因此数据特征也有所不同，所以对两类数据也使用了不同方法进行分析。其中对传感器数据的离散程度［2］进行了分析，将某日数据中每个参数的唯一值数量进行了统计，统计结果如图1所示。已知当日数据经过预处理后剩余数据总数为18746条，从图1可看出传感器数据中臭氧浓度数据的变化范围最大，共有2261条不同数据，占总数据的12．06％。并且冷却水压力、氧气压力和功率设定三个数据均只有两个不同数值，通过查看具体数值发现两个数值之差几乎为零，由此可知去除异常时段后，剩下时间的冷却水压力和氧气压力数值十分稳定。并经过对比分析功率设定、冷却水压力、氧气压力数据集后发现它们不存在相互对应关系，由此确定这三项数据集中度过高，不宜加入训练模型之中，故舍弃该三项数据。接着对某日高频电源与放电室数据进行分析，已知该类数据多为设定值，多数情况下该类数据不会发生改变，因此不需对数据进行唯一值统计。该类设定值数据虽然变化较少，但是稍微调整就会对众多参数产生影响，因此可对高频电源与放电室数据进行相关性分析。由于固有谐振频率与传感器数据、高频电源、放电室数据均有联系，因此计算出所有数据与固有谐振频率的Pearson相关系数［3］，其结果如表1。表1统计了所有参数与固有谐振频率的Pearson相关系数，Pearson相关系数由0到1表示相关性的弱到强，其中0至0．2表示数据之间存在极弱相关性，0．2至0．4为弱相关，0．4至0．6为中等相关，0．6至0．8为强相关，0．8至1为极强相关。通过上表可知冷却水流量、氧气露点温度与固有谐振频率为极弱相关，因此在训练模型时删除这些数据。给定频率、臭氧浓度、功率设置三个参数对臭氧发生器固有谐振频率影响较大，其他参数虽然与固有谐振频率的相关系数不高，但是也有一定的依赖关系，通过训练数据模型将可最大化利用这些数据，从而更加精准地预测固有谐振频率。

2．2使用外部数据的特征分析

为了更进一步了解臭氧发生器系统数据特征，将外部因素对整个臭氧发生器系统数据的影响进行了分析。经过对臭氧发生器所在环境分析发现：臭氧发生器所处地区的气温与系统状态也存在关系。因此对当地的气温数据与臭氧发生器中的温度类数据进行了比较，其中对温度变化情况较多的三月气温数据以及各月的平均气温数据进行了以下分析：与臭氧发生器系统中外冷却水温度、冷却水温度、氧气温度的数据对比曲线，第二列为与每月平均气温数据的对比曲线，本地气温对臭氧发生器水路温度影响较小，但氧气温度会和气温发生相同趋势的变化。而且还能看出外冷却水温度与冷却水温度之间也存在相同的情况，因此可将本地的气温数据加入数据集中，在之后的训练模型过程中用于提高数据模型精度。

3故障检测

可将系统故障分为管路故障和频率不匹配故障两类，其中管路故障不存在评定指标（即数据集不存在标签），需要使用非监督学习中的聚类算法进行故障检测；频率不匹配故障则可以使用固有谐振频率作为标签，通过监督学习查找众多参数与固有谐振频率之间的映射关系。根据臭氧发生器自身特性可知，管路故障由自身内在原因引起，高频电源和放电室数据中除输出功率可影响水路温度以外，其他参数对管路不起任何作用，但固有谐振频率却受管路中大多数据影响，因此为了减少无关数据对两类数据模型的影响，分别选用不同的数据集合进行数据挖掘。通过对臭氧发生器数据进行特征分析，将数据模型所用数据进行了大致筛选，两类故障所用数据进行如图3的划分。将不同模型所用数据进行划分之后，即可使用相关数据进行故障诊断及功率控制工作。

3．1基于聚类模型的管路故障检测

聚类算法是一种常用的无监督学习算法，可在数据集标签未知的情况下寻找众多数据间不易察觉的关系及规律。本文通过K－means算法［4］实现聚类，K－means算法是一种基于距离的聚类算法，通过距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度越大。该算法认为“簇”是由距离靠近的对象组合而成，因此把簇分得越紧凑越独立作为最终目标。算法的核心是通过迭代来寻找K个簇的划分方案，使得用这K个簇代表各簇样本时所得的总体误差最小，K－means算法计算误差采用的代价函数为最小误差平方和［5］，其代价函数可表示为：式中Uc（i）表示第i个聚类的均值。各簇内的样本越相似，其与该类簇的误差平方越小，对所有类所得的误差平方和求和，即可验证分为K类时是否最优。但是此代价函数无法通过解析的方法使误差最小化，因此需要加入迭代过程。在模型训练过程中由于所选数据集太过庞大，但是故障数据较少，并且管路故障通常会在较长时间内逐渐产生，且越来越严重，因此对每天只采用其中3项数据对原始数据集进行稀释［6］，经过对数据集进行K＝2、3、4、5四种情况聚类后，其结果如图4所示。K－means算法中的参数为簇数2至5，并发数为4，迭代次数为500。当簇数K＝2时，圆点代表的数据远远大于下三角代表的数据，圆点数据占总数据95％以上，并且它们之间有较为明显的分界线；当K＝3时，K－means模型将K＝2时的大比重数据分为了两类，并且可看出它们之间的界限较为模糊；当K＝4时，模型不仅将K＝2时的大比重数据进行了分割，也将小比例数据分成了两个簇；而K＝5时，只是将大比重数据再进行了一次三类划分。通过以上分析，当K＝2时数据划分过于简单，因此不适合发现更多的故障数据；K＝5时对大占比数据进行划分的分界线难以确定。通过严谨分析决定将将管路故障分为3类最为妥当。最后根据对每个簇数据分析结果及专家解释将故障分为氧气不足、氧气温度异常、冷却水失效3类，其在臭氧发生器系统状态上的直接体现如下：1）氧气不足：氧气压力降低，氧气流量突降，此类故障一般在短期内突然出现，在K＝4时的图表中以上三角显示；2）氧气温度异常：氧气温度与平均值相差较多，一般出现在极端天气，在K＝4时的图表中以五角星显示；3）冷却水失效：冷却水温度、外冷却水温度基本相同，并且高于平均值，此类故障一般发生在较热天气，导致冷却水失去冷却效果，在K＝4时的图表中以下三角显示。最后以圆点表示的数据为正常数据，但是通过图表可看出该类数据集中度较低。通过分析发现，主要原因为臭氧发生器水路过滤装置会在使用过程中逐渐被杂质堵塞，从而导致冷却水压力缓慢升高、冷却水流量降低。由于此问题较易被发现，且周期较长，不将此问题归为故障。

3．2基于线性回归模型的频率不匹配故障检测

已知频率不匹配故障是所有故障中对臭氧产量影响最为严重的故障，频率不匹配将大大降低工作效率。造成该故障的因素众多，很难通过人力观察找到解决办法。目前已知该故障与众多参数具有相关性，并且通过当前设定功率与电流大小即可知频率是否匹配。预测固有谐振频率的大小是检测频率不匹配故障的首要任务，本文使用基于监督学习的数据模型进行故障检测。相比较于无监督学习在无标签下进行训练，监督学习则依赖于标签才能训练出一个数据模型。正是因为标签的存在，监督学习不再需要通过计算各个数据间的“距离度量”来查找数据关系，而是通过“性能度量”来表现众多数据与标签的相关联系，再通过“性能度量”作为参考量逐渐训练出最符合数据关系的模型。对于本小节所进行的频率不匹配故障检测，线性回归模型能够完全发挥作用。在进行线性回归学习之前，需要对数据集进行训练集和测试集的划分。划分训练集和测试集是由于在线性回归模型训练过程中会出现过拟合［7］现象。目前常用的划分方法有留出法、k折交叉验证法［8］、自助法三种。本文使用最为常用的k折交叉验证方法，并将数据集分为五折进行交叉验证。通过五折交叉验证后基于线性回归模型进行的固有谐振频率预测较为准确，预测值变化趋势同真实值基本一致，因此该预测结果可用于对频率不匹配故障的检测之中。由于臭氧发生器能够通过众多参数预测固有谐振频率，因此可通过各参数计算超前值预测固有谐振频率即将变化的趋势。超前值表示依照当前情况继续发展数据将会达到的数值，在数据挖掘中通常使用计算超前值的方法作为时间序列预测的主要手段。本文使用较为常见的累计误差作为计算方法，计算公式如下：式中m为参数编号，Dm为参数m的超前值，x0为m参数当前数值，x1为上一次数值，数值x0至x100分别为该数值的最新数值到之前的100个数值，Pm为参数m的比例系数。该公式可计算出每个参数的超前值，之后通过超前值进行超前固有谐振频率预测，并通过以下方法进行故障检测：通过图5可知，在频率不匹配故障检测的过程中，主要是将各参数的超前值代入已训练好的线性回归模型，从而预测出超前固有谐振频率，然后将预测的固有频率与当前的固有谐振频率进行对比，如果预测值与当前值差距较大，说明谐振频率按当前情况继续发展下去将会发生频率不匹配故障。

4结束语

本文方法能够准确、有效对臭氧发生器系统故障进行检测，不仅节省了人工成本，也保证了系统的安全与可靠。

参考文献

［2］朱田华，周军，刘旭华．一种基于数据分布特征的模糊规则提取［J］．辽宁工业大学学报（自然科学版），2013，33（2）：83－85

［3］张建勇，高冉，胡骏，等．灰色关联度和Pearson相关系数的应用比较［J］．赤峰学院学报（自然科学版），2014（21）：1－2

［4］宋喜忠．基于K－Means和粗糙集神经网络的节点故障诊断［J］．信阳师范学院学报（自然科学版），2014（2）：292－295

［5］柴志刚，侯豪峰，李爱东．基于误差平方和极小化的多模型组合预测研究［J］．中国水运：下半月，2008，8（11）：33－34

作者：董哲赵磊翟维枫刘蕾单位：北方工业大学电气与控制工程学院

上一篇：数据挖掘下的类风湿关节炎用药规律范文
下一篇：浅谈碳排放权交易会计信息披露范文

数据挖掘下的臭氧发生器故障检测方法范文

精品推荐

扩展阅读

推荐期刊

数据

大数据

大数据时代

电力大数据