美章网 资料文库 烟草行业数据挖掘论文范文

烟草行业数据挖掘论文范文

时间:2022-03-11 11:04:52

烟草行业数据挖掘论文

1数据挖掘的主要方法

1.1关联分析。它是形如X→Y的蕴涵式,其中X和Y分别称为关联规则的先导和后继。用关联规则可以从大量数据项集中挖掘出它们之间有趣的联系。此外,关联规则也可用于序列模式发现。

1.2分类。它能将数据库中的数据项,映射到给定类别中的一个。分类[3]定义了一种从属性到类别的映射关系,给定样本的属性值,根据已知的模式将其划分到特定的类中。

1.3聚类分析。聚类是根据一定的规则,按照相似性把样本归成若干类别。在对样本合理划分后,对不同的类进行描述。聚类通常用于将客户细分成不同的客户群,如有相同爱好的客户群。

1.4时间序列。按照时间的顺序把随机事件变化发展的过错记录下来就构成了一个时间序列。对时间序列进行观察、研究,找寻它变化发展的规律,预测它将来的走势就是时间序列分析。

1.5孤立点分析。孤立点在数学上是指坐标满足曲线方程,但并不落在曲线上的点。它也可以被看作是在数据集合中与大多数数据特征不一致的数据。对孤立点进行分析极有可能发现重要的隐藏信息。

1.6遗传算法。它是一类借鉴生物界的进化规律(适者生存,优胜劣汰遗传机制)演化而来的随机化搜索方法;是一个以适应度为目标函数,对种群个体施加遗传操作,实现群体结构重组,经迭代而达到总体优化的过程。目前,将数据挖掘技术应用于烟草行业的研究逐步受到重视。欧阳秀君,刘文在《数据挖掘技术在烟草CRM中的应用》一文中[4],主要探讨如何将数据挖掘中的关联规则、聚类、分类方法应用于烟草CRM中。康江峰,陈辉[5]将基于数据挖掘的技术应用于对烟草精准营销策略的研究。王辛盟[6]采用数据挖掘技术,利用SPSS统计软件,以某烟草配送中心的订单数据和客户资料数据为数据源,用聚类的方法对客户群进行细分。郑阳洋、刘希玉[7]采用基于多层次关联规则挖掘技术,对2007年山东省内某地级市卷烟商业企业的销售数据进行分析,得到“消费者在购买品名为红河(软甲)的客户中,有57%会同时购买类名为八喜的卷烟”的规则。但以上对于烟草行业的数据挖掘研究的方法主要集中在关联规则、聚类分析和分类三种方法上,在接下来的研究中,我将探讨如何将更多的数据挖掘方法应用于烟草行业的数据分析上。

2数据挖掘技术在烟草行业中的应用

2.1聚类分析在卷烟销售中的应用为了便于日常卷烟销售及统计,通常根据卷烟的属性对进卷烟行分类,常见的卷烟分类方法如下:一是按照价位段划分,5元以下、5-10元、10元以上等;二是按照利润贡献度,分为一类烟、二类烟、三类烟、四类烟和五类烟;三是按照卷烟品牌划分,泰山系列、黄鹤楼系列、七匹狼系列等;四是按照产地划分,鲁产烟、沪产烟、外产烟等;五是按照焦油含量划分,低焦油卷烟和高焦油卷烟。以上就卷烟的某一单一属性对卷烟类别进行区分,极大的方便卷烟的销售管理工作,然而,消费者在选择卷烟时,往往会考虑多方面的属性,因此单一属性的卷烟分类无法解释消费者偏好。因此需要引入基于多属性的卷烟分类方法,由于卷烟规格多且本身具有多重属性,基于主观判别分类方法难以满足分类要求,需借助统计学的方法对卷烟进行科学分类。聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程,同一类别的样本表现出较高的相似性。因此,可将聚类分析用于解决上述卷烟分类问题,根据多属性相似程度将卷烟分成几个类别,消费者在同一类别中的香烟偏好无显著差异,即同一类别中的香烟具有较高的替代效应。在实际销售过程中,当某一牌号的卷烟断货、紧俏时,可推荐此牌号所在类别的其它牌号的卷烟给消费者作为有效替代。

2.2时间序列用于卷烟销售趋势预测卷烟销售市场季节性特别显著,主要表现为两个方面:一是市场以节假日为节点,节前卷烟销售迅猛,节后消费趋于平淡;二是夏季是旅游市场的旺盛,旅游业带动外来人口流动增加,卷烟销售量也随同增加。同时,卷烟市场也受经济、人口结构等方面因素影响,使得卷烟销售量存在明显的非线性特征,波动范围比较大,传统线性预测模型难以准确预测。为了提高卷烟销售预测精度,建立一个基于时间序列、能够精确预测卷烟销售量的模型已经成为一种必然趋势。时间序列由四个影响成分所组成,分别是长期趋势、循环变动、季节变动、不规则变动。这四个影响成分与卷烟销售市场的变动规律相吻合。通过建立卷烟销售时间序列模型,对以往销售的历史数据进行分析,能够有效地预测未来卷烟销售市场的走势和发展规律,更好地掌握卷烟市场的供需关系。在此基础上,做好备货工作,设立合理库存,实现有效的货源供应。通过对区域市场变化趋势的预测并结合客户实时经营状况,能够对客户的需求总量做出相适应的预测,确保做好客户的合理定量工作,保障不同零售客户需求。预测结果还可为制定公平合理的货源投放政策提供依据,使得各类货源能够投放至有相应销售能力的客户手中,更好的满足消费者的需求。

2.3孤立点分析用于烟草专卖执法数据挖掘中的孤立点分析方法可以通过计算数据点之间的距离,稠密度等来模拟用户之间的属性差异,由此找到那些属性特征与正常点差异非常大的用户数据点。人们普遍认为孤立点的存在极有可能是度量或执行错误所导致的,因其不符合数据的一般模型,所以在研究普遍现象时,人们总是试图使孤立点的影响最小化,而尽可能排除它们。然而,孤立点可能隐藏着比一般的数据更有价值的信息。近些年来,孤立点挖掘作为一个重要的研究课题,已被广泛用于信用卡诈骗监测、市场内部交易侦测、工业设备故障探测等领域。在已建立的烟草分销数据库中储存着大量客户订单信息,这些订单信息包含多个维度,如用户ID、商品编号、订购数量、需求数量、同一品牌订货间隔等等。可利用孤立点挖掘算法对客户订单数据进行分析,建立客户评估监测模型,找到以下“孤立点”:订单金额高的,敏感牌号订购量大的,敏感牌号订购频繁的,以往订购敏感牌号频率低但最近一段时间频繁订购的,按照商圈不具备高端敏感牌号销路的却频繁订购等等。这类订单“异常”的客户,或者称为“孤立点”,可以被认为是存在相当大的“违规”可能性,我们的专卖执法人员应该对这一类的零售户采取进一步的跟踪调查。孤立点数据分析,势必成为专卖执法的又一利器。

2.4遗传算法用于车辆配送线路优化卷烟商业企业的销售收益主要来自于订单,销售成本主要产生在物流配送的环节。所以,在假设销售量不变的情况下,如何优化线路配置,降低成本,最大化公司利润,在当前烟草行业面临巨大的挑战和压力下,显得尤为重要。因此,采用科学的、合理的方法来确定配送线路将是车辆优化调度工作的重中之重,是物流系统优化、物流科学化的关键。烟草商业企业已有的线路优化系统中储存有客户商店位置、道路情况等信息,可以在此基础上,利用遗传算法对配送线路问题进行优化。将一系列实际中车辆配送的约束条件,转换成二进制编码(染色体)并随机产生初始种群,通过模拟达尔文的遗传选择和自然淘汰的生物进化过程,并借助于自然遗传学的遗传算子进行组合交叉和变异,逐代演化产生出越来越好的近似解,末代种群中的最优个体经过解码,可以作为最终问题的近似最优解,用以实现对车辆的优化调度,即合理地进行配货优化、货物配装优化,特别是配送路线优化。从而达到提高里程利用率,降低行驶费用,减少车辆空驶里程,增加货运量,节约燃料,降低大修费等,为企业带来更大的经济效益。另外,车辆优化调度在减少废气排放量,降低城市空气污染方面也起到积极作用。

3结束语

我国加入WTO已有十年的时间,在这十年间,许多行业逐步实现了对外开放,无论在国内市场还是国际市场上,我们都面临着来自国际大型跨国公司的巨大竞争压力。然而,在对数据进行分析,从中挖掘出隐藏的信息和规则,用以辅助我们的生产、决策和规划方面,我国企业已远远落后于国外发达国家。可喜的是,现在越来越多的企业认识到利用数据挖掘技术分析数据的重要性———数据挖掘给企业带来的潜在投资回报几乎是无止境的。一个企业要想在复杂的环境中获得成功,必须要有详实的事实和数据作为支持,因此,随着数据挖掘技术的不断改进和日益成熟,它必将为更多的企业提供强有力的信息支撑。文章通过数据挖掘技术在烟草行业中的应用探析,将当下应用比较成熟的数据挖掘技术:时间序列算法、孤立点挖掘算法、遗传算法引进到对烟草行业日常管理和经营数据的分析上,期待从大量的数据中,发现我们想要的知识,用以实现“卷烟上水平”,更好的服务烟草零售户和消费者。

作者:吕斐斐王瑞军单位:山东威海烟草有限公司

被举报文档标题:烟草行业数据挖掘论文

被举报文档地址:

https://www.meizhang.comhttps://www.meizhang.com/gylw/sjwjlw/667925.html
我确定以上信息无误

举报类型:

非法(文档涉及政治、宗教、色情或其他违反国家法律法规的内容)

侵权

其他

验证码:

点击换图

举报理由:
   (必填)