您现在的位置: 新晨范文网 >> 审计论文 >> 统计学论文 >> 正文

统计数据处理中Python的应用

2019/09/09 阅读:

摘要:大数据为政府统计工作带来了机遇和挑战,统计大数据应用目前已进入推进实施阶段,但现有统计数据处理平台不能较好地满足大数据应用的需要。本文通过使用Python对农业普查大数据进行挖掘分析和数据可视化,探索Python在统计数据处理中的应用。

关键词:统计;数据处理;Python

一、引言

为深入贯彻落实党的十九大关于“完善统计体制”重要部署和中央《关于深化统计管理体制改革提高统计数据真实性的意见》,积极落实《国务院关于印发促进大数据发展行动纲要的通知》,努力适应大数据的蓬勃发展给统计工作带来的机遇和挑战,创新统计工作方式,提高统计工作效率,强化大数据在统计工作中的运用,加快构建新时代现代化统计调查体系,近期国家统计局制定了大数据应用工作方案并进行了安排部署。方案总体目标之一,是要运用云计算、大数据等信息技术和资源,在“四大工程”建设成果的基础上,改革完善统计业务流程,全力完善统计数据来源传统之轨。具体来讲,就是完善结构化数据的传统之轨,在不改变现有机构、人员和职责分工的前提下,整合普查、常规调查和专项调查等数据,打破专业壁垒和信息孤岛,实现数据共享和深度开发。其中重点项目包括:进一步挖掘普查数据应用的潜力,通过大数据处理技术整理普查原始数据,提高开发应用普查数据的能力。本文尝试利用Python的特点和优势,对某地区农业普查数据进行挖掘分析和可视化场景实现,以此来展示Python在统计数据处理中的应用效果。

二、传统统计数据处理系统的功能特点和不足

目前,企业一套表系统和大型普查数据处理系统是政府统计进行数据生产的两个主要平台,由国家或省级确定企业填报目录和填报报表制度,定期(月度、季度、年度)由企业联网直报数据,统计系统内人员进行审核、计算、汇总,生成综合数据。这两个统计数据处理系统的主要功能是数据采集、数据审核、数据汇总,为采集、处理、传输、公布传统统计数据发挥了不可替代的作用,但随着大数据处理技术的发展和传统统计数据资源深度开发的需要,发现其在整理计算加工、数据挖掘分析、可视化展示等方面存在先天薄弱和不足,迫切需要寻找能够弥补其功能短板的软件和工具。

三、Python的特点和优势

统计界广泛使用的传统工具有SAS、SPSS、R等,随着大数据时代的到来,Python在大数据处理工作中脱颖而出。相比传统的统计工具,Python的特点和优势更为突出:一是简单易学、普及程度高,国外出现了在义务教育阶段就开始教授Python的情况。全国普通高中2017版“新课标”改革中,正式将人工智能、物联网、大数据处理划入新课标,意味着Python在我国进入了高中教育。二是Python在大数据处理性能方面与传统工具相比速度要快,可以直接加载处理上GB大小的数据,而传统工具受限于性能原因则通常需要将大数据分割为数个小数据再进行处理。三是开源生态活跃、功能丰富。随着Python扩展库不断发展壮大,Python在科研、电子、政府、数据分析、web、金融、图像处理、AI技术等各方面都有强大的类库、框架和解决方案。Python拥有Matplotlib及numPy这样强大的绘图库和数值扩展,能帮助科研学术人员快速地进行可视化和数值分析。Python提供的pandas扩展库,包含了全套的统计函数和数据处理方法,可以高效处理海量数据矩阵,轻松地进行切片/切块、聚合、重采样等,其丰富的功能和强大的算法已经成为数据处理任务的首选解决方案。因此本文使用Python及扩展库,对统计数据处理中的几个典型应用场景进行实现。

四、Python在统计数据处理中的应用场景实现

(一)环境准备操作系统:Ubuntu18.04.1LTS应用程序:Python-3.6.5Pandas-0.24.2Matplotlib-3.1.0

(二)数据源准备登录农业普查数据处理平台,对某地区主要农作物(小麦、玉米)种植数据按照农户(播种面积<50亩)、规模户(播种面积≥50亩)区分进行自定义指标查询,指标包括:农作物代码、播种面积(亩)、平均每亩产量(公斤)、每亩化肥平均施用量(公斤)、农药喷洒次数、实际耕地面积(亩)、灌溉耕地面积(亩)、是否机耕。并将平台中的查询结果以csv格式导出成数据文件guimo.csv和danwei.csv。

(三)应用场景场景一:数据预处理数据预处理包括数据清洗、数据集成、数据变换和数据规约。数据清洗主要完成缺失值处理、异常值处理,数据集成是将多个数据源整合成一个,数据变换主要完成对数据进行规范化处理,比如函数计算、属性构造、规范量纲等,数据规约就是消除无效、错误数据的影响。本文使用Pandas库加载平台导出的数据为DataFrame类型对象进行数据切片、空值填充、无效值移除、灌溉率列计算、切片拼接整理,生成标准数据文件all.csv,结果见表1。场景二:数据特征描述数据特征描述是对总体变量的有关数据进行统计性描述,主要包括频数分析、集中趋势分析、离散程度分析、分布以及图形可视化。利用频数分析可以检验异常值;通过数据集中趋势分析来反映数据的一般水平,常用的指标有平均值、中位数和众数等;利用数据的离散程度分析来反映数据之间的差异程度,常用的指标有方差和标准差。本文用箱体图的形式来表达数据,可以更清晰、直观地呈现总体数据特征。1.数据准备。使用Pandas库加载标准数据文件all.csv,按照小麦和玉米、农户和规模户两类分组,使用describe函数计算每亩产量的均值(mean)、标准差(std)、最大值(max)、最小值(min)、四分位值等数据,其中“低奇异值占比”是指低于中位数的奇异值个数占总数的百分比,计算结果见表2。3.结果分析。从表2看,规模种植小麦亩产均值502.68公斤,高于农户467.88公斤,高出7.4%;规模种植玉米亩产均值541.28公斤,高于农户518.51公斤,高出4.4%;规模种植小麦亩产标准差73.46公斤,低于农户93.92公斤;规模种植玉米亩产标准差90.85公斤,低于农户99.71公斤。从图1看,规模种植小麦亩产低奇异值占比1.94%,低于农户3.29%,规模种植玉米亩产低奇异值占比3.97%,低于农户4.70%。从以上分析可以得出结论:规模化种植是实现主要农作物高产、稳产的关键。这与目前该地区农业生产实际情况相契合。场景三:相关分析相关分析是研究变量之间是否存在某种依存关系,用计算相关系数来表达变量之间相关方向以及相关程度。常用的三种相关系数(pearson,spearman,kendall)反映的都是变量之间相关方向以及程度,其值范围为-1到+1,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。由于spearman相关系数没有某些数据条件的特别要求和限制,适用范围广,所以本文采用它来研究某地区主要农作物每亩产量与播种面积、每亩化肥用量、农药喷洒次数、是否机耕、灌溉率等变量的相关关系,并用雷达图直观地显示出来。1.数据准备。使用Pandas库加载标准数据文件all.csv,按照小麦和玉米、农户和规模户两类分组,利用corrwith函数计算每亩产量与播种面积以及其他几个变量的spearman相关系数,计算结果见表3。2.可视化呈现。使用matplotlib.pyplot中subplot(polar=True)方法来绘制雷达图如图2:3.结果分析。从图表来看,在规模种植的情况下,无论是小麦还是玉米,亩产与播种面积以及其他几个因素呈现微弱相关或者不相关(相关系数绝对值小于0.3甚至接近0);在农户种植情况下,小麦亩产与播种面积以及其他几个因素的相关程度要高于玉米亩产;无论是小麦还是玉米、农户还是规模种植,亩产与是否机耕均不相关(相关系数绝对值接近0);在农户种植情况下,小麦亩产与灌溉率呈现显著相关关系(0.49),玉米亩产与灌溉率呈现低度相关关系(0.39),小麦亩产与农药喷洒次数呈现低度相关关系(0.34)。从以上分析可以得出结论:农户种植相对于规模种植,对种植资源(耕地、农药、化肥、农机、水利等)的关联程度较为明显,因此规模化种植是实现主要农作物高产与种植资源集约高效利用的关键。这与目前该地区农业生产实际情况相契合。更多场景:对主要农作物亩产、化肥使用、农药喷洒进行强度分析,利用热力地图,按照对象代码的行政区划呈现区域分布;对所有种植户进行每亩产量、播种面积等多维度聚类分析,利用树状分类图,呈现某区域主要农作物种植情况等。

五、应用建议

Python以简单易学、语言简洁、开发快速、可扩展性丰富等特点,使得进行大数据分析更加得心应手。另外,Python具有胶水语言的特性,能够兼容绝大部分的编程语言环境,对于传统统计数据处理平台可以进行嵌入和对接。因此建议加大Python在统计数据处理中的推广应用:一是将大数据处理思想体现在传统统计的制度设计阶段,改进制度指标设置,有利于后期大数据分析挖掘应用;二是将大数据处理技术运用到传统统计数据采集过程,实时掌握数据的分布形态、数值大小及离散程度,及时发现问题并纠正错误,提高数据质量;三是加强大数据处理技术在统计数据挖掘分析和可视化展示方面的应用,构建面向政府统计系统开放的统计大数据源应用开发生态圈,营造应用示范效应。

作者:胡前防 连鹏伟 陈乾坤 单位:安阳市统计局数据管理中心

统计数据处理中Python的应用

2019/09/09 阅读:

推荐度:

免费复制文章