美章网 资料文库 海量地理国情普查数据存储研究范文

海量地理国情普查数据存储研究范文

时间:2022-12-29 05:13:17

海量地理国情普查数据存储研究

摘要:针对地理国情普查成果数据量大、复杂且多样化、管理难度大、应用效率低等特点,提出了一种基于ISCSI构建ORACLERAC数据库和GlusterFS分布式文件系统来管理地理国情普查数据的方法。实验结果表明,该方法能够充分利用普通的硬件和网络资源来构建数据存储环境,保障地理国情普查数据库快速稳定地运行,并且能够无缝地扩展存储资源。

关键词:地理国情普查数据;ISCSI;ORACLERAC;分布式文件系统

1技术介绍

ISCSI(internetsmallcomputersysteminterface,网络小型计算机系统接口)是一种在TCP/IP协议网络上进行数据块传输的标准[1]。其目的是用IP协议将存储设备连接在一起,使服务器可以与使用TCP/IP网络的存储设备互相交换存储资料[2],它包括发起端和目标端,其工作原理是发起端将SCSI指令和数据封装成ISCSI协议数据单元,提交给TCP,最后封装成IP数据包在IP网络上传输,到达目标端后通过解封装还原成SCSI指令和数据,实现SCSI命令和数据在IP网络上的透明传输。ORACLERAC(ORACLErealapplicationclusters)通常称作ORACLE真正应用集群[3],其实质是使位于不同服务器系统的ORACLE实例可以同时访问同一个ORACLE数据库。一个ORACLE集群由多台服务器组成,每台服务器是一个独立的数据库实例[4],用于监听自己的网络端口;每台服务器有自己的ORACLERAC服务,用于数据库的集群访问;所有的服务器通过自己的操作系统访问一个共享的存储设备,数据库存储在共享设备上。GlusterFS是一个开源的分布式文件系统,能够利用普通的存储设备来部署可集中管理、横向扩展、虚拟化的存储池,使用单一全局命名空间来管理数据,支持PB存储容量[5],支持运行在任何标准IP网络上标准应用程序的标准客户端。

2基于ISCSI技术的地理国情普查数据分布式存储

2.1研究路线地理国情普查

数据量大,如何有效进行管理,是必须考虑的问题。本文利用计算资源、网络资源、存储资源等构建数据库服务器集群和文件服务器集群,提供分布式存储环境。在数据库服务器集群和文件服务器集群上结合ISCSI技术,搭建ORACLERAC数据库和分布式文件系统,其架构如图1所示。根据《第一次全国地理国情普查数据库建设技术设计》的要求,将地理国情普查的地表覆盖、地理国情要素及其元数据等矢量数据存储于ORACLERAC数据库中,地形地貌数据、遥感影像数据、遥感影像解译样本数据等存放在分布式文件系统中,实现海量地理国情普查数据的分布式管理,然后验证使用ISCSI构建的存储环境能够满足海量地理国情普查数据的存储和读取;最后通过对比验证基于ISCSI的分布式管理和普通管理方式在数据存储和负载均衡方面的性能。

2.2分布式存储系统构建

2.2.1基于ISCSI的ORACLERAC数据库使用相同配置的两台服务器部署ORACLERAC集群,集群节点同时作为数据存储服务器,其配置信息如表1所示。基于ISCSI将服务器上的存储资源通过网络输送到所有ORACLERAC节点,再利用ORACLE的ASM[6](automaticstoragemanagement,自动存储管理)将这两台服务器上的存储资源创建成共享存储来管理地理国情普查数据,集群内部实现分布式存储设备的维护。构建过程如下:1)整体部署,包括硬件和软件环境部署,如表1。2)配置公共网络和专用网络。3)基于ISCSI配置共享存储。在网络协议的基础上,在集群节点上配置好ISCSI协议并添加ISCSI虚拟磁盘,启动ISCSI发起程序,连接至虚拟磁盘,从而绑定磁盘,实现磁盘的本地使用,再配置成共享存储。4)安装集群软件和数据库。5)配置客户端连接ORACLERAC。2.2.2基于ISCSI的GlusterFS分布式文件系统在GlusterFS中将服务器上剩余的存储空间使用ISCSI技术虚拟成网络存储设备,并加载多个网络存储设备和本地存储设备,采用两台配置信息如表1的服务器,搭建分布式文件系统环境。其构建过程如下:1)将服务器上的空闲存储资源以虚拟ISCSITarget服务的方式出来,形成私有的存储区域网络SAN。2)在5台存储服务器上分别安装GlusterFS,创建GlusterFS集群,各台服务器上使用GlusterFS将ISCSI存储设备或本地存储挂载为数据块并纳入管理。3)配置多个节点的数据存储数据块融合成组,合并创建成大容量的网络存储卷,在网络上形成NAS存储网络。4)主服务器节点,通过挂载分布式集群创建的NAS卷,使用Samba(Linux下的文件共享服务软件)为选定的目录建立网络共享,将NAS卷的存储空间提供出来,供网络内的其他服务器进行共享访问。

2.3存储性能测试

选用一台配置为Intel(R)Core(TM)i5-2400、内存为4GB、操作系统为Windows7的台式机作为客户端,以某地地理国情普查成果数据为实验数据,分别对本文提出的分布式存储与普通集中式管理方式进行了存储效率和负载均衡性能的测试。2.3.1存储效率性能测试1)选取记录数目分别为3万条、10万条和100万条的地理国情普查矢量数据,其对应的数据大小分别是50M、200M、1000M,比较导入基于ISCSI的ORACLERAC数据库和ORACLE数据库的耗时,从ORACLE数据库中查询分别需要70s、185s和354s;基于ISCSI的ORACLERAC数据库查询分别需要31s、93s和159s,其效率提高2.3倍,如图2所示。2)选取数据量分别为0.1TB、1TB、5TB的地理国情普查影像数据,比较导入基于ISCSI的分布式文件系统和普通文件系统的耗时,导入普通文件系统分别需要4min、360min和1800min;导入基于ISCSI的分布式文件系统分别需要2min、240min和1200min,其效率提高1.5倍,如图2所示。从图2可以明显看到,基于本文提出的分布式存储方式具有优势,存储效率高于普通的数据管理方式。2.3.2负载均衡性能测试在ORACLERAC集群上,首先关闭节点1上的数据库实例,在节点2上频繁执行查询操作,节点2的大量资源被占用,CPU利用率迅速升高,达到90%;再启动节点1上的数据库实例,此时节点1的CPU利用率升高到46%左右,节点2的CPU利用率降低到55%左右,几分钟之后两个节点的CPU利用率都保持在20%左右,如图3所示。通过测试验证,当集群某一节点的负载过高,而其他节点负载较小时,将请求分配给当前负载较小的节点上,从而实现数据交互的均衡分配。

2.4测试结论

在反复的验证测试中,最终得出结论,基于ISCSI的ORACLERAC数据库和分布式文件系统完全可以应用于地理国情普查数据的管理,且具有硬件成本低、存储效率高、负载能力强等优势。

3结语

深入研究了利用ISCSI技术构建的ORACLERAC集群来管理地理国情普查数据,将数据分散地存储在多个普通的存储物理设备上,降低了硬件成本,实现了数据的高并发读写和海量数据存储,提高了系统的响应效率,并且系统具备灵活的分布式体系结构,支持横向伸缩;即便随着地理国情普查后续工作的推进造成数据量的几何级增长,也可以无缝扩展该存储系统以满足需求。

参考文献

[1]张立,徐学雷.ISCSI技术在数据图书馆中的应用[J].现代图书情报技术,2005,128(9):14-16

[2]任建奇.基于ISCSI的虚拟存储系统设计与实现[D].西安:西北工业大学,2006

[3]吕元海,孙江辉,马龙.基于ORACLERAC的校园网数据库集群系统设计与实现[J].现代电子技术,2016,39(4):72-75

[4]史超.基于linux的ORACLERAC集群数据库优化研究[D].天津:天津师范大学,2014

[5]杨勇.基于GlusterFS的分布式冗余存储[J].西安文理学院学报(自然科学版),2010,13(4):67-70

[6]李勇.基于ORACLERAC的海量数据管理系统优化设计[D].上海:复旦大学,2012

[7]赵阳.地理信息公共服务平台集群架构的研究与设计[D].昆明:昆明理工大学,2013

作者:齐东兰 向娟 杜鑫 魏永强 杨雨佳 单位:国家测绘地理信息局重庆测绘院

被举报文档标题:海量地理国情普查数据存储研究

被举报文档地址:

https://www.meizhang.comhttps://www.meizhang.com/shekezazhi/dqxb/725395.html
我确定以上信息无误

举报类型:

非法(文档涉及政治、宗教、色情或其他违反国家法律法规的内容)

侵权

其他

验证码:

点击换图

举报理由:
   (必填)