美章网 资料文库 国土资源大数据存储技术研究及实现范文

国土资源大数据存储技术研究及实现范文

时间:2022-01-22 10:52:12

国土资源大数据存储技术研究及实现

摘要:本文对国土资源数据结构、云存储、海量空间数据管理等方面进行理论研究和关键技术分析,探索适合国土云环境下国土资源大数据存储管理的结构模型、组织规范、存储环境和安全体系,借助云计算、大数据的新技术、新理念为国土资源一张图云存储提供技术参考和实现推广。

关键词:国土资源;大数据;云存储;地理信息

1绪论

随着高精度、高频度、大范围的超海量地理空间数据呈爆炸式增长,如何有效的组织和管理这些海量异构的国土资源大数据,以便让国土资源各业务部门能够快捷高效的利用其数据信息,是目前急待解决的难题。与此同时,云计算和大数据技术的兴起,给新一代空间信息基础设施体系架构的发展带来了希望,其分布式存储及并行计算的特征非常适合应对海量数据存储以及大规模数据处理等问题,这就为国土资源海量空间数据的存储与处理提供了解决方案[1]。本文利用国土云环境,面向国土资源一张图海量空间数据云存储技术展开研究,以提升国土资源数据存储的高效性、可靠性和扩展性,为解决超大规模海量国土资源数据存储的难题,保障国土资源数据的及时更新、实现真正意义上的“一数一源”,为国土资源数据高效存储与共享交换提供了思路。

2总体架构分析

通过GIS数据中心集成开发、网络通信以及信息化技术,以国土资源的各类专题数据为基础,以数据库管理和数据提供利用为目标的信息化标准规范体系和各级互通、共建共享的综合数据管理利用服务体系,建设国土资源云存储管理系统。基于SOA架构的数据中心集成开发平台,实现专题业务模块的服务化、组件化、定制化管理;开发整合海量土地、矿产、地质灾害专题数据和数据应用,实现多年度、多专题、多比例尺、全区域的空间数据库分布式运行和综合管理;进一步利用国家、省、市、县四级的数据交换体系,实现系统内的信息共享和效能监督。其总体架构图如图1所示。

3基础设施体系研究

对于硬件设计方面采取分层设计的思想,分析硬件系统的组成部分,通过对系统分解,找到最合理的服务环境,发挥出硬件设备最优异的性能,并提供安全服务[2]。国土云通过应用云计算虚拟化技术,减少信息化设备的冗余数量,节省大量的空间,便于硬件资源的有效利用,根据用户的实际需要对其进行合理分配。国土云环境包括了数据存储区域、计算服务区域、局域网区域以及核心网络区域四大模块。如图2所示:

4数据存储与组织模型研究

通过把结构化与非结构化的信息数据统一格式、统一基准并空间化,导入到分布式文件系统HDFS中,导入完成后分布式文件系统自动触发档案内容提取流程,将办公文档、pdf、图片、视频等非结构化数据中的内容提取出来,按照特定的约束方式存到HBase构建的内容库中,同时将结构化数据到GIS服务集群中,供数据管理层提取和访问[3]。

4.1数据组织模型大数据中心数据库至下而上进行划分为物理层、逻辑层以及逻辑字库层。逻辑字库包含了基础类、参考系、专业类以及管理类等数据;逻辑层主要用来描述国土资源数据的专题图件,细分包括防灾管理数据、地政管理数据以及矿政管理数据;物理层主要用来描述另外两层的关键要素,数据逻辑设计如图3所示:大数据中心核心库数据需要把多种符合要求的数据按照顺序入库,由各类不同专题的业务数据组织构建。在现行的市县级国土资源数据管理体系中,分为市州级和区(县)级进行不同级别的管理,中心数据库把县级数据集当做最小的管理单元,结合业务实际需求,选择合适的粒度有机统一的进行管理。如图4所示:大数据中心核心数据库采用逐层管理的方式,对于不同类型的数据使用的描述格式也有所不同,与之对应的数据元信息也有多种格式,因此在数据元数据进行入库管理之前,首先应该建立一套完整的数据标准,以此确保所有数据可以正确入库。在核心数据库中,每个元数据都对应了一个数据模式,刚开始创建数据集的时候,应该先把相同的文件模式进行解析,并把获得的数据加入到数据元库中。在入库的过程中还应该提供详细的日志信息,对数据的类型、格式以及时间等内容进行统计,达到大幅度提高数据录入的效率和准确性[4]。

4.2数据存储模型空间大数据可考虑采用GIS平台进行管理,非空间大数据组织按照一定的方式和规则对多源大数据进行归并、存储、处理的过程。根据非空间大数据种类较多等特性,大数据中心提供多种存储方式来支撑非空间大数据的存储组织。非空间大数据的存储主要采用Hadoop分布式文件系统,存储策略主要包括三部分内容:首先根据数据特点进行属性分类,将同属同一类的小文件聚合成为一个大的文件,便于提高小文件的读写速度;然后在合并小文件的过程中,需要建立相对应的检索系统,以此快速访问小文件[5];最后建立合理的缓存的体系,对文件存放的数据块进行缓存,从而提高访问小文件的效率,大大缩短了访问的时间。如图5所示,通过构建索引文件和数据文件两个文件,对同一档案下的小文件进行合并存储,索引文件中存储小文件的相对路径、名称、大小、修改时间、数据区偏移量等基本信息,数据区存储了每个小文件的二进制数据流。针对系统经常访问文件元数据的需求,系统提供缓存模块将对索引文件缓存到内存中,实现高效访问,当系统需要读取文件内容时,先从检索信息中获取数据区偏移情况,根据偏移量从数据区中获取文件二进制内容。

5安全支撑体系研究

由于网络、传感设备的开放性,其即时在线的特征,会给信息安全带来风险。只有通过数据源头即数据的存储方面加强数据安全,才能保证国土资源信息化运行更加平稳、安全、高效[6]。

5.1安全体系总体架构利用国土云平台的优势为用户提供多层次、立体化、基于不同安全技术实现的网络安全纵深防御体系,其总体架构如下图6所示:基于云计算安全架构,结合省级国土资源政务信息系统架构和特点,可按照以下原则规划国土云的安全防护措施:

(一)内外网安全隔离将国土云分为两个大的安全区域,一个是内部服务区域,供内部信息系统使用;一个是外部服务区域,供因特网信息系统使用。两个区域之间通过多层次的隔离技术对云服务器、数据库和存储等计算和存储资源进行安全隔离,完全不能互访。内部信息系统不分配公网IP,因此无法从公网访问内部应用。互联网应用分配公网IP,可以从公网发起访问。

(二)区域内安全隔离服务区域内的每一个信息系统作为一个单独的安全域,安全域内可以互相访问,安全域之间默认无法互访;同一服务区域内的不同应用之间如果有互访需要,则可以通过安全域防火墙授权访问。

(三)互联网应用安全防护由阿里云盾(包括防DDoS、入侵防御、网站安全防护等功能模块组成)保护互联网入口。

(四)数据安全交换国土云内部服务区通过涉密专线接入省电子政务内网,外部服务区通过专线或VPN连接到网闸等安全设备。国土云内部服务区与省电子政务内网的其他单位、机构网络间交互数据,通过密码机进行数据加解密传输进行。

5.2安全支撑体系框架设计国土云平台的安全支撑平台能够划分为四个层面:基础设施层、数据访问层、信息交换层、应用层。基础设施层包括了认证基础设施以及网络安全基础设施。国土云是一种面向网络的应用体系架构,所以国土云安全层中最根本、最底层的就是这两个基础设施。网络安全基础设施能够给内部工作环境给予全面、多层的安全保护,其范围包含:终端、网络设施、外设等。认证基础设施可以提供环境中基本的认证服务,能够实现身份认证、数据传输、存储的安全性和可靠性。数据访问层的作用涵盖数据内容的安全性、信息调用、传送和获取等的安全方面。为了强化数据访问层的安全能力,需要借助安全基础。通过安全基础可以实现数据库保存、调用各个平台之间的数据信息[7]。同时系统还应该能够按照等级不同制定不同的应用权限,以实现对各类操作的记录工作和开展回溯。由于网络的公开特征和网络协议的风险,黑客能够通过在传输网络中嵌入窃取工具,获得网络传输中的关键数据,并设法译出其中信息,引发泄密或者数据遭到破坏等恶性事件;所以需要在信息交换层保障数据共享的安全,特别是保障数据传输过程中的防篡改、完整性和不可抵赖性,同时要防范数据在网络传输时被窃取和失泄。应用层的重要作用在于确保操作用户的审查、信任以及不可抵赖性。应用层还应该包括较好的双向认证体系,具备不可旁路性,以保证只有授权用户才能登录可信任的系统,开展权限范围内的应用[8];针对个人的操作开展完整的审计日志,以实现个人操作的不可否认性;保障服务器端与客户端的数据交互的安全,确保所有应用模块在操作过程中的完整性和可用性。

6实现和展望

本文提出的理论与方法在湖南省国土资源一张图信息系统建设中得到了部分应用,也奠定了其进一步开展研究实现的基础。湖南省国土资源一张图信息系统是本省“金土工程二期”的重要任务,该系统经过多年的建设和推广,目前已覆盖至12个市州、65个县的国土资源管理部门。其部分功能展示如图7。国土资源信息是重要的基础国情信息,在国家实施网络强国战略中发挥着不可替代的重要作用。国土资源海量数据存储管理又是国土资源信息化的关键,其研究有着非常重要的理论意义和应用价值。云存储是下一代的存储模式,云存储与国土资源海量数据结合的国土云研究和应用是国土资源事业改革发展的必然要求,国土云正处于建设应用阶段,尚有许多理论、技术有待进一步深入研究。

参考文献/References

[1]国土资源信息中心.“国土云”建设总体框架.2014.

[4]吴边,吴信才.CloudGIS关键技术研究[J].计算机工程与设计.2011,32(4):1342-1346.

[5]杨晓雁,基于Hadoop的海量数据的分布式存储关键技术研究.自动化与仪器仪表,2016(8):第166-167页.

[6]顾炳中,申世亮.“欧盟空间信息基础设施”及对国土资源“一张图”建设的启示[J].国土资源信息化.2011(1):5-8.

[7]冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报.2014(01):246-258.

[8]罗东俊.基于可信计算的云计算安全若干关键问题研究[D].广州:华南理工大学,2014.

作者:黄弘 贺晨骋 单位:湖南省国土资源信息中心

被举报文档标题:国土资源大数据存储技术研究及实现

被举报文档地址:

https://www.meizhang.comhttps://www.meizhang.com/shekezazhi/jrgtzz/727131.html
我确定以上信息无误

举报类型:

非法(文档涉及政治、宗教、色情或其他违反国家法律法规的内容)

侵权

其他

验证码:

点击换图

举报理由:
   (必填)