论文部分内容阅读
大数据时代,数据不仅已成为国家基础性战略资源,也逐渐成为第五种生产要素,融入社会经济各领域并驱动发展。随着传统3S技术、互联网、数据采集和云计算技术的发展,空间大数据的体量飞速增长,在各领域内的应用也更加普及和深入,数字经济发展也对数据要素的流动提出了更高要求。研究构建分布式环境下空间矢量大数据的高效存储模型,构建与其相匹配的高效空间分析、可视化关键技术,是形成高扩展、高性能地理信息服务体系的基础技术前提。然而,现有研究多基于单个数据模型、存储平台构建空间矢量数据存储模型,无法提供多数据粒度的空间矢量数据存储、管理支持;同时,由于分布式存储环境与传统单机存储的差异,现有模型的分布式索引机制与分析处理模式还存在较大优化空间,效率有待进一步提升;此外,这些存储模型面向查询叠加、邻近分析或快速可视化等其中的一类空间分析功能构建,若要支撑多种应用,则要负担额外的存储成本。针对上述问题,本文以分布式环境下多模态、数据分析粒度的空间大数据高效分析、可视化关键技术为导向,探讨研究分布式环境下空间矢量大数据存储模型,特别是空间数据存储模型、空间查询处理、叠加分析处理、邻近分析处理以及矢量瓦片快速构建方面的关键技术,提出了一套打通空间矢量大数据多源存储、分析、快速动态可视化的方法体系,并通过实验验证了其可行性与优越性;同时,以自然资源大数据管理为应用领域,设计实现了分布式环境下自然资源大数据分析原型系统,以实际的自然资源管理、规划分析等关联空间矢量大数据的应用场景验证本文研究成果的应用价值与实际意义。本文的创新性成果与主要贡献包括以下四个方面:(1)为满足不同计算模式、数据粒度的空间矢量大数据的分析需求,本文结合数据特征提出了空间矢量大数据分布式存储模型Fabric Geostore。首先,介绍了空间矢量数据存储的理论基础与关键技术;其次,针对Key-value与列式数据模型不同的存储特性、读取特性进行研究,按照面向对象的存储模型思想,设计实现了基于HDFS与HBase的空间矢量大数据分布式存储模型,并提供了空间元数据管理用于高效组织、筛选数据。利用2022年亚洲区域的开源街道地图(OSM)数据集对Fabric Geostore存储模型进行了丰富的测试实验,验证了模型优秀的数据载入性能、存储资源利用能力以及数据读取性能。(2)基于FabricGeostore存储模型,本文开展了空间矢量大数据高效分析方法研究,提出了支撑在线、离线两种计算模式,数据粒度涵盖文件、区块、行(row)列(column)记录的空间矢量大数据分布式分析方法。提出了Keyvalue与列式数据模型下,服务端分布式内存空间索引(SIR*-tree)与相应的索引加载、分析处理框架来提高分析效率。首先,以HDFS为数据源,基于内存并行计算框架Spark编程实现了矢量大数据的空间查询、叠加分析与邻近分析的离线并行处理;其次,以HBase为数据源,通过基于其服务端协同处理计算框架实现轻量级空间查询、叠加分析、邻域分析的实时并行处理。利用2022年亚洲区域的OSM数据集对在线、离线两种模式下的空间查询、叠加分析与邻近分析进行测试,验证了上述所提分析方法优秀的性能与扩展性。(3)基于所提出的在线模式下的空间矢量大数据分析方法,本文开展了分布式环境下空间矢量大数据可视化方法研究。首先,介绍了现有空间数据可视化的理论基础与关键技术;其次,通过评估不同展示层级下空间矢量数据可视化产生的必要信息量与冗余信息量,提出了一种基于像素与数据混合可视化计算模型的矢量数据可视化方法,结合几何概化抽稀技术与矢量瓦片编码技术,实现矢量瓦片的快速生成与前端动态渲染。方法直接使用Fabric Geostore列式存储模型中的数据,无需另行处理、加工额外版本的数据,并且支持将Fabric Geostore的HBase作为切片缓存服务器,极大节约了存储资源与成本。利用2017年中国区域的OSM数据集对本文方法、QGIS、Arc GIS Server工具进行对比测试,实验结果验证了本文的空间矢量大数据分布式快速可视化方法的性能优越性,实验条件下,方法具备为1080p、2k分辨率的显示设备提供空间矢量数据实时动态可视化的能力。(4)以自然资源大数据管理为应用场景,设计实现了分布式环境下自然资源大数据分析原型系统,介绍了系统的开发环境与部署条件,选取了合规性分析、缓冲区分析、土地利用转移矩阵分析应用案例,介绍了本文的成果方法支撑这些应用的实现方式,并提供了测试数据与应用运行案例。通过实际的自然资源管理、规划分析应用体现本文研究成果的应用价值与实际意义。