刘现印
山东省国土测绘院,山东 济南 250013
摘要:大数据时代对地理信息数据管理、应用和服务提出了新的要求。分析了我国地理信息数据管理及应用存在的问题,以山东省为例阐述了地理信息时空大数据中心的建设思路,对基础设施建设、地理信息资源数据库构建、数据整合技术以及应用服务系统开发进行了深入分析。本研究可以提升地理信息资源的管理和应用服务水平,具备较为广阔的应用前景。
关键词: 地理信息 ; 大数据中心 ; 云平台
论文引用格式:
刘现印.东省地理信息时空大数据中心建设方法. 大数据[J], 2019, 5(5):89-99
LIU X Y.Construction methods of geographic information spacetime big data center in Shandong Province.Big Data Research[J], 2019, 5(5):89-99
1 引言
近年来,大数据、物联网、云计算等新兴信息技术得到了快速发展,很多国家在积极实施大数据战略,推进各类数据资源的开放共享。2012年美国启动了“大数据研究和发展计划”,2014年美国建立了犹他州大数据中心,实现了对互联网数据、地理信息数据、遥感影像数据、通信数据等的集中存储和统一管理,相关部门可以根据各自承担的职责与需要来分析、处理和使用这些数据。如今大数据撼动了社会的方方面面,尤其是商业科技、教育、医疗、环境、交通、生物、政府服务、地理信息等领域,并催生了各行各业持续变革的力量。在我国,信息技术行业最早开展了大数据的研究与应用,目前大数据已在网上购物、市场营销、在线医疗、视频监控、人工智能、金融服务等领域发挥着重要作用。我国的测绘地理信息行业也非常重视大数据的研究和应用。《测绘地理信息部门“十三五”信息化规划》从管理、应用和服务层面对时空地理信息数据的发展进行了新的规划,提出了更高的标准,要求在2020年前基本建成测绘地理信息服务体系,初步建成时空地理信息大数据体系,基本实现各类地理信息数据的有效集成服务,大幅提升时空地理信息智能化管理与数据交换技术能力和水平。我国原有的地理信息数据在生产、存储管理与应用服务过程中存在着数据生产项目化、存储离散化、管理烟囱式、难以进行整合应用、服务类型单一等问题,无法满足当前测绘地理信息数据获取速度越来越快、新数据类型不断出现以及社会各界越来越个性化的应用需求。为了解决上述问题,国家自然资源管理部门积极推动地理信息时空大数据中心的建设,目前国家基础地理信息中心和浙江省、海南省、贵州省、山东省、陕西省以及黑龙江省等省份的测绘地理信息数据管理部门已经开始了各自的地理信息时空大数据中心建设。本文根据山东省地理信息时空大数据中心建设的内容和实现方法,阐述了一种利用大数据、云计算、空间地理信息等技术构建集中统一、陆海一体的山东省地理信息时空大数据资源体系,结合云基础设施搭建高效开放的时空大数据应用系统,推进地理信息时空大数据服务模式升级与应用创新。从而形成基于大数据等新型信息技术的管理、应用和服务体系,形成以“混合存储、动态整合、集成管理、联动更新、开放共享、按需服务”为典型技术特征的地理信息时空大数据中心建设思路,进而全面提升地理信息服务保障能力。
2.1 总体技术架构
系统总体架构设计模式可分为分层架构、事件驱动架构、微核架构和微服务架构等。其中,分层架构模式采用“高内聚、低耦合”的思想,将一个庞大的系统工程分解为不同的任务组,能够更加方便地进行系统维护,非常适合山东省地理信息时空大数据中心这类超大型项目的建设与实施。为此本研究采用分层架构模式,其总体技术架构主要包括基础支撑层、数据资源层、软件服务层、专题应用层等(如图1所示)。
基础支撑层是时空大数据中心运行的软件、硬件环境。本研究将构建私有云环境,通过云平台管理软件将存储资源、计算资源、网络资源、安全防护资源等进行池化,实现上述资源的统一调度和动态分配。本研究还将在云平台基础上搭建空间大数据基础框架,将分布式计算框架与地理信息系统(geographic information system,GIS)基础平台进行深度融合,实现支持分布式文件系统、非关系型数据库、空间数据库的混合存储框架能力以及支持高性能并行计算和分布式空间计算的混合计算框架能力,为数据存储、软件服务及专题应用提供基础支撑。数据资源层是时空大数据中心建设的核心。通过对已有的测绘基准数据、地形要素数据、地理国(省)情数据、原始影像数据、市县基础地理信息数据、档案资料以及各类行业专题数据进行动态汇聚,形成汇集库。对上述数据资源进行对比,制定数据融合标准,建设包含地理空间要素、遥感影像、地形数据、三维模型、地名地址、公共专题六大类数据在内的资源数据库。根据专题应用的需要对资源数据进一步处理,形成服务库。服务库包括电子地图、专题地图、标准地形图和新型地理信息产品等。软件服务层通过开发软件和工具为内部数据管理与外部专题应用提供技术支撑。构建时空大数据管理系统,实现对数据资源层数据的整合加工、混合存储、统一管理和共享交换,实现各类数据资源的合理组织、有序流动和联动更新。构建时空大数据服务系统,为用户提供空间一张图服务、地理编码服务、在线定制服务、成果分发服务、大数据分析挖掘与可视化服务等时空信息数据服务支撑。另外,还要对已有的专项业务管理系统进行技术架构升级,使其融入大数据中心的结构体系中。专题应用层依托时空大数据中心的数据资源与软件服务能力,与其他部门的专题数据相结合,实现对内、对外的专题应用。对内,为单位的主要业务(如应急测绘、地理信息公共服务平台)提供数据和技术支撑;对外,为对山东省经济社会发展有较大影响的社会热点(如乡村振兴、离任审计等)提供权威的地理信息数据及服务支撑。标准规范的制定是时空大数据中心规范有序、稳定运营的重要保障。本研究中将建立大数据基础类、资源类、应用服务类和运行支撑类等地理信息时空大数据业务标准,为数据资源整合、数据库建设、数据挖掘、数据应用和资源服务等工作提供操作依据和规范流程。总体技术架构将严格遵循国家的有关规定和要求,构建时空大数据中心的安全技术体系和安全管理体系,综合管理和技术两个方面的要求,建立信息系统综合防护体系,实现技术措施和管理措施的有机结合,提升系统的安全保护能力。山东省地理信息时空大数据中心是一个系统性工程,涉及的内容很多,但是其核心的内容是基础设施建设、时空大数据库建设和应用系统建设,由于文章篇幅的限制,下面将着重介绍上述3个方面的内容。
2.2 基础设施建设
基础设施建设主要包括网络资源、存储资源、计算资源及云环境等方面的建设。其中网络资源建设将采用万兆网络互联,确保40 Gbit/s的网络传输,实现服务器和交换机之间10 Gbit/s的网络传输;保持存储接口网络整体性能大于2 GB/s。存储资源将由两台磁盘阵列组成,拥有450 TB的容量,且支持扩容。计算资源将采购含英特尔至强第14代CPU的数据库服务器4台,应用服务器、渲染服务器和瓦片服务器8台,终端计算机10台。本研究将采用国产自主化云管理平台构建私有云环境,通过云平台提供的轻量级虚拟化技术、分布式文件系统技术、网络虚拟化技术和硬件设备透传技术,将上述服务器、存储、计算和网络资源统一池化,实现统一管理、弹性伸缩、自助服务。
2.3 时空大数据库建设
数据资源体系建设是山东省地理信息时空大数据中心建设的重点。时空大数据中心数据资源包括汇集数据库、资源数据库、服务数据库以及目录与元数据库4个部分(如图2所示),全省地理信息时空数据在此进行汇集、整合与输出。未建库数据按照数据来源进行组织,通过对数据的收集、分类、整理进行数据建库,已建库成果则直接通过数据模型转换与接入的形式纳入汇集数据库,为资源数据库建设打下基础。
资源数据库是对汇集数据库的数据按照大数据标准规范进行对比、整合与归一化形成的,根据数据类型和应用服务的需要进行数据库内容组织,是时空大数据的核心数据库,其作用在于为服务数据库提供覆盖全省的、多时态的数据支撑。地理空间要素数据需要实现汇集数据中地形要素、地理国情信息数据以及市县基础地理信息数据的融合,是资源库建设的核心。根据用户需求提取资源数据库中的相关内容进行深加工,形成多样化的地理信息数据产品,并按照地图种类在服务数据库中进行组织管理,目的是更好地发挥时空大数据资源的价值。在充分衔接山东省测绘成果网络化分发服务系统和国家地理信息资源目录服务系统的基础上,构建面向管理、应用与服务的统一资源目录体系,采用元数据对各类时空大数据资源进行描述,形成规范的目录内容。依据时空大数据中心数据资源建设的目标,在分析业务需要的基础上,以目前收集的各类型地理信息数据为基础,以数据整合改造技术为纽带,实现基础地理信息数据资源的建库管理,并为应用系统提供基础数据支撑。数据资源建设采用工作流的方式逐步推进,根据操作的先后顺序,将整个过程分为8个环节(如图3所示)。
时空大数据存储整合了多种存储模式,对外提供统一的、开放的数据存取访问接口,提供时空大数据统一存取服务,以支撑上层应用开发分布式、并行计算应用。空间大数据存储框架是在传统关系数据库、共享文件系统基础上,扩展并综合利用NoSQL数据库、分布式文件系统,形成面向空间大数据的关系数据库集群、NoSQL数据库集群、分布式文件系统集群的混合存储框架,并在此基础上提供规范化的数据存取接口(如图4所示)。
2.4 应用系统建设
应用系统是大数据中心的核心技术支撑,也是开展时空大数据管理、应用与服务的主要技术手段。它由数据管理系统、数据服务系统和业务管理系统三大系统19个子系统组成(如图5所示),其依托空间大数据基础框架和大数据资源体系为大数据中心内部用户提供统一管理抓手,实现大数据资源的多源汇集、动态整合、按需加工以及一体化集成管理与应用能力;为大数据中心外部用户提供多样化服务,根据应用需求提供数据在线服务、共享服务、处理服务、分析服务等各类智能化服务。数据管理系统主要由6个子系统构成(如图5所示),它是地理信息时空数据资源建设的管理手段,为地理信息时空数据资源的整合加工、综合管理和数据更新提供完备的软件支撑。数据管理系统各子系统均采用服务器/客户机(client/server, C/S)架构,建设过程中采用国产自主化组件GIS平台和开源数据库软件。● 采用EA(enterprise architect)作为主要设计工具、Visual Studio 2012作为开发环境,综合数据库管理系统、服务产品加工工具、资源目录管理系统采用开发效率较高的C#作为开发语言。由于数据整合系统、联动更新系统和集成展示系统要进行较多的耗时操作,因此采用执行效率较高的C++作为开发语言,同时采用并行处理技术,使数据编辑操作实现秒级响应,数据更新效率较原有模式提升1倍,展示效率提升2倍以上。● 为了对矢量数据进行形象直观的显示,定义矢量数据存储管理模型,主体基于空间数据库进行物理实现,完成矢量数据的时空化管理。该模型能够支持在标准的数据库管理系统中存储和管理地理信息,可以实现对海量地理信息数据的高效存储、多用户并发操作和空间数据无缝管理。● 为了兼顾数据管理与读取速度的要求,基于空间数据库与文件系统的混合存储架构实现文件资料数据的存储管理。对数据量相对较小的矢量数据采用空间数据库进行存储,对数据量相对较大的遥感影像数据采用文件系统进行存储。采用该技术能够为上层业务和应用提供稳健、高效的实时数据服务。● 同其他数据库相比,MongoDB和SQLite数据库具有更高的插入速度、良好的可扩展性、高效的查询速度等特点,因此采用MongoDB、SQLite实现矢量瓦片数据的存储管理。其中,MongoDB数据库提供瓦片数据的网络管理解决方案, SQLite数据库提供矢量瓦片数据的本地管理解决方案。经实验,采用该种方式,入库效率较传统方式提升2~3倍,访问时间缩短1/3。● 基于国产自主化组件GIS平台与空间大数据基础框架开发,由组件GIS提供空间数据可视化控件、工具包、空间数据模型、图层方案以及空间数据的读写、查询、浏览、分析和管理功能,由空间大数据基础框架实现底层数据分布式混合存储与分布式计算。● XML是一种优秀的数据格式,越来越多的数据和文档资料开始用XML语言编写。本研究采用XML技术作为持久化技术,用于方案、元数据、配置信息等的存储。采用该方式可以完成复杂数据结构和具备层次特征数据的持久化,并使检索速度较原有方式提升50%。● 数据整合系统:对汇集库中全省地理空间信息资源进行统一规划、整合处理,切实解决当前地理空间数据资源标准不统一、县市差异性等问题,使数据满足大数据业务的应用需求。● 服务产品加工工具:对地理空间要素、地名地址、影像、地形、三维模型以及行业专题等各类资源数据进行流程化的服务数据制作,形成服务类数据成果,满足个性化、定制化和多样化的地理信息服务应用需求。● 综合数据库管理系统:提供各类数据模型,并完成与数据源的对接,提供一致性的数据资源视图,屏蔽数据资源的物理存储细节,实现对汇集库、资源库、服务库数据内容的管理。● 联动更新系统:自动识别汇集数据库的基础地理信息变化情况,并推送至工作空间,基于更新范围进行更新任务规划,并依据要素关联规则,自动进行整合更新,形成面向地理空间要素更新的增量数据。● 资源目录管理系统:以共享分发为目标,提供数据资源编目组织与元数据管理能力以及目录与元数据定制发布能力,支撑大数据中心库存内容的快速定位与分发。● 集成展示系统:提供二维、三维集成展示环境,采用专题图、统计图表、热力图等多种方式展示大数据中心的空间数据、属性数据和文件数据等。数据服务系统是时空大数据中心的服务窗口,目的是高效共享时空大数据,充分发掘时空大数据的潜能,为社会各界提供全面深入的多样化服务能力。数据服务系统由8个子系统构成(如图5所示),除移动终端应用系统采用移动设备/服务器(mobile/server,M/S)架构外,其余均采用浏览器/服务器(browser/server, B/S)架构。由于B/S架构的系统反应速度普遍比C/S架构的系统慢,因此,对于数据服务系统来说,提升系统的反应速度非常关键。● 由于时空大数据中心涉及的数据种类多、数据量大、版本多、标准不统一,极易引起数据的混乱。为此本研究采用地理编码技术,利用大数据中心提供的地理编码服务能力,支撑各类非空间化行业专题信息的空间化上图(上图指将一些通过常规手段无法展现在地图上的专题信息展现在地图上)、分析挖掘与应用。● 对于B/S架构的系统来说,检索速度的快慢是其成功与否的关键。为此本研究将采用分词技术、成熟的Solr搜索引擎,对地名地址、兴趣点(point of interest,POI)、行政区划、水系、道路等多种对象构建地名索引。经测试,采用分词和Solr技术后,全省千万级地名地址及POI查询效率明显提高,响应时间小于1 s。● B/S架构的系统地图显示通常存在加载速度慢、显示不连贯及用户等待时间相对较长等问题。矢量瓦片技术将矢量数据通过不同的描述文件进行组织和定义,在客户端实时解析数据并完成绘制,大幅减少了制图、渲染、切片、服务更新等过程,从而提升了地图渲染的效率。本研究采用基于矢量瓦片的地图服务技术,为大数据中心集成管理的各类矢量数据、地表覆盖、行业专题等,提供高效处理、实时渲染、无缝浏览、按需定制等功能。经测试,采用该技术后电子地图切片数据量缩减3/4,切片效率提升10倍。● 本研究将基于数据源选取,自定义分析建模,可视化设计、输出、分发的技术主线,构建开放的跨媒体时空数据可视化框架,为大数据中心内部资源展示、外部应用支撑提供可柔性定制的框架能力,提供能够承受峰值大于5 000并发访问量的服务能力。● 地理信息服务引擎是大数据服务能力建设的基础,为大数据服务系统提供地图服务、智能查询服务、路径规划服务等多样化的服务。● 地理空间一张图服务系统、地理编码服务系统、移动终端应用系统、在线定制服务系统、运维管理系统5个子系统将以矢量瓦片、地理编码等技术为核心,进一步提升服务系统的服务能力,提高地理信息服务的数据质量、信息含量、应用层次和利用效率。● 成果分发服务系统建设将进一步提高测绘公共服务能力和水平,实现基础测绘成果高效管理,推动测绘成果的社会化应用,降低测绘成果管理和使用成本。● 分析挖掘可视化服务系统是时空大数据服务系统的深层次能力建设,一方面服务于国情监测、自然资源离任审计等内部相关业务分析与展示,另一方面可以与行业部门业务深度结合,实现行业信息的建模、挖掘与展示。在时空大数据中心完全建成之前,还需要使用原有的业务管理系统,面向基础地理信息数据、地理国情普查与监测数据、遥感影像、成果档案等数据的管理和应用,通过基础架构升级和系统功能的改造,全面提升业务支撑能力及功效指标,更好地支撑数据存储管理、时空化更新管理及应用服务的能力提升。
3 应用前景
山东省地理信息时空大数据中心将对地理信息资源进行整合,并且提供数据管理与服务系统,建成后在以下应用领域有非常广阔的应用前景。当前我国对资源环境和生态保护的程度越来越高,正在实行越来越严厉的生态环境保护政策。利用大数据技术可以对山、水、林、田和矿产等自然资源的使用及变化情况进行监测,并对监测结果进行动态、可视化的分析及管理,为政府决策提供科学依据。当前,各级政府都在大力加强防灾减灾和应急反应能力建设。大数据中心建成之后,利用自身强大的二/三维可视化表达能力、空间分析能力以及空间数据分析挖掘能力,可以大幅提升自然灾害监测预警、应急反应、综合评估和灾后重建等环节的效率和准确性。地理信息是国家的重要战略信息资源。人们的大部分日常活动与地理位置有关,因此,时空大数据中心建成后将在社会管理和公共服务领域发挥十分重要的作用。大数据中心可以面向社会精细化管理与公共服务需求,与导航定位技术结合,提升政府社会管理和公共服务的能力。利用时空大数据中心的空间分析能力和分析挖掘能力,人们可以根据大众各种经济活动的空间分布情况合理配置相应资源,创新商业模式,培育和发展智慧旅游、文化、医疗、教育等信息消费应用服务,以市场化的方式推动大众化服务与消费的产业化、商业化发展,为“供给侧改革”和经济结构调整提供科学依据。
4 结束语
地理信息时空大数据中心建设是新一代测绘技术体系发展的必然,也是时空地理信息大数据集成管理、应用和服务的实际需求,可明显提升省域时空地理信息大数据的组织、管理、应用和服务能力。本文按照“需求导向、顶层设计、分步实施、创新驱动”的建设原则,结合大数据、云计算等新型信息技术,全面梳理、整合全省地理信息资源,提出了以“混合存储、动态整合、集成管理、联动更新、开放共享、按需服务”为典型技术特征的山东省地理信息时空大数据中心建设思路。以山东省为例,对地理信息时空大数据中心建设方法进行了探讨和研究。本文提出的方法可以改变原有烟囱式建库模式,实现统一建库、存储与管理,真正实现全省时空数据资源一张图,有利于形成多样化地理信息产品,大幅提升时空地理信息资源供给能力,实现“让数据说话”,推动地理信息服务从普适性服务到定制服务、从以产品为中心到以客户为中心的转变。
作者简介
刘现印(1982- ),男,山东省国土测绘院高级工程师,主要研究方向为地理国情普查与监测、信息化测绘体系建设、测绘成果管理及应用、地理信息系统设计与开发等。
《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的中文科技核心期刊。