技术交流▏空间数据挖掘及其在海洋地理信息系统中的应用
随着卫星技术、通信技术、计算机技术、数据处理技术和其他现代科技的发展,海洋学和地图学早已突破传统对于空间和时间的限制,逐渐进入了以数字测量和数字地图为主干,以计算机科学作为支撑,以3S技术为代表的新纪元。通过以上新技术,以及各种新型设备,我们获得了大量的海洋测量数据和电子地图数据,并采用现代处理方法对这些数据进行持续不断地更新和处理。这些海量而种类丰富的数据,蕴含了极大价值,并构成了海洋地理信息系统的基础。
然而,这些多来源、多维度、多时态的数据,其容量和复杂程度早已超出了传统分析方法的处理能力。一方面导致大量数据无法利用,造成决策失误或数据浪费; 另一方面导致极大的系统负担和系统存储资源浪费,使得对于数据资源的利用效率较低。空间数据挖掘作为统计学、数据库技术、机器学习技术、人工智能和专家系统的结合,能够很好地克服传统数据分析方法的缺陷,高效而充分地对数据进行分析和利用。
所谓空间数据挖掘,是数据挖掘技术在空间数据集合中的一种应用,主要通过对空间数据的分析和比对,发现蕴含在数据中,不能够直观发现的关系、趋势、模式等特征,为预测未来现象提供依据,为系统决策提供支持。然而由于空间数据的特点和海洋地理信息系统应用的特殊性,空间数据挖掘与传统的数据挖掘方法也略有不同。本文在对空间数据挖掘技术进行深入研究的基础上,介绍了空间数据挖掘技术的主要原则,分析了该技术能够取得的潜在效果,并结合海洋地理信息系统的特点和需求,研究了空间数据挖掘技术在海洋地理信息系统中的应用方法和运行模式,为进一步完善该系统,更加充分地对海洋空间数据进行利用,提供依据。
一、空间数据挖掘的基本原则
⒈空间数据挖掘的概念
空间数据挖掘以空间数据库或数据仓库作为数据来源,结合相关的数据学习理论和挖掘技术,能够从海量充满噪声和不确定的空间数据中,提取出可信的、新型的、隐藏的和未知的数据关系、发展趋势等特征和属性,并能够在不需要人工干预的前提下自动执行,完成对潜在知识的发现和挖掘工作,从而向多种信息系统提供服务,向决策支持系统提供决策依据。
空间数据挖掘是空间数据库、计算机管理技术和决策技术发展到新阶段的产物。其集成了多种当前流行的技术,如人工智能、概率统计、专家系统、机器学习、空间数据库、模糊数学、网络技术和数据可视化技术等,是一种数据挖掘技术在空间数据领域的重要扩展和应用。
⒉空间数据挖掘的框架
当前,存在多种空间数据挖掘框架,例如由Maheus提出的多组件数据挖掘框架,由Hoslsheimer提出的特征挖掘框架,由Han提出的数据挖掘通用模型等。从适用性的角度考虑,最适合空间数据挖掘的框架应当为多组件数据挖掘框架,该框架的基本结构如图1所示。
图1 空间数据挖掘框架
在此系统中,用户可以与系统实时交互,并控制数据挖掘的过程。知识库存储有背景知识。数据挖掘过程通过以下组件完成: 数据库接口从数据库中直接提取数据;分析组件对数据进行筛选,决定哪些数据可用,哪些数据不可用;模式提取组件能够从可用的数据中发现新的知识或有价值的规则;评价组件则对发现的知识和规则等进行评价,决定其重要性、相关性等属性,并根据评价结果对知识库进行更新。以上4个组件通过控制器相互交互,并将最后结果提交给用户。
空间数据挖掘框架为整个空间数据挖掘过程提供依据,并为海洋地理信息系统中的数据分析和利用提供设计思路。
二、空间数据挖掘的内容
与空间数据处理不同,空间数据挖掘能够提取出隐含的知识、空间数据之间的关系和其他有价值的模式信息,从而能够进一步发现更多有用的知识,为其他系统和应用提供决策依据。
⒈空间关系
空间关系规则是描述不同实体相互位置关系的规则,是一种固有的并且相互同步的规则,如相邻规则、连接规则、共生规则、包括规则等。在数据挖掘过程中,不同的位置关系将使用以上逻辑规则表达,因此,空间关系是空间数据挖掘所获得的一种重要知识。当采用的数据来源为“空间—时间”数据时,还可以通过空间规则,进一步发现对象在一段时间序列下的运动轨迹。
⒉对象特征
对象特征描述的是一种或多种对象实体所共有的属性特征,包括类型、尺寸、形状等其他常见或特殊的属性。并且如果数据样本的数量足够时,我们还能够获得对象的先验概率知识,例如海底沉积物的经纬度分布等。
⒊数据分类
通过空间分类规则,空间数据集中的数据能够被映射为特定的类,通常在数据预测的过程中使用。同时,分类规则是一种全局适用的知识,本质上是对数据集的一种抽象和一般化。
⒋数据聚类
通过聚类能够将类型相近的数据集合为一种类型,同时使得不同类型之间的差异最大化,而使得同一类型之间的差异最小化,能够应用于生成和划分多种异构信息。与分类规则不同,在聚类之前,并不知道划分的每一类的特征和属性,也不清楚数据能够被划分为哪些类别。
需要注意的是,在空间数据挖掘的过程中,挖掘的内容和结果,并不一定是以上几类的一种,而大多数需要涉及到多种。因为,在对信息进行分析和可视化的过程中,对一个对象的感知,仅仅知道其特征、空间关系、类别等的一种,并不能完全认识该对象,更无法深度挖掘该对象与其他对象存在的其他隐含关系,因而,在实际使用中,从实践角度考虑,我们需要获得包括以上各种内容的多种或全部,从而完成对对象的全维感知,也能够使得在下一步的挖掘中,获得的知识更加完备和详细。
三、空间数据挖掘流程
在传统的数据处理方法中,往往采用专家系统方法,采用处理规则或模板,将专家知识固化为某种知识的固定提取方法和处理措施。这种方法具有2个主要缺点: 一是其仅仅能够对数据进行表面化的处理,而不能够进行多层次和持续的挖掘,因而这种数据处理方式,仅仅能够发现事先已知类型和符合规定的知识;二是其难以应对大量的数据,采用该种方法的数据处理系统,往往采用线性处理方法,对于某一类的数据处理往往需要遍历所有的规则和模板,造成不必要的算法复杂性,当数据量较大时,其效率较低。而空间数据挖掘算法,能够克服以上问题,采用聚类、分类等措施和循环迭代的方法,不仅能够发现大量隐含知识,同时能够处理海量知识,其主要过程有以下几个步骤:
⑴数据滤波: 对于海上地理信息系统来说,其中包含了大量来自不同设备和不同种类的数据,由于海上环境的多变性,必然会存在错误和异常数据,为了确保能够得到正确结果,在对数据进行处理之前,需要对数据进行滤波,得到无噪声的可用数据;
⑵数据聚类: 相比于数据分类,数据聚类具有更广泛的适用性,能够发现实现未被定义的数据类型。通过数据聚类,能够完善数据的结构性,从而为下一步数据挖掘提供依据;
⑶数据挖掘: 当前数据挖掘、分类与分析的算法种类较多,主要的方法有神经网络、SVM 等。需要注意的是,空间数据挖掘与传统方法不同,完成整个挖掘过程需要多次迭代。具体流程如图2所示。
图2 空间数据挖掘流程图
四、空间数据挖掘在海洋GIS 中的应用
海洋学和地图学数据是海洋地理信息系统中的重要组成部分,有着GIS 数据的典型特征。因此,可以利用空间数据挖掘,最大化的发挥海洋测量和电子地图数据的价值,开发多种类型的应用,扩展海洋测绘和电子地图产品的种类,从而向用户提供丰富多样的服务。
⒈海底地形数据挖掘
海图是一种用来描述某个海域及其邻接陆地的地图,其中对于海底地形的描述主要采用虚线点迹表示。由于图幅限制,海图中的虚线点迹通常采用互相隔离和离散的形式出现,难以直观地表示出海底地形的全貌,从而为安全航线的划定造成不便。
使用空间数据挖掘中的统计学方法,能够从离散的虚线点迹中发现出海底地形走势的固有规律,从而建立一个等高线模型,结合可视化技术,我们能够得到海底地形的3D全景显示,从而能够方便直观地对海底地形进行分析和利用。
⒉海洋沉积物数据挖掘
海洋沉积物是海底地形的重要组成部分之一,同时也是航海导航、船舶抛锚和海底航行等活动的重要影响因素之一。
通过使用数据挖掘工具,如概率统计、模糊集理论和集群方法,海洋沉积物的分布区域和时空变化规律将能够被发现,使得船舶航行的安全性得到加强,同时水上航线的利用率也能够得到提高。此外,也能够为国防和海洋工程建设等活动,提供决策依据。
⒊航行障碍数据挖掘
在船舶的航行过程中往往需要考虑诸如暗礁、残骸、障碍物等,并及时进行规避以保证航行安全。尽管大多数航行障碍物的位置固定,但是由于洋流和其他原因,某些类型的障碍物将会发生移动。对于航行障碍物来说,其空间数据并不仅仅包括其所在位置信息和属性等,同时也包括其影响范围、移动趋势及其他时空信息。
在空间数据挖掘理论的支持下,海洋地理信息系统能够自动映射出航行障碍物所处的水域,并在不同的航行条件下,给出航行的安全指数。当船舶进入某个危险水域时,系统能够智能化地向船员发送警报,从而最大限度地保证船舶的航行安全。
⒋航行助航数据挖掘
助航设施,例如导航标记、海上浮标等,通常用来指示暗礁位置,或进行海洋观测,是一种重要的人工实施,使得船舶能够借助这些设施进行位置测量,航线导航和障碍规避。
航行助航数据储存了大量助航设施的属性特征和地理位置。这些知识并不仅仅反应了安全航道信息,还指示了海拔信息,可航行水深等信息。
使用空间数据统计分析及聚类,遗传算法和其他空间数据挖掘技术,系统能够根据助航设施的特征和级别进行重分类。最终,可以向船舶提供最优化的航线,实现自动化的航线选择等功能。
⒌水文数据挖掘
水文数据指示了水力、洋流等海水的物理和化学特征,包含潮汐、浪高、洋流速度、漩涡、冰山、浮冰等数据,以及盐度、密度、海水颜色等数据。
一方面水文数据中蕴含着丰富的位置、特性、强度、方向等信息; 另一方面,水文数据也表明了多种未知的、随时间变化的模糊数据。例如,在不同水深下的浪高、浪速和方向等,以及当发生何种情况时,海浪会进一步发展为漩涡。
使用空间数据挖掘,系统不仅能够自动化地发现各种数据的隐含关系和规则,同时也能够在一定的需求下进行最优化分析和未来数据的预测,从而为决策提供有力支持。
五、结语
海洋地理信息系统是当前人类活动必不可少的信息化系统,其中产生和储存的海量数据,更蕴含着巨大的价值,随着大数据时代的来临,如何发挥这些数据的巨大作用,将是海洋地理信息系统下一步研究和完善的重点。本文对空间信息挖掘技术进行详细介绍,从该技术的基本原则、内容和流程等方面进行深入研究,并结合空间信息挖掘技术的特点,研究了其在海洋地理信息系统中的引用方法,为之后系统的进一步完善提供基础。
【作者简介】第一作者杜鹃,1982出生,黄河水利职业技术学院信息工程系,女,硕士,讲师,研究方向为数据挖掘、信息安全、软件技术;本文来自《舰船科学技术》,参考文献略,用于学习与交流,版权归作者与出版社共同拥有。