科研通讯 | 基于地理交互数据的同位流模式探测方法

导读

同位模式分析广泛应用于地理事物或对象的空间关联模式发现当中,是一种非常重要的空间分析方法。现有的方法主要用于探测点数据中隐含的同位模式和关联规则。近年来,人流、物流、信息流和技术流等新兴地理流数据越来越受到地理学者们的重视。然而,由于地理流数据相比于传统数据而言具有更加复杂的结构,面向点要素的同位模式和关联规则分析方法难以直接应用到流数据中。并且,流数据中的同位模式内涵也不同于传统点数据。为此,本研究提出了面向OD流数据的同位模式与关联规则分析方法。
本文所构建方法将每个OD流视为布尔特征要素,并同时分别考虑了不同类型的OD流的源区域和目标区域的空间邻近性和方向相似性,并将其作为空间邻近规则。在此邻近规则的基础上,首先实现了从多种类别的OD流中探测同位模式的方法;然后设计了从分析结果中识别关联规则的方式;最终以Flick游记签到照片数据为例,以中国全域为样区,并以地级市为基本空间单元,以游客所属国籍(客源地)作为分类标签,基于签到照片数据构建城市之间的OD流,采用本文所提方法分析其中隐含的同位流模式,验证了本研究所构建方法的有效性和实际应用价值。此方法具有普适性,适用于任何类型的OD流的同位流模式与关联规则的分析当中。

研究成果刊登在geographical analysis中

01 同位流模式与关联规则探测方法

方法部分主要包括从点的同位模式到OD同位流模式的概念化建模、OD流的空间邻近规则构建和同位流模式与关联规则挖掘三部分。

(1) 从同位点模式到同位流模式

如图1(a)所示为一组抽象为点数据类型的地理对象分布在二维空间中。图中共有3种类型的布尔空间特征。其中,A、B和C类型的空间特征实例的数量分别是5个、7个和4个。图1(a)中包含了三个点簇:cluster1、cluster2和cluster3。每组点簇中的地理对象在空间上彼此邻近,三组点簇在空间要素类型的构成上相同,这意味着这一组合在此区域中频繁出现了3次。根据对空间同位模式的定义,这些点簇满足空间同位规则,因此形成了空间同位模式。传统的空间同位规则发现和空间同位模式挖掘主要是聚焦于点数据展开。
实际上,流数据中也可能存在类似的空间同位模式。如图1(b)所示为包含多个OD流单元的流数据集合,并且每个流单元由源、汇和方向三个基本元素构成。如果将每个流单元视作一个完整的对象,则每个流单元构成了一个空间特征实例。在图1(b)中,包含了3种类型的流单元类型,即存在3种类型的布尔空间特征。A、B和C类型的空间特征实例的数量分别均为3个。图中包含了两个流单元簇,分别被命名为cluster1和cluster2。在每个流单元簇中,流单元的源之间是彼此邻近的,流单元的汇之间也是彼此邻近的。这些流单元的源和汇分别所呈现出的邻近性,同时保证了他们方向的相似性。这种满足源、汇的空间邻近性和方向的相似性的流被定义为流单元的彼此邻近。当一组含有不同布尔空间特征的流单元频繁地出现在不同区域时,则构成了流数据的空间同位模式。图1(b)中的cluster1和cluster2满足以上条件,因此形成了空间同位模式。

图1 点数据和OD流数据的同位模式

(2) OD流的空间邻近规则构建

OD流的空间邻近规则具有多种方式,一种有效的标定方法是分别探测OD流的源区域和汇区域的空间邻近性和OD流方向的相似性。例如,图2(a)和(b)中的流单元的源和汇均为点,采用距离约束构建空间邻近性规则比较合理。两个以上的流单元相互邻近,也只需要保证这些流单元的源和汇分别相互邻近即可。如图2(a)所示,流单元A.1的源与流单元B.1和C.1的源都相互邻近(在给定的距离阈值d以内),同时,流单元B.1与C.1的源也相互邻近。类似的,流单元A.1、B.1和C.1的汇也相互邻近,从而保证了三个流单元的源、汇分别具有邻近的位置,并保证了三个流单元方向的相似性。因此,流单元A.1、B.1和C.1是彼此空间邻近的。在图2(b)中,流单元B.2的源和流单元C.2、A.2的源均相互邻近,但流单元A.2和C.2的源却不邻近,无法满足三个源彼此相互邻近的基本条件。

图2 基于距离约束的OD流邻近规则

有些情况下,流单元的源和汇不是由点构成,而是由面构成。此时,除了采用距离约束外,还可以通过拓扑约束确定流单元之间的空间邻近性。如图3(a)和(b)所示为两组源和汇均为面的流单元。在图3(a)中,流单元组{A.1, B.1, C.1}彼此是空间邻近的,这是由于流单元A、B和C的源区域彼此都具有公共边或公共节点,它们的汇区域彼此之间也具有公共边或公共节点。类似地,流单元组{A.2, B.2, C.2}彼此也是空间邻近的。在图3(b)中的流单元组{A.3, B.3, C.3}和 {A.4, B.4, C.4}均不满足。

图3 基于拓扑约束的OD流邻近规则

对于图 3(b)所示的流单元组{A.3, B.3, C.3}是否被认为是彼此邻近,取决于对流单元空间邻近规则的定义。在本文的空间邻近规则的定义中,空间邻近性不具有传递性,因此流单元组{A.3, B.3, C.3}是不彼此邻近的,因此不满足colocation(同位)的条件.但是,当空间邻近性具有传递性时,由于A.3和B.3空间邻近,并且 B.3和C.3空间邻近,根据邻近关系的传递性可以认为A.3和B.3也是空间邻近的。因此在此种邻近规则下流单元组{A.3, B.3, C.3}又是彼此空间邻近的。但从同位的分析目标而言,本文所定义的邻近性所产生的问题会更少。例如,一组同一线路的公交站点,邻近的站点之间是同位的,但如果邻近性具有传递性,则第一个站点和最后一个站点会被认为是同位,尽管他们距离很远。而采用本文的邻近规则就不会产生此问题。

(3)同位流模式与关联规则探测

这一部分通过一个人工数据集描述本文所提出流数据的同位模式探测模型,人工数据集如图4(a)所示。在图4(a)中共存在3种类型的布尔空间特征,表示为F={A, B, C}.空间特征实例的集合FI={A.1, A.2, …, A.9, B.1, B.2, …, B.6, C.1, C.2, …, C.7}, FI 集合中共计22个空间特征实例。这里采用上文所描述的距离约束定义不同空间特征实例之间的邻近关系。给定距离阈值d,当多个空间特征实例的源和汇彼此的距离分别均小于距离阈值d时,则这些空间特征实例相互邻近。例如,A.2和B.2是相互邻近的,A.3、B.1和C.3是彼此相互邻近的,而A.1和C.1则是非邻近的。同位的布尔空间特征一定是布尔空间特征集合 F的子集,在这里同位的可能情况包括{A},{B},{C},{A,B},{A,C},{B,C},{A,B,C}等7种情形. 如果用 k表示同位的空间特征的数量,则图 4(a)中所示的数据集的k可能的取值为1,2和3.关于算法的实现细节,可参考论文原文。

图4 基于人工模拟OD流数据集阐释同位流模式识别过程

02 应用案例分析
表1 OD流单元数据
Flick照片中记录了拍摄者的国籍、拍摄地点和拍摄时间,这意味着可以追踪到每个游客来中国的旅游轨迹。通过一个例子说明从Flick数据中提取OD流数据的过程:如果编号为1的游客在A、B和C地级市分别拍摄了5 张、7张和3张图片,那么,对于相同的地级市则仅保留一张图片,这样根据保留图片的时间序列,就可以形成AB,BC两条OD流。对所有的图片进行此操作,就可以得到一个由OD流单元组成的新数据集。此新数据集的数据结构如表1所示,部分流数据如图5所示。

图5 基于人工模拟OD流数据集阐释同位流模式识别过程

在分析结果中,探测得到了多个同位流模式,其中一个同位流模式由美国人、加拿大人、法国人和英国人构成。这说明客源地为这几个国家的游客来中国时,对中国城市的访问OD链具有相似的模式,即具有相似的偏好。

/03 总结/

空间OD流数据是GIS中的重要数据类型之一。随着流空间受到越来越多地理学家和地理信息学者们的重视,面向流数据的空间统计与分析成为热点研究主题,但流数据在过去的几十年里并没有像传统GIS数据类型那样受到更多的关注。一方面,流数据很大程度上受限于流数据源的可获取性;另一方面,在空间关系(邻近性、拓扑关系等)和几何特性(位置、方向等)上要更加复杂。尽管近年来围绕着流数据产生了大量空间分析方法,但很多流模式挖掘问题仍然悬而未决。本文提出了用于从OD流数据中挖掘空间同位流模式和发现空间同位流关联规则的方法,扩展了同位模式对空间数据的适用范围,实现了从传统同位点模式分析向同位流模式的分析方法扩展。这对于理解不同类型的OD流数据之间复杂的空间关系,尤其是空间同位与空间关联规则具有很重要的意义。此外,由于OD流数据结构的确定性和统一性,使得本方法能够适用于任何多类型OD流的同位流模式与关联规则的挖掘,具有通用性。

和大多数传统的点数据的同位模式挖掘方法类似,本文用于同位流模式和关联规则发现的方法是一个全局方法。由于很多地理现象都是非随机的,并且具有空间异质性,因此对于一组流数据,在不同的区域同位模式的强弱可能不一致,这更加符合地理学现象中所期望的规律。在后续的研究中,将考虑如何实现局部同位流模式及其关联规则的分析方法。另一个值得关注的研究目标是实现从空间同位流模式向时空同位流模式的分析方法的扩展。诸如人流、物流、交通流和信息流等OD流数据包含了所发生的时间信息,同时考虑具有不同空间特征的流在空间上和时间上的同位,比仅考虑空间上的同位要更有意义。尽管继承本文的方法将空间同位流扩展到时空同位流并不会存在很大的挑战,但这是一项非常重要的工作。未来的研究将围绕着局部同位流、时空同位流及在讨论部分所提及的其它定义形式的同位流的模式挖掘与关联规则建模分析而展开。
文献来源与期刊介绍

文献来源

Zhang, H. P, Zhou, X. X, Tang, G. A*, Zhang, X. Y, Qin, J. and Xiong, L. Y. Detecting Colocation Flow Patterns in the Geographical Interaction Data[J]. Geographical Analysis. https://doi.org/10.1111/gean.12274.

期刊介绍

Geographical analysis是GIS领域重要的SSCI期刊之一,创刊于1969年,议题包括地理空间分析相关理论、模型构建和定量方法等方面,是GIS空间统计分析领域最重要的期刊。广泛使用的Moran’s I, Getic-Ord, Geary C等空间自相关模型、Geoda等软件中的很多经典方法的核心论文成果均主要发表在该期刊,近年来,年发文了在20篇左右,属于季刊。

【新地理学人】

撰文 | 文里

排版 | 墩儿

图片 | 来源于文献

欢迎讨论:neogeographer@163.com

(0)

相关推荐