澄明：简述深度学习与GeoAI / 四六文摘

概念人工智能

人工智能不是人的智能，但能像人那样思考，也可能超过人的智能。

机器学习

机器学习的核心思想是创造一种算法，它能从数据中挖掘出有规律的东西，而不需要针对某个问题去写代码。你需要做的只是把数据“投喂”给这个算法，然后它会在数据上建立自己的逻辑。最基本的机器学习算法是解决分类和回归两大类问题。

（分类模型是认为模型的输出是离散的，例如大自然的生物被划分为不同的种类，是离散的。回归模型的输出是连续的，例如人的身高变化过程是一个连续过程，而不是离散的。）

深度学习

建立可以模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如，图像、声音和文本。深度学习之所以被称为“深度”，是因为之前的机器学习方法都是浅层学习。深度学习可以简单理解为传统神经网络（Neural Network）的发展。

应用场景

机器视觉，指纹识别，人脸识别，视网膜识别，虹膜识别，掌纹识别，专家系统，自动规划，智能搜索，定理证明，博弈，自动程序设计，智能控制，机器人学，语言和图像理解，遗传编程等。

定义

wiki：深度学习是机器学习的分支，它试图使用包含复杂结构或者由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习的一个类型，该类型的模型直接从图像、文本或声音中学习执行分类任务。通常使用神经网络架构实现深度学习。“深度”一词是指网络中的层数 — 层数越多，网络越深。传统的神经网络只包含 2 层或 3 层，而深度网络可能有几百层。（matlab深度学习定义什么是深度学习？| 工作原理、相关技术、应用场景 - MATLAB & Simulink (mathworks.cn)）

引入深度学习的必要性解决机器学习的弊端

使用机器学习，您手动提取图像的相关特征。使用深度学习，您将原始图像直接馈送给深度神经网络，该网络自动学习特征。

对照

机器学习与深度学习有什么区别？

深度学习是一种特殊的机器学习形式。机器学习工作流程起始于从图像手动提取的相关特征。然后使用这些特征创建对图像中的对象进行分类的模型。在深度学习工作流程中，自动从图像提取相关特征。此外，深度学习还执行“端到端学习”，即为网络提供原始数据和分配要执行的任务（如分类），而神经网络学习如何自动执行此操作。另一个主要区别是深度学习算法会随数据发散，而浅层学习则会收敛。浅层学习是指当您向网络添加更多示例和训练数据时，在一定性能水平上趋于稳定的机器学习方法。深度学习网络的一个主要优势在于，随着数据量增加，它们经常会持续改进。

本身的优越性易于访问大规模带标签的数据集

ImageNet 和 PASCAL VoC 等数据集可以免费使用，对于许多不同类型的对象训练十分有用。深度学习模型通过使用大量的标签化数据进行训练，而神经网络架构直接通过数据学习特征，而不需要手动提取特征。

增大计算能力

高性能 GPU 加快了深度学习所需的海量数据的训练速度，训练时间从几星期减少到几小时。

由专家构建的预先训练好的模型

可以重新训练 AlexNet 之类的模型，使用名为迁移学习的技术执行新识别任务。虽然使用了 130 万张高分辨率图像训练 AlexNet 来识别 1000 个不同的对象，但可以使用较小的数据集实现精确的迁移学习。

精确

深度学习在比以往更高的层次上实现了识别精确性。

这有助于消费电子产品满足用户期望，并且对于无人驾驶汽车等安全关键应用至关重要。

深度学习最近已经发展到在一些任务（如对图像中的对象分类）中胜过了人类。

深度学习原理（本次报告重中之重！）

（注：此节的图片主要来自于matlab）

定义深度学习的过程

定义深度学习的过程就是使用多个处理层对数据进行高层抽象，得到多重非线性变换函数的过程。就目前而言，深度学习主要是与人工神经网络相结合的，因此这里的深度学习算法框架也可以成为深度神经网络算法框架。

重要概念案例分析：识别花朵

convolution（卷积）：

卷积将输入图像放进一组卷积过滤器，每个过滤器激活图像中的某些特征。

概念及原理

·简单定义：设:f(x),g(x)是R1上的两个可积函数，作积分：

·定义的性质：

性质：

1.可以证明，关于几乎所有的实数x，上述积分是存在的。这样，随着x的不同取值，这个积分就定义了一个新函数h(x)，称为函数f与g的卷积，记为h(x)=(f*g)(x)。

2.容易验证，(f * g)(x) = (g * f)(x)，并且(f * g)(x)仍为可积函数。

3.物理意义大概可以理解为：系统某一时刻的输出是由多个输入共同作用（叠加）的结果。

放在图像分析里，f(x) 可以理解为原始像素点(source pixel)，所有的原始像素点叠加起来，就是原始图了。g(x)可以称为作用点，所有作用点合起来我们称为卷积核（Convolution kernel）（我们在遥感影像处理中称为“算子”）。卷积核上所有作用点依次作用于原始像素点后（即乘起来），线性叠加的输出结果，即是最终卷积的输出，也是我们想要的结果，我们称为destination pixel.

作用

·提取特征

举例——边缘检测

·原理

·对于一维函数f（x），其一阶微分的基本定义是差值：

·将二阶微分定义成如下差分：

·可以看到，在边缘（也就是台阶处），二阶微分值非常大，其他地方值比较小或者接近0。结论：微分算子的响应程度与图像在用算子操作的这一点的突变程度成正比，这样，图像微分增强边缘和其他突变（如噪声），而削弱灰度变化缓慢的区域。也就是说，微分算子（尤其是二阶微分），对边缘图像非常敏感。

拓展

·注意点：

·（1）原始图像通过与卷积核的数学运算，可以提取出图像的某些指定特征（features)。（2）不同卷积核，提取的特征也是不一样的。（3）提取的特征一样，不同的卷积核，效果也不一样。

·总结：

·CNN实际上是一个不断提取特征，进行特征选择，然后进行分类的过程，卷积在CNN里，主要是对原始图像进行特征提取。

激活函数——ReLU（线性整流函数）：

修正线性单元 (ReLU) 通过将负值映射到零和保持正数值，实现更快、更高效的训练。

概念

·激活函数（activation functions）的目标是，将神经网络非线性化。激活函数是连续的（continuous），且可导的（differential）。

连续的：当输入值发生较小的改变时，输出值也发生较小的改变；可导的：在定义域中，每一处都是存在导数；

原理

·激活函数（Activation functions）对于人工神经网络模型去学习、理解非常复杂和非线性的函数来说具有十分重要的作用。它们将非线性特性引入到我们的网络中。

·如果不用激活函数，每一层输出都是上层输入的线性函数，无论神经网络有多少层，输出都是输入的线性组合，这种情况就是最原始的感知机（Perceptron）。如果使用的话，激活函数给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。

作用

·激活函数是用来加入非线性因素的，提高神经网络对模型的表达能力，解决线性模型所不能解决的问题。

举例——线性整流函数（Rectified Linear Unit, ReLU）

·起到的效果（作用）

·整流线性单元，激活部分神经元，增加稀疏性，当x小于0时，输出值为0，当x大于0时，输出值为x.

·公式：

·导数：

·特点：

·relu函数在负半区的导数为0 ，当神经元激活值进入负半区，梯度就会为0，也就是说，这个神经元不会被训练，即稀疏性；relu函数的导数计算更快，程序实现就是一个if-else语句；

pooling（池化）——降采样：

池化通过执行非线性下采样，减少网络需要学习的参数个数，从而简化输出。

概念

·池化（Pooling）是卷积神经网络中的一个重要的概念，它实际上是一种形式的降采样。

池化（Pooling）的作用

·原因：

·在发现一个特征之后，它的精确位置远不及它和其他特征的相对位置的关系重要。

·池化层会不断地减小数据的空间大小，因此参数的数量和计算量也会下降，这在一定程度上也控制了过拟合。通常来说，CNN的卷积层之间都会周期性地插入池化层。

原理（类比arcmap：焦点统计）

·池化层通常会分别作用于每个输入的特征并减小其大小。目前最常用形式的池化层是每隔2个元素从图像划分出的区块，然后对每个区块中的4个数取最大值（平均值及其他）。这将会减少75%的数据量。

举例——最大池化（Max pooling）

·将输入的图像划分为若干个矩形区域，对每个子区域输出最大值。

GeoAI（地理空间人工智能）

（此部分主要借鉴高松：地理空间人工智能的近期研究总结与思考地理空间人工智能的近期研究总结与思考 - 中国知网 (cnki.net)）

GeoAI概念地理空间人工智能

GeoAI概念地理空间人工智能（geospatial artificial intelligence， GeoAI）是指地理空间科学与人工智能相结合的交叉学科研究方向，通过研究与开发机器的空间智能提升对于地理现象和地球科学过程的动态感知、智能推理和知识发现能力，并寻求解决人类和地球环境系统相互作用中的重大科学和工程问题(比如人口迁移预测、复杂条件下的智能交通决策、高精地图制作与自动驾驶、全球变化对农业生产的影响、自然灾害应急救援工程等)。

人工智能与地理空间科学的渊源

一方面，解决自然地理空间和社会人文地理空间产生的很多科学难题需要新方法和新技术（包括人工智能）的支持；

另一方面，不断产生的时空数据（比如遥感卫星数据、人口移动位置大数据、车辆运营轨迹数据等）可以支持人工智能模型训练和新算法的研发；

地理信息系统（Geographical Information System，GIS）软件也可以为机器学习模型标注数据（如土地利用类型、自然灾害后建筑破损信息）的生成提供便捷支持。

发展历史简介

20世纪80年代

地理信息科学家和城市规划学者基于知识专家系统、元胞自动机等当时主流的人工智能技术来探索智能地理信息系统的开发和研究不同城市扩展的模式。

20世纪90年代到21世纪初

学者们进一步研究遗传算法、模糊逻辑，本体与语义，混合智能系统在地理空间科学中的应用，比如土壤系统分类和制图，土地资源动态变化监测、自然灾害智能预测与风险评估等。

2015年至今

与深度学习（如卷积神经网络、生成对抗网络模型、图神经网络）相结合的地理空间科学研究不断涌现。

空间显式与隐式的人工智能模型

空间显式与隐式的人工智能模型地理空间位置是关联多专题图层（天气、水文、土壤、城市建筑等）、多要素（人、事件、地理对象）、多异构数据（图像、文字、视频等）的纽带，将人工智能技术应用于地理空间研究主要有两类建模方法：空间隐式模型（Spatially Implicit Models）和空间显式模型（Spatially Explicit Models）。

空间隐式模型

·空间隐式模型是指在构建人工智能模型的过程中只把地理空间位置当作多维度特征向量中的普通维度，没有把空间位置特殊对待或没有把空间关系和其他空间约束引入模型。

空间显示模型

·比如把地理坐标带入一个简单的K均值聚类模型只属于空间隐式机器学习模型，但是如果利用Delaunay三角网构建空间约束的聚类模型则属于空间显式模型。

举个例子，一个包含城市地理位置和人口的数据集，如果是让机器仅基于人口数量进行城市排名，因为地理位置不属于分析对象的一部分，所以不是一个空间显式模型。相反，如果要回答人口密度高的城市是否在空间聚集在一起，则需要明确的空间分析视角。

GeoAI现阶段应用领域

空间表征学习

空间特征学习或表征学习对研发空间显式人工智能模型和推动GeoAI的创新发展尤为重要。

研究者们利用表征学习技术提取出潜在的地理空间特征提高机器学习模型的预测准确率：

1.Yan等提出的Place2Vec模型采用自然语言处理的思路对于地图兴趣点数据（POI）、建筑环境和周边区域上下文语义进行特征表示学习进而提升关于场所信息检索和智能推荐的能力。

2. Yao等把POI2Vec模型输出作为机器学习特征输入来进行城市土地利用分类。

3.Liu等提出的Road2Vec模型基于大规模的出租车运营轨迹数据，对道路之间的隐性交通相互作用关系进行量化；此模型可以捕捉潜在的空间异质性和非线性交互特性进而提升路段的交通量预测准确率。

4.Crivellari和Beinat提出的Mot2Vec模型对利用大规模人群移动数据进行训练生成活动场所的特征向量表示进而刻画场所/地方的关联特性和相似性。

5. Mai等创新性地提出了多尺度空间位置编码方法Space2Vec，通过表征学习模型来编码地方的绝对位置和空间关系，发现该模型在位置建模和图像分类任务中的表现优于成熟的机器学习方法，比如径向基函数(RBF)、多层前馈神经网络和瓦片嵌入。

时空预测和空间插值

时空间预测的基本思想是根据多维属性变量估计一个目标对象或地理变量在未知地点（时空）的数值。空间插值则是GIS中常见的空间分析功能，利用已知位置的属性数值推测未知点相同属性的数值。

学者们运用机器学习和深度学习方法来探索时空间预测和空间插值的新方法，并在测绘、社会感知、智能交通等领域广泛应用。随着多源地理大数据的出现，融合遥感数据和社会感知数据的研究也不断涌现。

对地资源环境监测

近年来，全球范围内对地观测卫星数量增长迅速，基于卫星遥感和航空遥感的观测大数据激增，对于调查和动态监测土地资源、森林覆盖、环境变化，分析城市扩张和土地利用变化趋势等提供了丰富的观测数据源。同时，多数据源、多时相、多波段、多分辨率的遥感图像数据特点也给实际应用分析造成一定的挑战。

研究人员探索了多种利用深度学习模型结合多源遥感数据提取时空间特征的方法，提取高精度、高质量的时空间决策支持信息，以便提升利用对地观测大数据来动态感知和理解地球复杂系统之间相互作用过程的能力，实现李德仁院士提出的“从对地观测卫星到对地观测脑”的愿景。

地图学

结合地图学的基础理论、科学思维与认知方法，以及大数据时代、人工智能时代的新研究范式和技术路线，推动地图科学的创新发展。

利用强化深度学习方法可以精确标注当代地理要素在历史扫描地图上的空间位置。利用生成对抗网络模型可以进行地图样式风格的迁移学习，地形图的阴影自动渲染，并利用合成信息来改进制图风格设计或实现国土安全领域的地图位置电子欺骗。

人工智能与地图设计的整合可能会部分地实现制图综合的自动化工作流，比如建筑物多边形的简化与聚合、道路网的线简化与按联通性合并等步骤。

地理文本语义分析

社交媒体数据与地理文本处理

·发现新知识

·举例：人们在社交媒体上发的内容中可能含有对某些地名的其他描述（缩写、别名、特殊称谓），可以提取并关联地名词库。

·支持决策

·生成热点地图

·地点联系

·人们在谈论某个地方时，会涉及其周边的其他地方，可以进行空间定位。例如：招商广告、房产广告里会描述其通向城市重要地点的便捷程度。

·人们对周边环境的感知和态度

·社交媒体上的文本含有表达情绪的词，关联地名，及时发现问题，改善城市环境。

·在灾害的不同的阶段关注的话题

·举例：舆情控制

·城市中感兴趣区域

·发现其中的原因（词频分析）。

·灾害救援

·当遇到紧急灾难时，救援热线会被占用，受灾群众会在社交媒体上发布求救信息。对求救信息进行地理位置、受灾人数、受伤情况等做解析，生成灾情地图，有助于决策者有效评估受灾情况，使调度中心能够合理调度物资和救援力量。

面临的挑战

有限的地理空间标注数据

训练地理信息领域的深度学习模型目前还需要大量的标柱数据集支持，如何提升地理空间标注数据集的共享机制是亟待解决的问题和重要研究方向。地理空间数据与其他非空间数据不同，可能会涉及到国土资源与测绘信息安全和保密政策、个人隐私等问题，因而增大了数据共享的难度。

模型可迁移性和可解释性较弱

大多数用于训练GeoAI模型的地理空间数据来自于特定的地表空间区域（比如某一个城市或某一块农田），由于空间异质性和不确定性的存在，GeoAI模型的可迁移性和范化能力较弱。此外，很多数据驱动的机器学习模型系统仍然是一个黑盒子，虽然在特定的对地观测和地物分类等方面的能力表现良好，当应用于解决地球系统科学和人文社会科学领域的各类地理空间预测问题时，需要了解机器模型的学习决策过程，融合机理过程模型或人文领域知识，增强GeoAI模型的可解释性、透明度和可信赖程度，这也将是GeoAI的重要研究方向。

地理空间语义分析和推理能力不足

成熟的人工智能技术已经具有很好的自然语言处理能力并利用知识图谱技术在智能搜索和问答、语言翻译、个性化推荐等智能信息服务领域体现重要价值。

但是在地理空间信息领域，很多现有的地理空间信息基础设施还不具备智能化的语义处理能力。比如检索某一个地区的“自然灾害”数据集，应该智能扩展到语义关联的具体灾害种类（森林火灾、地震、洪水等）以及空间关联的区域（比如空间上的邻居、包含或被包含的地理空间单元），从而得到更加丰富的数据集合。

主题报告总结主讲深度学习而非GeoAI的原因

本次报告原定主题是 GIS与人工智能，最后却选择了主讲深度学习，主要是因为在开展课题研究的过程中，我发现AI才是GeoAI的技术核心，地理空间科学主要扮演提供地理信息数据和提供地理空间视角的研究方法。

GeoAI是比AI还要高深的领域，就我本人的能力，在不理解AI的原理的情况下，涉足GeoAI是不理智的。AI领域很大，所以我选择比较热门，方向明确的深度学习，这样有的放矢，既能深度研究深度学习，也避免了空谈概念，没有任何实质性的收获。

感想

保持求知的渴望

不能因为某一领域的知识复杂难懂而退却，各种知识都是由浅入深的，就像在学习卷积神经网络的时候，就会发现很多原理都是《遥感图像处理》相同知识的迁移，很多算法是我们在《计量地理学》里一起探讨过的算法。

我个人有一种焦虑——信息焦虑。当某一项知识变得热门，被很多人谈及的时候，如果自己丝毫不懂，就会觉得自己out了。所以对于新鲜事物，特别是自己知识盲区的事物，我会保有极大的兴趣，去学习和研究时，会非常投入。

通过实践拓展自己的知识

本次主题报告，我前后准备了两周时间，查阅了包括公众号、知网、Google学术、YouTube等大量的文章和视频。其中给我帮助最大的属 GeoAI 2021系列在线讲座，在这个讲座上，我见识了GeoAI前沿学者的研究方向，他们的项目给了我很多启迪——原来我们的 gis+AI 能够做那么多 so cool 的事情。

遇到的最大困难是起初我不明白AI工作的原理，对于神经网络处于懵懂状态。我采用的办法是去研究案例和观看相关课程，我在BILIBILI上看了台湾大学李宏毅教授的李宏毅《机器学习/深度学习》国语课程(2021)，我在Arcgis pro 和 Matlab 去阅读学者们做的案例，里面有很详细的教程。

通过这些教程，我知道了深度学习过程中各个步骤的原理及作用。而自己去整明白这些内容，带来的喜悦是很大的，因为做完这个主题报告的时候，我就不再是AI小白了，我也知道自己的专业同最先进的技术——AI结合之后会带来的伟大变革。表达这些，只想表达一点——大家需要将好奇付诸实践，从阅读案例——查阅文献——复现，基本就能理解各种基本知识。

学习方法推荐

合理利用工具

利用已有平台研究。arcgis pro和geoscene pro 平台内嵌了许多封装好的学习框架和训练好的模型，大家前期完全可以调用，熟悉里面的参数。不过我更加推荐 Google Colab，主要是云端，安装相应环境简单，提供云GPU加速，设备要求低，免费！！！

学习无需事无巨细

主要是抓骨干（框架），在把握整体的情况下，再去扣细节。弊端：不注意细节，就会遇到很多错误，具体表现就是调试程序时bug很多。优点：能够在心理上暗示自己——“我不是一无所知”。不把握整体的情况下去学习，容易陷入“花了很多时间，费了很多精力，却感觉自己什么都不知道，学无所用”的颓废之中。

参考文献及视频链接

GeoAI国际青年学者系列讲座第一期：人工智能时代的地理信息科学近期研究概述

PPT分享 | GeoAI 2021第一期：智能空间理解——人工智能视角下的地理空间表达、建模与推测

PPT分享 | GeoAI 2021第二期：大数据时代GIS研究新范式

PPT分享 | GeoAI 2021第三期：深度学习在众源地理信息知识挖掘中的应用与挑战

PPT分享 | GeoAI 2021第四期：用AI和大数据打造智慧城市

GeoAI 2021第三期｜深度学习在众源地理信息知识挖掘中的应用与挑战；移动行为认知与模拟

认知AI的兴起：2025年AI将会发生质的飞跃

佳文赏析 | 高松：地理空间人工智能的近期研究总结与思考_GeoDS

（https://www.sohu.com/a/438500348_169228）

GeoScene 2.1 GeoAI：20余种AI模型，解锁更多场景应用 - 牛华网

（http://www.newhua.com/2021/0525/357347.shtml)

GeoAI新手入门，这种数据挖掘技术请先走一波-福利plus

(https://www.fliplus.com/fliplus/xingwenzixun/gongsizixun/24726.html)

Full article: GeoAI: spatially explicit artificial intelligence techniques for geographic knowledge discovery and beyond

(https://www.tandfonline.com/doi/full/10.1080/13658816.2019.1684500)

机器学习系列（二）——分类及回归问题 - zhoubin_dlut - 博客园

(https://www.cnblogs.com/zhoubindut/p/12142186.html)

激活函数 sigmoid、tanh、relu - 简书

(https://www.jianshu.com/p/857d5859d2cc)

(https://zhuanlan.zhihu.com/p/47184529)

(https://zhuanlan.zhihu.com/p/30994790)

图像卷积与滤波的一些知识点_zouxy09的专栏-CSDN博客_卷积滤波器

(https://blog.csdn.net/zouxy09/article/details/49080029)

池化 | 机器之心

(https://www.jiqizhixin.com/graph/technologies/0a4cedf0-0ee0-4406-946e-2877950da91d)

(https://zhuanlan.zhihu.com/p/143990814)

GeoAI：人工智能时代的地理信息科学近期研究概述

(https://k.cnki.net/CInfo/Index/4443)

01_Regression_P1

(https://unclestrong.github.io/DeepLearning_LHY21_Notes/Notes_html/01_Regression_P1.html)

GeoAI 2021系列在线讲座

(https://k.cnki.net/Theme/Index/299)