loon的超压气球是如何使用人工智能飞行的？ / 四六文摘

来源：Nature news

一个人工智能控制器可以在不完全了解周围风的情况下，一次让一个平流层气球停留数周，为无人的环境监测开辟了前景。

图1 |平流层中的无人驾驶气球。Loon项目正在使用这样的气球为电信建立一个空中的无线网络。

自主机器的目标是通过在动态环境中协商决策来实现。如果完全了解系统的当前状态，人工智能和机器学习可以在这方面表现出色，甚至在某些任务上甚至优于人类——例如，在玩街机游戏和回合游戏时。但在游戏的理想世界之外，现实世界中自动化机器的部署会受到噪音和混乱的环境的阻碍，而且这些环境没有得到充分的观察。从不完整的数据中设计长期策略的困难也会阻碍独立人工智能主体在现实世界挑战中的运行。Bellemare 等人在《自然》杂志上撰文描述了一种前进的道路，它证明了平流层气球在人工智能的引导下，可以寻求一种长期的策略来定位自己在赤道上的某个位置，即使不知道精确的风场信息。

固定容积气球，也就是所谓的超压气球，经常被用来在高层大气中进行无人驾驶的实验（图1）。定位是将气球的位置保持在离地面位置（空间站）一定水平距离内的行为。这涉及到改变气球的高度，使其在不同风向的区域之间移动——当气球被一个高度的风吹离它的位置时，它会移动到一个不同的高度，在那里风可以再次将其吹回来（图2）。

Bellemare等人报告称，一种被称为强化学习的机器学习方法，可以用来训练一个性能优于以前使用的控制器的自动控制系统。

自动导航气球做了两件事中的一件，以保持在其驻留范围内。当气球在其驻留范围之外时，机载控制器寻找指向驻留区域小角度内的风。然而，当气球在目标范围内且靠近驻留区域时，它会优先寻找较轻的风。气球在探测其上方和下方的风时更为活跃，更有可能找到合适的风来帮助实现定位，但这是以使用电池电量为代价的，而电池电量可能是其他任务所需的，例如中继电信或环境监测。这些相互竞争的因素需要仔细权衡。

一种被称为强化学习的机器学习方法可以用来训练一个人工智能体来做出一个最优的决策序列。在超高压气球的情况下，决定是上升、下降还是什么都不做，基于全球风的历史记录、当地观测和预报的风以及预计的未来飞行路线。最关键的是，可用的风数据稀疏，不能完全约束飞行控制器的决策。

阅读论文：使用强化学习的平流层气球自主导航

（Autonomous navigation of stratospheric balloons using reinforcement learnings）

在他们的系统中，Bellemare等人通过在风数据中添加随机产生的“噪声”来填补空白，以便更好地绘制可能发生的风的范围，并改进对气球未来可能的各种路径的评估。由此产生的风信息及其统计不确定性，加上少量气球相关参数，被用来训练一个被称为人工神经网络的机器学习系统，在电池功率不变的前提下，与以前使用的控制系统相比，最终改善了飞行期间的决策时间。

早期强化学习的应用程序，包括玩经典的棋盘游戏和街机游戏，都是使用完整的信息集进行训练的，这也是人类控制者所能获得的相同信息。这使得人类和人工智能玩家之间可以进行相似的性能比较。然而，Bellemare和他的同事们面临的挑战是，对环境风的不完全了解不仅使人们难以判断采取的最佳行动，而且还使对这些行动之后的未来状态的预测变得不确定。这些问题被其他不影响游戏控制器的实际不确定性进一步加剧，比如与气球内部运动、电源管理和电池健康有关的不确定性。因此，Bellemare的应用代表了Bellemare在实际应用中的巨大成功。

定位性能最终受到气球周围区域风速和风向的限制（目前的研究是在15-20公里的高度）。风还必须改变方向，这样气球就可以调整它们的轨迹，使其保持在驻留范围内。在赤道平流层内，这些特殊情况每次只持续数月，贝勒马尔和同事们在那里进行了研究，在那里，一股缓慢的逆风在30公里附近达到峰值，然后在15公里附近下降和消散，每14个月左右改变一次方向。

从零开始学习游戏

这种风的多样性也出现在其他地方，但可靠性较低，而且通常发生在单个超高压气球能够运行的高度范围之外。在本研究所描述的飞行活动中，热带平流层中出现了来自高纬度地区的更大的风扰动，可能有助于定位。因此，Bellemare和同事们的系统可能会在其他地方难以取得同样的成功。然而，更小、更快速的风变化也会发生，包括各种类型的大气波，熟练的控制器可以利用这些变化发挥其优势。

有效的自主超高压气球的出现将为探测地球和其他行星的大气提供一系列商业和科学应用。这种气球已经被用来研究热带平流层中的小尺度和大尺度波动，并探测海洋、闪电和地震产生的低频声音。它们也被提议用于未来对金星大气层的探测，以寻找活跃火山活动的迹象和生命的化学特征。此外，如果气球被用来建立一个空中无线通信网络，那么确定气球的地理位置的能力是至关重要的——这是Loon项目的早期目标，Bellemare使用气球的所有者和同事们的研究。

一次将一个气球放置数月，就可以进行长期的环境监测，例如，城市上空的空气质量、受高温胁迫的森林和冻土融化地区的碳通量。其他应用还包括监测动物迁徙路线和跨境非法贩运货物和人员。随着气候变化的影响越来越明显，由于诸如COVID-19这样的全球性事件对行动施加了限制，以及涉及航空的长期气候变化缓解措施促使人们寻找替代的空中观测平台，这些应用将变得越来越重要。

loon的超压气球是如何使用人工智能飞行的？

相关推荐