由RL控制器产生的高度局部跟踪模式图。太平洋上空39天接下来我们着手做一个更系统、更全面的测试¹⁰。我们在太平洋平流层的赤道位置部署了代号为perciatelli44¹¹的最新版本的新学习控制器,在那里传统的导航系统被认为表现出色。实验参数与我们进行的第一次测试相似,目标是保持在一个确定地点50公里以内。测试进行了39天,RL控制器驾驶一组气球飞行了近3000个小时。结果非常好。总的来说,RL系统更经常地将气球保持在所需位置的范围内,同时使用更少的能量。显然,loon离一个特定地点越近越好,因为它能为那里的人们提供更稳定的服务。然而,电力使用几乎同样重要。loon系统是太阳能驱动的系统,收集的能量是一种珍贵的商品。它不仅为导航提供动力,而且还为通信设备提供动力,以达到驾驶目的。用更少的能量来控制气球意味着更多的能量可以连接人们到互联网、信息和其他人。我们注意到一些非常有趣的图案。这是一个龟兔赛跑的情况,StationKeeper倾向于直奔目标,perciatelli44采取更慢,更稳定的做法。正如寓言中所说,这些差异反映了实现这一目标的两种根本不同的方法。StationKeeper一开始就进入状态,试图更快地接近目标位置,经常飞过,需要倒车。有趣的是,这正是我们熟悉的需要使用图8模式的场景。相比之下,perciatelli44并没有尽可能频繁或快速地接近目标位置,而是更专注于简单地留在目标区域内,尽可能被动地驻扎。这种方法消耗的能量要少得多,在其他情况下也可以利用,比如一旦完全偏离范围,就需要进行更重要的机动。RL投入批量运行确认性能后,我们开始启动深度学习控制器进入正常运行。从做一次某件事情到所有的时间都在大批量复制,通常有大量的工作要做,这是一个工程常数。在这种罕见的情况下,转换快速而顺利地进行,几乎在每个方面上都有性能改进。我们发现RL非常适合于实际批量系统的规划和控制。虽然在进行更多计算(评估替代动作序列)来规划更高质量的决策和使用简化模型(如线性化控制器)来适应更小的计算包线之间通常存在权衡,但RL将大部分昂贵的计算转移到agent训练。这意味着大部分繁重的计算发生在飞行开始之前。在整个飞行过程中,我们的机队控制系统只需要运行一个“廉价”的功能,即当气球在平流层中漂移时,一分钟接一分钟地运行一个深度神经网络。在前文我们讨论了气球的有效移动,但是这个计划系统的批量数据中心工作负载赋予了短语“有效漂移”的第二个含义。我们的导航系统在实时关键路径中的简单计算任务所产生的复杂、高质量的行为,为解决以前不实用的气球群的复杂编队开辟了新的可能性。这个气球是人工智能吗?在尼尔·阿姆斯特朗看来,这一看似简单的基于RL的气球飞行的小步对loon来说是一个巨大的飞跃。这种方法的关键区别在于,我们不是在建造一台真正擅长引导气球穿过平流层的特定导航机器,而是在建造一台能够利用我们的计算资源,来建造最初由我这样的工程师设计的导航机器的机器。除了超越工程师所能创造的质量之外,这种方法还允许我们扩展到比一小群人在传统时间尺度上使用传统方法所能完成的更复杂和众多的任务。要利用高空平台为几十亿未联网的人中的更多人带来互联互通,质量和规模都是必需的。Loon和Google人工智能团队希望,在Loon之外,我们在平流层导航方面的工作可以作为一个证据,证明RL可以用来控制复杂的、真实世界的系统,从而实现基本的连续和动态活动。我们认为loon的区域驻留任务突出了RL的一些方面,这些方面是团队需要解决的重要开放研究问题。关于Loon,我们将继续与我的同事Marc Bellemare领导的Google AI Montreal RL团队合作,不仅改进平流层气球的导航,而且帮助影响RL领域如何发展,以用于越来越多的像Loon一样的系统。在我上一篇关于loon的导航系统的文章中,我问了一个问题:我们是否在和人工智能打交道。我的回答是不确定的。这次我的回答更加微妙。虽然一个在平流层中高效飘浮的超压气球不可能变得有知觉,但我们已经从自己设计它的导航系统过渡到让计算机以数据驱动的方式构建它。即使这不是阿西莫夫小说的开头,这也是一个好故事,也许是值得称之为人工智能的东西。阅读这项工作的技术细节,请参阅我们在《nature》上发表的论文。¹气球导航需要分分秒秒地关注细节,必须观看缓慢移动的气球(就像在平流层那么高的高度看着油漆慢慢变干)、大量数据的持续同化和漫长的规划视野。这些因素使得这个问题更适合机器人而不是人类导航。²我们的飞行时间记录是312天,通常我们的气球会在高空停留数百天。3我们只直接观察气球位置和航迹上的风。数值天气模型的预报虽然是科学和工程的奇迹,但并不总是准确的。⁴如果我们要评估每一个可能的决策序列,我们需要检查3960个不同的备选方案,而不是开始考虑我们检查的结果会有不确定性,因为我们对风并不是完全的了解。如果我们把这当作一个搜索问题,不用说,即使有积极的改善和启发式优化算法帮助排序,我们最终得到的也可能是个次优解。⁵Loon的传统导航系统融合了高斯过程等机器学习技术和传统控制理论,多年来,我们利用专家构建了极其有效的控制规则。⁶Q-学习是一种算法,通过在agent考虑的特定情况下(Q-函数)创建每个动作的优度表示(Q-函数)来决定要采取什么动作,Q-函数是通过经验学习的。分布式Q学习是我的同事Marc Bellemare和他的合作者Will Dabney和Remi Munos在Deepmind开发的一种变体,它考虑的是结果的分布(概率意义上),而不是预期的结果。⁷这个挑战众所周知,它有一个特定的名字:sim2real gap(从仿真到现实的鸿沟)。⁸由于我和同事龚军之间的一个奇怪的内部笑话,RL系统所有主要的飞行控制器释放都是以一个面食命名的。⁹可能没什么好写的。¹⁰一场比赛可以是随机的,但在整个赛季的过程中,最好的球员和球队脱颖而出。11再加上意大利面。¹²其中一个飞行器,巧合的是,我们创纪录的312天飞行系统,可以在《自然》论文附录中学习控制器飞行路径16中看到。¹³RL用于许多物理系统,但不经常用于长时间和难以按下重置按钮的情况。