阅读论文:使用强化学习的平流层气球自主导航(Autonomous navigation of stratospheric balloons using reinforcement learnings)在他们的系统中,Bellemare等人通过在风数据中添加随机产生的“噪声”来填补空白,以便更好地绘制可能发生的风的范围,并改进对气球未来可能的各种路径的评估。由此产生的风信息及其统计不确定性,加上少量气球相关参数,被用来训练一个被称为人工神经网络的机器学习系统,在电池功率不变的前提下,与以前使用的控制系统相比,最终改善了飞行期间的决策时间。早期强化学习的应用程序,包括玩经典的棋盘游戏和街机游戏,都是使用完整的信息集进行训练的,这也是人类控制者所能获得的相同信息。这使得人类和人工智能玩家之间可以进行相似的性能比较。然而,Bellemare和他的同事们面临的挑战是,对环境风的不完全了解不仅使人们难以判断采取的最佳行动,而且还使对这些行动之后的未来状态的预测变得不确定。这些问题被其他不影响游戏控制器的实际不确定性进一步加剧,比如与气球内部运动、电源管理和电池健康有关的不确定性。因此,Bellemare的应用代表了Bellemare在实际应用中的巨大成功。定位性能最终受到气球周围区域风速和风向的限制(目前的研究是在15-20公里的高度)。风还必须改变方向,这样气球就可以调整它们的轨迹,使其保持在驻留范围内。在赤道平流层内,这些特殊情况每次只持续数月,贝勒马尔和同事们在那里进行了研究,在那里,一股缓慢的逆风在30公里附近达到峰值,然后在15公里附近下降和消散,每14个月左右改变一次方向。