新算法让机器人媲美四足动物
机器人“绝影”实现了可与四足动物相比拟的运动技能。 李智彬供图
一只狗或者一只猫从来不用经过太多思考,就能依靠本能适应自然界的变化,在复杂地形中上蹿下跳,灵活运动。但这一点对于同样具有四足的智能机器人来说却并不容易。如何让机器人向自然界的动物看齐,是全球机器人专家们长期探索的课题。
近日,英国爱丁堡大学先进智能机器人实验室与浙江大学朱秋国教授的机器人团队合作,完成了一项针对四足机器人的新算法研究。这项研究成果被选为《科学—机器人》杂志的月度封面论文。
构建多专家学习体系结构
爱丁堡大学信息学院助理教授李智彬主导这一中英合作研究,也是论文的通讯作者。在接受《中国科学报》采访时,他先解释了传统算法与论文中描述的新算法之间的区别。
在传统方法中,算法工程师们往往只依据某个具体的人或物编程,这就意味着如果机器人遇到没有被编入程序的场景,就非常难以应对。比如,在参与野外救援时,周遭环境复杂,让机器人难以应付;或者有些机器人只是单项技能被训练得十分得心应手,但无法自如实现模式转换,“这也让其实用性大打折扣”。
为了实现多功能运动,机器人需要适应前所未见的场景下的运动技能,为此该研究团队提出了一种多专家学习体系结构(Multi-Expert Learning Architecture,缩写为MELA)。“我们将原先单一技能的神经网络群通过一个层级架构组合在一起,通过在线的动态激活来实现多种技能的动态融合。目前,在MELA上共设有8个深度神经网络(DNN),由团队中每个领域的专家分别负责一种特定的类型技能。”李智彬介绍道。此外,整个架构当中还有一个门控网络程序,负责动态地调度整个神经网络群。也就是在不同情况下,选择性地、不同程度地激活各个DNN。如果遇到特殊情况,则会让多个网络共同配合以解决当前任务。
“就好像是足球队中有多位运动员,各司其职。踢球时,每个运动员每时每刻所做的动作和参与程度不同,门控网络就好比教练,告诉哪个运动员在哪个时间应该去做什么。”李智彬打了个比方。
在运行时,MELA不断混合多个DNN,并动态合成新的DNN,以响应不断变化的情况而产生自适应行为。李智彬表示,这种方法利用了受过训练的专家技能和自适应策略的快速在线综合的优势,可以在不断变化的任务中迅速响应。“使用一个统一的MELA框架,我们在一个真正的四足机器人上成功演示了多项技能运动。该四足机器人完全自主地实现了连贯的小跑、转向和跌倒恢复,并展示了多专家学习生成行为的优点。这些行为可以适应之前无法预料的情况。”
实现可比拟四足动物的运动技能
在这项研究中,研究人员使用的四足机器人,即是被称为中国版波士顿动力的 “绝影” 机器人。基于MELA深度学习框架,研究人员在真实机器人身上成功实现了可比拟四足动物的运动技能。
除此之外,李智彬表示,从生物学的角度来看,研究人员借鉴了生物学中的“层级架构”的运动控制方式,将“中枢神经系统的上层运动控制指令”与“脊柱神经系统、肌肉本身控制”作为相对独立的层级,让两者分而治之,提高了学习的效率和速度;同时,从机器学习的角度来讲,MELA深度学习构架使得各种运动技能可以通过“自动软件流程+算力”来获得,而整个过程中只需一个研究人员参与即可,无需一个多人团队。从长期来看,这种机器智能是大势所趋。
从机器人领域来看,MELA深度学习构架打破了传统技术路线的“基于数学模型和控制理论方法”的局限性。“这项研究把机器人实际应用的范畴从已知环境拓展到了未知环境,极大地提高了机器人的自主智能和适应能力。”李智彬解释道。
相较而言,波士顿动力四足机器人最新的控制方法,仍然停留于传统的、相对成熟的机器人技术路线,即基于模型的带约束的离线轨迹优化和基于模型的在线模型预测控制。
“这种控制方法的优点是在已知环境下通过人为给定环境中已知的物理参数,使得机器人生成特定的、人类想要的各种动作。不过,与止同时,局限性也十分明显。”李智彬表示,当环境和机器人本身属性发生变化(从已知变成未知)的时候,只能通过预先设计的控制器的抗干扰性能间接地、被动地去适应外界,而其控制方法在本质上是没有主动适应能力的。
举个例子,当机器人从正常的地面进入冰面,它无法主动调整步态来适应冰面的低摩擦路况,只能通过预先的步态控制来尽可能地保持平衡。李智彬认为,虽然从目前波士顿动力公开的视频看,重复预先编程的动作或者通过操作员在后台遥控操作,视觉效果十分惊艳,但实际应用上对于任务的成功率难以保障。“事实上,如果换成人或者四足动物的话,正常的表现应该是先稳定身体平衡,然后改变走路方式,而不是原地踏步或者乱迈步。”
另外,MELA深度学习架构还能在线帮助机器人适应硬件上的改变,这种改变可能是某只脚发生故障或者失去整条腿。而目前波士顿动力现有的控制方法还无法实现对这类状况进行在线的适应性调整。
10年内或迎来井喷
论文中,MELA主要由8个深度神经网络组成。李智彬表示,在目前架构中,子神经网络的数量可以继续增加,具体的数量可由任务的复杂程度,以及涉及到的技能种类来决定。“比如,让机器人实现小跑转弯、原地旋转、摔倒后用各种方式起身继续小跑等目标时,8个神经网络的数量是比较合适的,如果少于8个,其控制的技能数量不足;若多于8个,则会出现‘人浮于事’的现象,还会降低学习的效率。”
在研究过程中,研究人员不断试错。在技术路线和解决方法未知的情况下,他们通过各种试验进行尝试,包括科学方法和思路、工程实现,以及编程、软硬件调试等。这些尝试中,各个环节的出错概率过半。李智彬坦言,如要成功达成一定的研究目标,除了智力上的挑战之外,能否避开错误路线并坚持到最后更为重要。
虽然试验过程并不容易,但李智彬认为,人工智能和深度学习的前沿方法目前仍然在研究阶段,每天都有新的突破。而且,当前大量研究聚焦在机器学习方向上,实现了比较明显的量变的积累。此外,不同领域的机器学习研究中,各个独立的研究工作呈现了“发现同一真理”的现象。
“如果把全球机器学习和机器人领域的研究作为一个整体的话,目前要在真实机器上实现‘和人可比拟的运动和操作’能力,其所需的要素基本上已经齐全。”李智彬说,“所以我们有理由相信,在未来的5年之内,只要少量的未解决的问题在学术圈或者公司得以突破,并且有机构能以足够的财力、人力和物力能够把相关研究成果通过工程方法融合在一起,井喷的阶段很快就会到来。我们在2025年之前,肯定能够看到少量的、代表性的实物概念性验证。其对人类科技和文明发展的更广泛的冲击,会在10年以上的时间尺度上更清晰地体现。”(袁一雪)