PPT+全文|清华大学教授孙富春分享机器人视触觉认识计算

尊敬的各位来宾,女士们、先生们、下午好,我是来自清华大学计算机科学与技术系的孙富春,首先感谢机器人大讲堂给予一次与大家见面的机会,我今天给大家带来的题目是“机器人视触觉认识计算”。

背景意义

  

比尔盖茨讲过,机器人会像PC机一样进入家庭和个人,我们已经进入了机器人的时代。所以大家在过去几年里面听到最多的三个字就叫机器人。机器人不光应用于工业化的生产,还用在餐厅里面做餐厅服务的机器人,还有助老助残、医疗服务等。过去机器人更多集中在机器的层面上,就是用机器人代替人所做事情,机器人目前正在不断地从机器向人转变,这就是我们经常说的智能化机器人。

过去的两年里面,机器人在人的面部特征识别,包括语音识别都取得了不少的成绩,比如汤晓鸥的面部特征识别,还有科大讯飞的语音识别。

但是机器人在灵巧操作和情感交互方面,还不及一个出生刚几个月的小孩。所以我们讲,在互联网时代里,机器人是自动化的最后一公里,而用于灵巧操作的灵巧手是机器人最后的一厘米。

大家看到,现在很多公司都举行了机器人灵巧操作的比赛,比如像亚马逊,这个图示展示的是清华大学联合南加州大学杜克大学和韩国先进技术研究院,计划在今年韩国召开的世界机器人大会上举办第一场机器人灵巧操作比赛的场景设计,主要用于厨房里面。大家看到还是比较复杂的。比如你认识这是一根黄瓜,但是把切成几段以后机器人怎么认知,这应该也是比较难的问题。

这个图示演示的是PR2用来做早餐,把苹果、黄瓜、香蕉做成早餐的甜点。

机器人在灵巧操作上面,甚至不如一个刚出生几个为的小孩,我们怎么解决这个途径?我们想到人自己,我们想到人这双手,小到穿针引线、倒茶喝水,大到使用先进的工具,包括我们有一些有艺术的细胞的人可以用这双手拉小提琴、弹钢琴,等等。这就是我们想到的方面。我们是不是学人一样,从人的脑和手的神经运动系统的角度研究下一代机器人,这是我们的出发点。为什么?劳动创造人,人是靠什么劳动?靠得是我们这双手。

更为有趣的,2015年是机器人的元年,大家把2015年好好的琢磨一下,上帝似乎给我们哪些启示,不知道为什么2015年是机器人的元年,但是2015年的二进制数恰恰是这样的安排,二进制数的中间是一个0,左边5个1,右边又是5个1,这个0是人的脑袋,左边五个1是人的左手,右边5个1是人的右手,这给我们某种暗示,应该研究人脑是怎么控制这双手,这似乎也是上帝给我们的一种启示。大家看到2015年美国推出脑计划,包括我们中国中长期发展规划里面把脑科学作为十分重要的位置,我们要研究脑。

另外一方面,匹兹堡大学2013年做了一个浸入式脑机结构,并通过它控制机器人,就是把一个脑机接口芯片浸入到一个脑中风病人脑的M1运动区里面,经过5个月以后,这个病人就可以通过运动想象控制这双机械手。时间一长,她感觉这双手就好象长在她身上一样,久而久之,有时她感觉一只手臂有点酸胀,这时候她意识到,这种酸胀是大脑的一种印象。你像这个问题,光是依靠脑科学的认知能够得到结论吗?得不到,必须有了机器人才会有这种认知。所以我们想,脑科学的研究一定要有搞机器人的人参加,这样天平才是平衡的。

看这张图,就讲了如何从人的脑和手的神经运动系统的角度来研究下一代机器人。首先我们看这个图里面,这里面大家看,这个地方是一个上行,就是我们的人手可以感受到视觉,主要靠眼睛,触觉、滑觉、温度觉,这些信息是如何编码的?又是怎么融合的?通过融合它能够形成对机器人操作现场环境,包括这个物体是什么样东西的一种认知。

再看看这个,这从脑出来的一部分叫下行,进行动作预测和运动控制,大家再想想,我们人怎么做的呢?有人讲,我们人靠经验,是的。我们人一旦通过上行知道了在什么样的环境里面这个物体是什么,并且知道了它的任务是什么,我们马上就能在脑的长期记忆区里面找到完成这个的经验,然后完成队操作物体的预测和运动控制。我们想从这个角度出发来研究下一代的机器人。

2015年什么事都来了,大家知道,过去有人很抱怨,尽管大家用神经网络,但是我们的神经网络通常用PC机来实现的,把一个并行的问题做成串联了。2014年12月份,IBM公司就迫不及待的推出TrueNorch,这是一个模拟运动神经元的类脑计算芯片,是并行处理的。所以它正好可以用在代替我们人的人脑,来完成机器人的灵巧操作。大家可以看到,它有2.56亿的可重构突触,这是非常大的,而我们人只有十几亿个运动神经元,而且它的功耗非常小。

大家看到2015年清华大学推出了类脑芯片,叫天机一号,我问为什么叫天机一号?他说现在处于天机不可泄漏的状态,但是有一点可以证明,这种计算领域的革命,会带来机器人发展的一场革命,完全运用模拟生物的神经元做计算。而且它最近做了很好的工作,用它控制自行车的运动,效果非常好。

大家看到,我们现在完全可以用类脑芯片取代人脑,来完成上行的信息感知部分和下行的动作预测与控制部分。

机器人感知技术

  

传感是下一代机器人操作的第一步,这里面我讲得是一个人手,它非常灵巧,它小到穿针引线,打到弹钢琴和使用先进的工具。人手可以完成各种感知,如触觉、滑觉和温度觉等。

这张图,是我们人感知信息处理的脑区,我们看看这个图里面显示视觉V1区,这里是听觉、触觉区,可以看到这些区域是分开的。右图是猫的脑区,视觉、听觉、触觉都是天生在一块的,这些信息可以在相同皮层统一处理。所以我们人要完成这种跨模态信息——视觉、听觉和触觉——的融合,首先要研究各个脑区怎么合作来进行跨模态信息的处理。

生物触觉,我们人的皮肤是用来接受人在操作过程里面跟物体接触过程当中感受到力的感觉。

这是人的皮肤,它上面有我们叫数百万计的神经末梢,这里还有毫毛。其实这个触觉在国外是分得比较细,单点接触叫Touch,多点接触的叫haptic, 或者tactile,但haptic更强调反馈和运动。从图中可以看出,有接近觉部分,另外还有浅层轻微的触觉,这边是压力觉,还有感受到热的、温度的感觉,还有冷的感觉,所以我们的皮肤尽管说看起来很薄,但是能感受到很多的感觉,像毛发的运动,轻微的触觉,压力觉、热觉、冷觉,等等。

这张图里面,就是触觉区,大家看到它对应我们人运动的各个方面,这部分对应我们这双手,占的面积比较大(绿色)。人体各个部分的触觉也是不一样的,比较敏感的是嘴唇、指尖、腹部。所以皮肤触觉分成四种类型:快适应的小感受域,慢适应的小感受域,快适应的大感受域和慢适应的大感受域。

大家知道,我们要做机器人,我们要像人一样感受这个触觉,这里给大家再解释一下,有人会反问这个问题,什么叫触觉?触觉是人手抓到东西了,然后这种感觉诱发大脑经过认知和理解以后得到了印象。这叫觉。所以这里面在学术界仍然争论就是触和觉的问题,就是机器人可能还是触;什么叫觉,就是把它编码以后叫觉。另外就是运动触觉,主要部署机器人关节部位用来测量力和力矩,我们今天主要讨论皮肤触觉。

大家都知道眼睛是心灵的窗户,我们人的皮层60%就是跟视觉有关的。

上帝给人最垂爱的也是视觉,大家看看这是视觉。这是我们的眼睛,我们的皮层恰恰是在后脑勺,从眼睛到皮层这块叫潜通道,这个通道没有哪个器官有这么长,所以上帝也感觉到人得眼睛最重要。

我们人获取信息的80%就来自于视觉,且是非结构化信息,所以我们要研究视觉认知,怎么把它变成半结构化,甚至变成结构化的信息。

非结构化信息的视觉认知机理方面有很多的工作,我这里罗列了一部分,比如机理层面、理论层面、应用层面,而且视觉也是这几年发展最快的。有的人经常讲大数据,什么叫大数据,主要是视觉在里面,把它搞大了。据统计,北京市一个小时手机的视频信息相当于中央电视台储存的所有视频总量。

我们想从(刚才讲到的)人的脑和手的神经运动系统原理出发做这双手,这是我们研制的样机。这个手跟普通的手有什么不一样呢?我想问问大家,你们把手伸出来,你的手是骨头控制肌肉,还是肌肉控制骨头?机器人呢?机器人是通过电机电动带动连杆,是典型的骨头控制肌肉(加入连杆上有肌肉),所以它不能像人手一样,做到一手多能。

我们来看看这双手究竟有多灵巧。它跟我们人的关节一样,这是我们做的第一代肌肉控制骨头的灵巧手(图略)。第二代已经重新设计了,比这个要做的要精致。

人工皮肤方面,我们大概做了三四年了,这是我们做的第一代的人工皮肤,是跟国外比较接近的,电容式的皮肤。后来我们发现,它中间层用得是硅胶材料,灵敏度不够好,我们团队做了一个很好的工作,就把中间整块的硅胶变成硅针,灵敏度一下子提上去了。在这个基础上,我们做了第二代皮肤,把尺寸上也做了更科学的布置、计算。第三代做得更漂亮了,主要在制作工艺方面把它做得更薄了,并且优化了布局,这个是人工皮肤用于测量人的脉搏。

这里我再做一个简单的说明,现在市场上也有人做这个皮肤,但是跟我们皮肤不一样,他们的皮肤用得是石墨烯材料做的,是测量脉搏的,但是我们制做的皮肤必须要能承载,比如承载十几N,甚至一百多N。所以我们的设计原理同他们的不一样。

这里有一个启示,做科学研究一定要坚持。我们在研究过程当中发现,过去按照国外的思路做,只能测量两维位移,不能测量三维。有一篇文章给我很大的启示,基于视觉诱发的微视觉碰撞检测算法,怎么通过视觉做检测碰撞呢?一旦碰撞以后,表面就会变形,光打上去以后,反射光里面就有相位差,利用相位差测量触觉是非常好的方法。我们下一代皮肤就是全部采用光学,既可以测量物体表面的颜色、纹理,也可以测量触觉,而这个测量是三维的。

这样的话,我们的皮肤就包括了温度传感器、滑觉传感器、触觉传感器和微视觉传感器,四个模态。这里面缺一个人的神经系统,我们神经系统把我们感受到的触感传导到大脑里面,所以我们用总线技术。当然,总线技术也是非常难的问题,需要大量设计和计算。下面的篇幅我主要介绍一下视觉和触觉的编码与融合。

跨模态信息表征

  

这里的跨模态信息主要指触觉时间序列、视觉时间序列,包括它怎么融合。

触觉的研究分两种情况,这里主要讲思想。一种是我的手握杯子,这时三个手指和掌心上面均有触觉信息。以掌心为例,这就是一个三维的触觉图。平面上的两个坐标系,分别是传感器(1到24编号)和时间。如果按照时间轴做一个投影,大家普遍的一个感觉,在抓物体的过程当中这个力一开始比较小,然后逐步增大,抓稳的时候基本上就平稳了。由于我这个人过去是做自动化的,比较习惯从线性系统的角度做它,这是一个有三段线性系统组成触觉图谱,有时候抓的过程当中,可能需要四段或者五段等。多分几段,采用多个线性系统就可以描述这样的触觉。

这是一个状态方程,有人学过,可能有人没有学过,这里给大家讲一下。状态方程描述系统是非唯一的,状态量选择不同,状态方程也就不同。但是有一样东西是不变的,是什么呢?就是这个方程的观测空间,就是它观测矩阵构造的空间是不变的。大家知道编码就要找不变性。我们就发现,用A1、C1构成的观测空间能表征,发现用这个观测空间就可以表征一个线性系统,因为它是不变的。

怎么样比较两个模型之间的差别和距离呢?我们发现刚才提到描述线性系统的观测空间是在一个黎曼空间上,这又是数学化了,但是没有关系,黎曼空间你肯定听过,你不知道什么是黎曼空间,我也不需要你知道。两个黎曼空间之间的距离用什么来做呢?用夹角来做是最好的,比如用马丁距离做是比较好的。

第二个问题就来了,怎么编码,什么叫编码?刚才您说了,观测空间是不变的,我就要找一个东西逼近这个观测空间。我现在用稀疏编码,这个稀疏编码相当于什么呢,我给大家讲一个例子。一个非线性的函数是不是可以把它写成它函数基的线性组合,基知道了,就要找到一组系数,把它逼近。什么叫稀疏编码稀疏逼近呢?稀疏逼近就是能不能对应这组基,使得系数非零元素最少,也就是我可以稍稍牺牲一点逼近进度,但是要保证系数非零元素的构成最少就叫稀疏表示。

这里面的D就相当于基,yi就相当于这个系数,这个大家一下子就明白了,这不就是非零个数最少吗,1范数,1范数就是非零个数最少,这下子就把问题解决了。

但是这还没完。刚才我们讲了,你这是在黎曼空间上,我还要通过一个变换,把它再变换到笛卡尔空间里,这样就可以编码。这是数学上的事情,我就不多说了。

很简单,人用手抓东西的时候,分成三个到四个线性过程,每一个线性过程可以用一个线性系统表示,这个线性系统可能是变化的,但这个线性系统的观测空间是不变的,我可以在观测空间用稀疏编码去表征它。

有人会讲,孙老师你讲的问题不全面,我觉得也不全面。我刚才这个触觉建模,是手跟杯子之间没有相对运动。万一,比如我这两个手合作的时候,抓东西的过程中接触面会产生滑动,也就是相对运动。抓的物体和手之间有相对运动,这时候触觉有什么表征呢?

这里我们介绍三线程随机卷积神经网络。抓物体的过程中间,除了表征位置和时间因素外,还需要表征灵巧手与物体的相对运动。

这就是我今天说的用一个时间维度表达问题是不够了,它需要用一个跟物体的相对运动的时间来表征它,这就叫帧差。这里我们用得是深度学习,有很多人都说很喜欢听深度学习,当然这里介绍的深度学习,在计算的时候还采用了超限学习机的权值计算原理。

大家都知道这个触觉就是图像,有的人可能还不一定理解我这句话,我给大家一解释就明白了。大家想一想,什么叫图像呢?不就是一个个点阵吗,每一个点阵不叫像素吗,大小是灰度,灰度的大小。什么叫触觉,不也是一个个点吗,它的大小是什么?力的大小。这两个可以完全对应。触点就是象素,力的大小就是灰度大小,这两个是同构的,这样大家就明白了,通过单个图像,我可以找它在空间的相对位置。第二是时间线程,时间线程在图像里面用得是光流,这里叫触觉流,但是尽管是同构的,但是有点不一样,就是触觉对光照和颜色不敏感,但是我们在研究过程发现,这个相对运动如果产生光影,也就是触觉图里面的箭头,这对编码很不利。所以要用中心规划的方法把它去掉。

这个时间有了以后,刚才我讲了,还缺少另一个时间线程,描述抓取的机械手和抓取物体之间的相对运动,我们叫帧差,来描述这种运动。这样你看到了,我们描述抓取一个运动物体的时候,要用到一个空间线程和两个时间线程。

学深度学习的人都知道,深度学习有一个很重要的工具就是卷积、采样或池化。什么叫卷积?卷积通过滑动窗做卷积滤波,提取特征,这里就是一个滑动窗,每一个滑动窗对应的权值是一样的。

另外一个叫池化或者采样,其作用是基于局部相关性原理进行亚采样,从而在减少数据量的同时保留有用信息。可选的计算方法较多,比如平方根法、最大值法、平均值法和多数法等,它的滑动窗是不重叠的,也是共享权值的。

卷积一个最大的问题在哪里?量大,连接权比较多,你要提高它的速度怎么办呢?你看Yann LeCun的卷积神经网络是这样用的,一个平面对应一个权值。

我们这里做了一个工作叫做卷积权重的离散共享,就是把一个特征面上面很多神经元,如图特征面上红色、白色神经元权重都一样,这样减少计算量。卷积权重离散共享和卷积权重正交随机初始化机制,其权重不再进行迭代调节,其频率选择特性已经在理论和实验上得到了证明。

这样我们通过卷积和池化提取出它的空间线程特征,两个时间特征都提出来了。

下一步还要做什么呢?就是通过岭回归在决策层得到几个连续触觉帧的预测信息。

再下一步,我们用的还是超限学习机,借助它的空间特征和时间特征的融合,得到每一帧的触觉预测。这个动作做完以后是不是就应该结束了?

后来我们发现还有一种很好的办法,就叫两层多数池化(投票),也就是将窗口中出现频次最多的预测标签作为输出预测,这样通过投票以后,这个触觉帧的预测更加准确和稳定了。这个工作现在已经在IEEE TRA在二审了。

这个创新主要在哪几个地方,第一个就是利用光流法对时间特性建模;利用单帧空间力分布描述空间特性;第二用到了随机特征的映射,它是神经元的部分权重的随机分配数值,提高训练速度。第三是分层的融合策略,在决策层对时空特性进行分层融合,同时挖掘了时空维度上的信息。

特别是做两层多数池化(投票)以后,识别率很高,对一些数据集可以做到100%。

视觉更多的是视频,大家一定会在想,说视频信号一秒钟甚至一千帧,甚至两千帧,这些图像是不是都用来做表征呢?肯定不是。肯定要在这些视听信号里面找出代表性的来做表征。这些信号怎么去找到它代表性呢,也就是怎么样把视听信号里面的野点去掉,这是我们最关心的一个问题。

这里打一个比方,早晨大家喜欢到外面散步,有时候喜欢小跑,大家一定感觉到映入眼帘的图像都是非常美好和柔和的。有一天你拿摄像机,一边小跑一边拍,回来之后把视频再回放一下,就会发现这里有一大半图像是不合格的,是模糊的,是看不清楚的,究竟什么原因使得人没有这种感觉呢?后来发现在视觉认知里面原始图像数据矩阵具有自描述性,而野点不具有这样的性质,而且是稀疏的,因此,可以利用对矩阵的列稀疏性来分离野点,从而构造鲁邦的字典学习算法。

在结构化稀疏编码的框架里,野点图像不具有这种性质,而且是稀疏的。这样,利用结构化稀疏编码就实现了视频序列中样例的鲁棒提取。所以我们做认知计算,很重要的一点就是把人和哺乳动物的一些处理信息及思想用到我们的算法,用到我们研究里面,这个效果是特别好,这篇文章后来发表在IEEE 神经网络和学习系统汇刊。

还有一个很重要的工作,就是用降质的办法,用监督式的机制矩阵恢复模型来提高分类效果。

把这个方法用在交通标志的识别里面,发现这样本比较小的情况下效果特别好,样本越少它的优势比别的算法优势更突出。

前面我们刚才讲了一下,说视觉和触觉是同构的,我们是不是可以想到,把触觉的编码方法用在视觉里面,是不是很好呢?

最近做了这个工作,不是用线性动态系统的办法做触觉建模吗?我们把这个思想用在视觉序列建模里,不仅识别率提高了,而且它用训练时间也减少很多。

这个工作就发表在今年的CVPR2016(。很重要的是把触觉的编码方法用在视觉里面,这个工作的意义还在什么地方?人的视觉神经和触觉神经是可以互用的,大家知道聋子眼睛好使,瞎子耳朵好使,为什么呢?聋子他的听觉神经被视神经用了,所以他的眼睛好使,瞎子听神经被听觉神经用了,所以他就听觉就好。

大家想想,有没有可能,我们把视觉变成触觉,比如瞎子,我在他眼睛上有两个摄像机,然后把它编码,形成触觉编码,他能通过手的接触就能够感受外部的世界,这将来有可能盲人的福音。但这是有前提的,就是这个人事前感受过世界,也就是稀疏编码得有字典,这个研究将来意义是非常大的。

这个地方讲得是用触觉的办法给视觉建模,这样我们用线性动态方法既可以对它触觉建模,也可以给视觉建模。

这是我们做的一个比较,这里面红色的线划的部分,就是我们现在用触觉的建模方法做视觉的编码,旁边比较高的这一列(LDS-Sc)也是我们课题组提出的方法。可以看到,不仅识别率提高了,而且它用训练时间也减少很多

这个意义是非常大的,所以哪一天我们能够研究,比如像听觉,它也有这种类似同构的特点,哪怕是其它形式的同构,这对我们研究面向跨模态信息的计算意义是很大。

比如我们这次在深圳跟因特尔公司讨论的时候发现这个问题,因特尔公司在PC时代里面做了一颗“芯”,大家知道我们计算机全部用得因特尔的芯片,机器人时代这个芯片应该什么样?肯定跟这个芯片不一样,因为机器人时代要处理机器人跟人一样要感受到图像、触觉、嗅觉、味觉,等等。这些东西的处理,没有一个像PC机一样的0、1的处理,是一个多模态的处理,这里面需要找到多模态不同信息的底层结构,否则很难做出这一款到处都适用的芯片。

刚才说触觉可以把它看成几段线性系统,几段线性系统可以把它看成是非线性系统,所以可以用非线性系统直接编码,这就是我们现在开始做的非线性编码。比如我们用了一个深度动态系统来对非线性的触觉模型进行编码。

多模态信息融合

  

融合,多模态信息的融合是一个非常难的问题,大家想想,说把人的声音跟视频做融合,其实大家都知道什么叫融合,融合就要找到这两个跨模态信息的相容部分,如果这两个模态根本不搭边,它融合什么?根本就融合不了。所以问题就在,怎么去找这个相容部分。

这里有一个图。大家可以看到,这是两个运动流形比如一个是视频流,另一个是触觉流,中间相交的就是它的相容部分。现在问题是怎么找出相容部分。数学家们可以把这两个流形描述出来,通过数学的办法找这个公共部分,但是难度很大。

有没有更好的办法呢?这里面我们提出一种方法,它的依据是什么呢?依据是这样的,刚才我放了一张片子大家看到了,自然图像经过稀疏编码后得到的基函数类似于V1区简单细胞感受野的反应特性.这种稀疏编码模型提取的基函数首次成功地模拟了V1区简单细胞感受野的三个响应特性:空间域的局部性、时域和频域的方向性和选择性.这个发现意义非常大,为我们用稀疏表示提供了一个佐证。另外,由于触觉信息和视觉信息是同构的,当然也具有稀疏特性。这样我们就可以在稀疏编码的统一框架下做视觉和触觉的融合,这是我们初始的想法。

我们究竟是怎么做的呢?我这里画了两个图。左边这个图是我们通常所说的多传感器融合,多传感器融合有什么特点呢?传感器是同构,两个模态信息都在同一个函数空间里,这里面每一个模态所激活的稀疏表示的字典元素都是一致的,就可以激活的字典元素既对第一个传感器进行描述,又可以对第二个传感器进行描述。对右边第二个图,比如像我们说的触觉、视觉,每一个模态激活的字典元素不一样,如何找到它们之间的关联呢?引入组结构信息的概念,可以将联合稀疏编码放松为组联合稀疏编码,只要求对应同一个组内的元素被同时激活即可。这一编码方式有效地保留了不同模态的相容信息,同时也提高了鲁棒性。

现在的问题是组结构信息的组究竟选多大?这是重要的理论问题,目前主要是依靠经验。

如果描述两个不同模态激活的字典元素离得很近,我们认为它是相容的,这两个字典元素就可以划在一个相容字典里。反之,两个不同模态激活的字典元素离得很远,无法放在一个组里,那就把它放在不相容字典里面。相融字典是不是既可以描述视频,又可以描述触觉流呢?

有人说我还没有听懂,没有关系,有一个例子等着你,这是我们做的一个例子,采用视觉、触觉传感器,测量两个模态的信息。通过视觉信息提取方位直方图和SIFT,触觉采用的是LDS。这里面会看到,触觉和视觉是两个不同模态,它们的特点不太一样,维数也差异很大。

大家都知道,你要做融合首先维数要一样,怎么办?搞视觉的就知道了,采用BoW/BoS 算法可以把跨模态特征映射到用码本表示的同维空间。

做完以后我们再用组结构稀疏的方法找到A,相容联合字典。也就是刚才我说的,两个模态激活的字典元素相距比较近,可用一个组表示,把它分在这里。不能用组表示的把它放在不相容部分,就是图中的B。

在我们的例子中,用Kinect做视觉测量, Barrett上面的触觉传感器测量触觉信息。

这是我们采集的SIFT特征和方位直方图的特征。

单纯用视觉的话,识别率是74.28%。

如果单纯用触觉的话可以到87%。

这是做触觉做了处理以后的,如果说把刚才两个融合起来的话,识别率可以达到100%,非常高。

如果有学员讲我还没有听清楚,没有关系,还有一个例子,基于贝叶斯概率推理的视触觉融合方法。这里面有图像的,还有触觉,它们的特点就不介绍了。

就像我们小时候一样,爸爸妈妈带着我们,教会我们通过眼睛和手的触摸识别各种物体,比如说这是瓷的,摸一下。我们也是这样,不厌其烦地让机器人去学,比如教机器人识别这是木头,这是纸,通过视觉和触觉学习一百种不同物体。然后找出其中40种,我们发现这四十种物体,机器人通过视觉只认对了一半,这跟我们常识很接近。

让机器人用灵巧手摸一下,发现机器人识别率,如果是0.8作为一个界,大约触觉识别率超过百分之八十。

我们做了一个例子发现通过视觉识别不如触觉稳定,这同我们的常识是一致的。

下面研究通过贝叶斯概率估计做视触觉融合。听到这里大家明白了吗?这个相容信息的是什么?这个相容是识别物体的概率,比如它是瓷的概率,它是玻璃的概率,它是塑料的概率。贝叶斯概率推理中很重要的一点,就是不同模态的重要性,如公式中的Ω1和Ω2。用传统的贝叶斯概率推理先做一下,他做出来识别率是多少呢?96%,这比我们单个模态信息做得已经高很多了。后来我说你再想一想,上帝不能是白做的,从眼睛到后脑勺的V1区,这么长的视觉潜通道,这个潜通道肯定很重要。你好好研究一下,这个潜通道(音)贝叶斯概率推理里如何去体现,他找了很多书,后来发现有一种依据。他认为这个视觉潜通道和触觉潜通道实际上反映在贝叶斯概率推理估计里面,实际上是非线性变换,就是模态内部的非线性变换。考虑这些因素后,贝叶斯概率推理就变成含四个参量的优化,这个优化的目标是什么?识别率最高。

谈优化的问题也是这两年很重要的问题,过去的办法大家都知道加权平均,这个方法最大的缺点是把许多解丢掉了。现在有什么办法?现在计算机快,多少核,算吧,现在完全可以α、β把它用割算法划分,然后计算每一点对应的指标,这个算出来有什么好处呢?可以看到优化指标跟这些参量之间的关系。如这个地方比较的平坦,说明指标对参数变化不明感。有一些指标虽然非常好,但它像一座山峰,参数稍微有变化,指标马上下来了。借助计算能力,用全局优化方法,可以找到全面的参量与指标之间的变化关系。

大家看到,可以达到99%点多,也就是这个潜通道考虑一下,带来了3%的识别率的提高。

精细操作

  

经验传递的问题。我刚才讲的问题,就是告诉我们在什么样的环境下,这个物体是什么。下面的问题要解决什么,我怎么操作这个物体。

抓物体的时候有这么几个问题要解决,这个物体是什么,抓什么地方,抓取的姿态是什么,抓取的大小究竟怎么去算。

传统的方法是分析法,动力学建模复杂,优化费时。

现在大家又回到经验的办法做这个事情。所谓的经验办法是所谓人在操作物体过程里面,一些做得非常好的案例记下来,把它做成经验,就像人一样。比如对人操作的成功的案例进行描述,找它抓取比较好的行为中抓取区域和点在哪里?姿态是多少,力的大小又是多少,把它记到数据库里面。

机器的精细操作面临的挑战在哪里?

第一,机械手多自由度逆运动规划复杂。如Shadow的灵巧手20个自由度,如果再把碗部算上的,21个自由度。刚才见到我们清华那个机械手,灵小手是16个自由度,像Barretthand是10个自由度,大家知道求解逆运动学是非常复杂的。但是人类的操作是非常简单的,向我们说抓就抓。

第二,视觉信息部非完整,仅包含我们自己看得见的地方。

第三,物体的形状是多种多样的,不像过去,就那么几种,所以描述系统的方法也是越来越复杂。

第四,操作也越来越复杂,所以我们要学习人力操作的经验。

所以经验学习是未来机器操作里面非常重要的方向。

经验如何获取?我们把经验分成两部分,一部分是场景经验,一部分是操作经验。场景经验主要是这个物体在什么地方,待操作的物体是什么性质的东西。操作经验就是如何操作,规划操作这个物质。这是获取经验的一些采集设备,像Kinect摄像机,还有力反馈装置,主要是规划数据。另外还有一个数据手套,数据手套用得比较多。

经验我们初步给出了一种描述方式,就是我们目前在做的。对于操作而言,如果像无人车野外运动,可能还缺少一个环境。在什么样的环境下,这个物体是什么。描述这个物体的话,有颜色特征、形状特征和触感来做。怎么操作这个物体?大家都知道,我们人和机械手之间是异构的,我们的研究发现,异构的机械手之间如果手腕的方向、手指的方向是一致的,这个经验完全可以传递。再一个要告诉的是,这个机械手,抓物体什么样的地方,抓取力的大小是多少。下面就几个方面给大家做一个简要的介绍。

这个物体是什么?有两部分:一部分是形状颜色,另外一部分叫触感。这个触感就是刚才我们讲到的触觉,用什么建模方法呢?我们用线性动态系统办法来建模,通过观测空间的编码来做这个事情。

这个图基本上表示了刚才我说的意思,就是一个触觉序列可以分成好几段线性的,我们把它叫子序列,这个地方是子序列的特征,实际上是观测空间,A和C,这个地方是观测矩阵,刚才我讲到了。然后把每一部分进行聚类,提取它的数据特征,把这个数据特征跟我机器里保留的不同物体的触觉特征做比对。其实人也是一样,人说这是瓷的,实际上我们看到是瓷的就是因为它的触感在我脑子里所记忆的瓷的触感所比对的。

形状颜色又怎么来做呢?大家可能很清楚,用Kinect,Kinect的深度信息是什么?主要是边缘和形状,RGB是颜色和纹理等等,这个我们可以通过深度网络做这个事情。

比如我们可以通过卷积网,这个网络是2015年提出来的,当时比较快,一秒钟当时可以处理5幅图像。通过颜色信息、RGB的信息、深度的信息,就能建立一个它和物体类别的一个映射。

其实人也是这么做的,手一摸、眼一看,这是瓷的,这是杯子,怎么来的?我们人不是神经网络吗,它早就形成这么一个映射,马上就知道了,这是瓷杯,我们把经验放在这样的网络里面。

抓取区和抓取点,我们人经常做一些人工标识,就是这个布置把子,水壶也有提手等等,人工标识一眼就提示人你抓这个东西就抓这个地方。另外一个没有人工标识,抓什么地方呢?人是这样做的,人开始检索我的记忆区里面,同类的东西一般抓什么地方,怎么抓它。

首先,抓取区域怎么定义?一般定义中心点在什么地方,这个区域的长宽是多少,与基坐标系的夹角是多少,就可以把抓取表征出来。我们在经验里面对每个物体都有表征,看到香蕉、牙刷、牙膏、杯子,甚至是泳镜、剃须刀什么,都有抓取什么地方,这些东西可以通过形成映射,同RGB、深度信息,跟抓取区域形成一个映射。

对于抓取姿态,我们这里把它分成两类:一类物体是强抓取的,不管三七二十一来了就抓了,还有一种是不能乱来了,大家知道有一些东西很精细,像针,包括像一些仪器,要非常小心,我们觉得这些叫精细抓取。如抓杯子,反正瓷的,没有关系,劲大一点没有事,就是强力抓取。而有的抓取则需要比较温柔,包括像鸡蛋、易碎的物品,这就是精细抓取。

抓取姿态的确定是用一个贝叶斯概率推理模型来做的。大家看看,一个什么样的任务,这个物体是什么,它的尺寸、姿态、形状,抓取类型,怎么抓,就可以推理出它需要的姿态。比如,普通的矿泉水瓶我是握,这时候通过贝叶斯概率推理模型可以知道抓取物体的姿态是多少。

再一个比较重要的力是抓取力,传统的方法是用摩擦锥来做的,我们这里主要用增强学习来做。这里的数据量主要是触觉信息、关节角度的变化和力矩反馈信息。这里有一个比较有趣的事情,就是人和机器不同的地方,大家都知道,我们人有一个特点,就是抓什么东西的时候,不是说所有的力都用在上面。比如,在抓的过程一发现打滑了,马上就加劲,一发现力大了它马上就调整。人不是说需要三牛顿就是三牛顿,是根据抓东西的情况调整的。这里我们机器怎么样学人呢?我们做了很多的例子,发现这个机器抓东西的时候,发现打滑了马上就掉下来,人为什么掉不下来?带着这个问题我们进行了思考了好久,后来我们做了一些事情,在机器人抓东西的时候,将测量的力做分解,我们用Harr小波分解,分解以后就发现很有意思的事情,它的分解有两个高阶项,高阶项有两个系数是大小相等、方向相反,如果高频成分由负到正的时候就是要加载;如果高频成分由正到负的时候就是要有滑动。用这个原理让机器人判别,就将打滑和加载的问题解决了。

这是关于经验的存储,就不再多说了,它主要包括物体识别的一些经验,操作手的一些经验,第一个就是这个物体是什么,第二个怎么操作它,在一个经验库里怎么表示,它有各种各样的表示方式,针对不同的任务,这些表示方式都能带来很多的便利。

我们遥操作里面,研究过程里面有一样东西是离不开,就是数据手套,这个数据手套有我们课题组自己研制的,这里做一个广告宣传。

我们经验的很多采集都是通过它进行。如果这个抓得很成功,抓取区域、力是多大,都是通过它采集的。

这是我们用数据来遥操作空间站里面的机械手。这个动作是采用基于经验学习的操作来实现的,不是采用我们通常做的什么分解加速度控制、位置/力混合控制等来做的。

这个例子讲得是在今年瑞典召开的世界机器人大会上,我们的一个三分钟演示视频。这个算法是让机器人来识别不同的东西,然后实现由选择的抓取。

这篇论文发表在今年的CVPR2016(Spotlight oral),它的原理用于识别机器人待抓取的多个不同物体。

研究展望

  

第一,下一代机器人我觉得更重要的是认知的体系结构,比如刚才讲到用到的类脑芯片,它进行跨模态信息的处理,像声音、图像、嗅觉、味觉,等等不同感知信息的处理。还有包含心理学和社会学的认知过程处理。

现在大家都在搞教育机器人,你说对教育机器人不懂心理能行吗?所以这种体系结构不像我们PC时代,比如因特尔的芯片公司一样只支持计算,要支持对跨模态信息处理,还要支持人的心理,多种因素。

再一个基于经验的学习,这个仍然还有争论,有人讲经验只有人才有,机器人只叫技艺。当然任何学科在发展的过程中,都会碰到类似术语纷争,但经过5年、10年,尘埃落定的时候,这些标准术语就固化了。如何让机器人学习人的技艺,也有人称为演示编程,但是不管用什么样的名字,它所包含的内容,仍然是我们下一代机器人必须要研究的问题。

第二,很重要的就是联合稀疏编码,面向多模态信息处理的联合稀疏编码,怎么样找到相容信息。刚才我们提出的方法是组稀疏联合编码方法。是否还有更好的办法,比如人是怎么做的,我们人的视觉、触觉、听觉皮层区域,究竟怎么合作进行跨模态的信息处理的,这还有待于医学和神经科学的发展,从而推动我们更好地做跨模态融合。

第三,很重要的就是经验,经验是很重要的一件事情,人是越老经验越丰富,所以人对经验的依赖很大的,它确实能够帮助我们解决很多问题。现在的问题就是,我们刚才提出的这套经验的表述方法是不是最好的呢?有没有比它更好的方法,这里主要是经验的表达、存储,以及基于经验知识的推理,用来解决机器人完成训练外的任务,以及应对突发事件的能力,这个我觉得非常重要的。

最后,我们在想,人是万物之灵,但是上帝给人的很多记忆都是简单的,比如视觉,我们每个眼睛都是平面的东西,三维图像在哪儿形成?大脑里面形成的,我们这双手,我们的肌肉纤维只有一维运动,但是大量的一维运动就能形成非常灵巧的运动。我们就在想,人类非常复杂的运动,是不是由一些非常简单的运动组成呢,如果这个问题被证实的话,那我们的控制就会变得非常简单。目前这一设想已部分得到佐证。人们在实验猕猴做勾的动作和握的动作的时候,它的运动M1区的神经元编码是相对稳定的。而这些是我们下一步要进一步研究的问题。

最后,大家一个结尾,献给大讲堂的诗,我这个叫诗藏诗。

贺机器人大讲堂

  

人机仿造胜奴仆。其实人估计造机器人,本来把它按照人的思想来造的,它比奴仆还好。

亲我劳耕续史书。机器人时代开始,人类的历史要重新写,为什么,这个历史肯定是跟机器人在一起的历史,不信大家等着瞧,写人类的历史一定不能忘了机器人。为什么呢?将来机器人要上户口,现在女性机器人已经有了,马上男性机器人会出来,机器人将来会成立家庭,机器人会有政治,所以人类将来的历史一定要包含机器人,我叫机器人和我们人类一起续史书。

类脑认知揭奥秘。奥秘是什么,就是人和哺乳动物的神经运动系统的一些编码机理、动作机理,这个动作机理就是从多维感知到灵巧动作流行空间的高维映射,这个灵巧动作的高维映射是什么,是我们需要揭开的奥秘。

信息智能启新途。通过信息,人工智能的角度研究下一代机器人,开辟了新的途径。

今朝替代求服务。今天我们觉得机器人还是代替人,来为我们人服务。

明日增强促幸福。明天机器人就不是这样了,机器人使我们更加的幸福,现在也许已经开始了。

盛世讲堂播硕果。我们机器人大讲堂是盛世讲堂,播硕果,我觉得场场报告都是这方面的最新成果的展现。

精英缘聚九州曙。精英缘聚这个话来自哪里,大讲堂里面讲到,有缘咱们聚在这里,我今天跟在座的大家也是有缘。九州曙,我们中国更加强盛,这个曙光已经再现了

我们再竖着看。

人类今盛,仆秘务果,亲信明精、书途福曙。

这四句什么意思做一个解读。他说人类现在已经到了盛世,这个盛世要做什么事呢?一个是仆,仆就是老百姓,让老百姓放开手干事,要把秘书管住,就一定能结出硕果,社会就能大发展,把老百姓的力量调动起来。和善的人,讲信用的人才是我们明天的精英。读书、用道才能带来福祉,做人何尝不是这样呢。

所以我说诗藏诗,横着的诗是将来机器人的发展,而竖着的诗讲做人的。谢谢大家!

本文为机器人大讲堂原创团队撰写

转载请联系:robospeak@52lide.com

温馨提示
(0)

相关推荐