这几天,计算机视觉和模式识别领域的顶级会议 CVPR 2021(Computer Vision and Pattern Recognition)正在火热进行中,刚刚从加州大学洛杉矶分校(UCLA)博士毕业的石家庄女生范丽凤,提及此次被录用的论文表示:“在 CV 和 AI 领域,中国人的贡献和力量是毋庸置疑和不容小觑的。”在最终评审中她获得了接近满分的成绩(三位审稿人中两位给了 “Strong Accept”,一位给了 “Accept”)。范丽凤是计算机视觉大牛朱松纯教授的博士生。2020 年,朱松纯全职回国并入职清华,还牵头成立了北京通用人工智能研究院,一度曾在国内引起过热议。最近刚刚博士毕业的范丽凤也即将跟随导师朱松纯教授回国工作,其表示:“朱老师肯定希望我们可以回去支持国内的 AI 事业,我自己也觉得国内有巨大的发展空间,也更喜欢国内的文化环境,并且在朱老师的研究院我还可以继续推进一直以来的研究工作,这是一个很好的机遇。”图 | 范丽凤本次发表在 CVPR 的论文(来源:受访者)范丽凤本科和博士期间学的都是统计学。2012 年,她从河北辛集中学考入浙江大学数学科学学院,主修统计学,在四年的本科学习训练中掌握了统计建模和编程实现的基本能力。2015 年大三暑假,她参加了 UCLA-CSST 暑期科研训练项目,在 Hongjing Lu 教授(UCLA 心理系和统计系教授)的指导下开展了一项关于动作识别的研究。自那时起,范丽凤开始对计算机视觉产生了浓厚的兴趣。项目快结束时,她特意写邮件并去实验室拜访了时任 UCLA 统计系和计算机科学系教授的朱松纯。经过交谈,朱教授鼓励她多读实验室的相关论文、多学点计算机视觉的基础课程,为进行科研打下坚实的基础。回到浙大后,范丽凤利用大四的时间,积极主动修习了计算机视觉的相关课程,阅读了一些基础的专业书籍和论文。经过再三考虑,她下定决心申请了朱教授的博士,最终如愿获得了录取,来到 UCLA VCLA 实验室进行了为期五年的博士生科研训练,获得了巨大的成长。谈及本次论文的立项原因,她表示是因为朱教授一直都在鼓励她做更难、更有挑战性和前瞻性的工作。虽然近几年得益于深度学习,计算机视觉领域获得了突破性的进展,但大多研究都还是在解决比较底层的任务,比如人脸识别、动作识别等等,而更高级的任务,比如心智理论建模等等,还远未得到解决。现有的解决更高层次任务的尝试,也大都不是基于真实视频:比如,有一些工作在 2D 网格状世界里面进行基于强化学习的理论建模研究,有一些工作则在简单游戏中进行多智能体的交互博弈策略优化,对游戏中涉及到的多智能体心智理论进行建模研究。范丽凤说上述两类研究中,一类是基于真实视频做低层次任务,另一类虽然在做高层次任务,但目前还只是停留在简单模拟环境或博弈游戏中。而她的研究则弥补了这个空缺,在真实视频上进行复杂的心智建模,推测视频背后人物的心智活动。范丽凤说,自然语言处理(Natural Language Processing)目前已经是一个非常成熟的研究领域,高级人工智能的实现当然离不开自然语言处理技术的进步;但非语言交流(nonverbal communication)在人与人的社会交互中也扮演着十分重要的角色,传递着丰富的信息,是对语言交流的很好补充。这里,非语言交流指的是除自然语言之外的所有其它交流形式,比如眼神、身体体态和空间朝向、头部姿势以及手势等等。通过让机器从视频中学习非语言交流背后的三元信念动态变化(Triadic Belief Dynamics),就可以破解非语言交流的密码,捕捉到这些隐含的丰富的社会交互信息。结合不同的非语言交流信号,范丽凤的工作对纯视频输入中人与人的社会交互以及背后的动态信念变化进行了建模学习和推断,并基于 “共同心智” 提出了 “五心”(“five minds”)模型。“五心” 具体指的是什么呢?当 A、B 两个人在一个空间交流时,A 对于世界有自己的看法和认知,这是他自己的大脑 M1, B 也有一个自己的大脑 M2;同时,A 对 B 的大脑 M2 有一个模拟估计的大脑 M12,B 也有对 A 的大脑 M1 有自己的估计 M21;此外,A 和 B 所共享的那些 “透明” 的信息则被称为两个人的共同心智(common mind),记为 Mc。这便是 “五心” 模型的五个 “心”(mind)。心智理论比较关心信念(belief)、注意力(attention)和意图(intention)等模块,当前的 “五心” 模型主要研究了信念(belief)这一心智模块。也就是说,范丽凤的工作主要研究了在社会交互过程中两个人对于世界认知信念的动态变化。范丽凤为研究这个任务,专门拍摄收集了一个数据集,并进行了全面丰富的标注。目前该数据集已经在 GitHub 上公开。范丽凤提出了一个基于贝叶斯的能量模型来解决五心模型中信念动态变化的学习和推测问题,通过对视频构建一个六层的解析图,来分层次地解析视频中的社会交互场景。在这个六层的解析图中,最底层是检测到的人和物体以及提取出来的关键特征;这些人和物体组成视频的每一帧;再往上一层,是视频时序上的分段;再往上,可以知道在每一段中发生的具体的交流事件的类型(一共有三种基本交流事件,分别是 no communication, attention following 和 joint attention);继续往上一层,是相应的交流事件导致了什么样的信念变化(一共有四种基本的信念变化,分别是 occur, disappear, update 和 null)。通过这样一个多层次的解析图,就从底层的模式识别进入到了高层次的认知理解。因为机器还无法达到人类的智能高度,无法直接感知到模式背后的心智变化,必须从最底层的模式识别(比如物体识别和人体识别)开始,然后慢慢往上推,往更高层的任务去走。如此就能知道这些检测到的人和物体合起来发生了怎样的相对交互,具体发生了怎样的交流事件,以及导致了怎样的信念变化。范丽凤说,她的工作正是这样由低到高地使用图结构去解析社交视频。在实验中,范丽凤提出的模型获得了比其他方法更好的信念动态变化预测表现。图 | 五心模型中的信念动态变化预测表现比较(来源:受访者)当前的视频总结摘要大多基于比较表面的模式识别来提取视频关键帧,这样的方法在一些简单的视频中比较奏效,比如一个人坐下、站起来、走路,当前的做法可以区分不同的动作,从而提出比较好的视频总结。但是一旦涉及到有更加丰富复杂的社会交互视频时,当前的做法可能就不如五心模型表现好。因为,在这样的视频中基于人物的心智变化比基于底层的特征变化能更加准确地捕捉、概括到故事的语义精髓。比如在一段丰富的社会交互视频中,人物可能有很多动作,但那不是这个故事的最关键的内容,如果按照这些底层特征来提取关键帧,结果可能是冗余且不关键的。相较于底层的特征变化,人物在这个过程中心智发生了变化的那些时刻才是语义更丰富更核心的内容,基于这些提出的关键帧自然能更好地传达这个视频故事的本质。范丽凤的工作给出了定性比较实验和人类评价实验,结果均证明了五心模型在丰富社会交互视频摘要任务上的优势。
图 | 基于关键帧的视频摘要的定性比较(来源:受访者)