蝉联四年VOT冠军、发表数十篇顶会论文,卢湖川与IIAU实验室的成功之路
极市学者专访|第五期
“听大牛说说计算机视觉那些事儿”
这已是IIAU团队连续第四年在VOT取得冠军——VOT2019由硕士生代克楠取得长时赛道冠军,VOT2018由硕士张允华取得长时赛道冠军,VOT2017由博士孙冲取得公开组第一名。
Visual-Object-Tracking Challenge (VOT)被视为视觉跟踪领域最难的竞赛,远远超过了其他数据集。VOT评测序列每年都会更新,且标注精度也逐年提高。因此,每一届都会有当时顶尖的追踪算法在VOT上一展拳脚。那么,IIAU实验室是如何实现从2017年至今,每一年都能在激烈的比拼中胜出?
在本次的极市学者访谈,我们与IIAU实验室的引领者——卢湖川教授,进行了深度的沟通。关于IIAU实验室与计算机视觉科研的故事,将在下文徐徐展开。
竞赛作为练兵场
卢湖川教授团队一直深耕于目标跟踪领域的相关研究。多年前,在Online Object Tracking Benchmark(OTB)上,卢教授团队有两个方法一直稳居第二位和第三位。近年来,随着如VOT这样的国际竞赛在国内逐渐兴起,越来越多的学者开始参与其中。
图注:王一帆(左一)、卢湖川(左二)与王栋(左三)
“既然我们一直在做目标跟踪,”卢教授说,“那么就有必要去竞赛场上练练兵,用公平公开的测试,来对我们的算法性能进行一次全面的考验。”
因此,从2017年开始,在每年3月份ICCV/ECCV投稿结束后,卢湖川教授就会带领着他的IIAU实验室参加一年一度的VOT竞赛。第一年,IIAU实验室就取得了非常卓越的成绩:在VOT2017上,博士生孙冲同学的算法LSART击败了牛津大学、卡耐基梅隆大学、微软亚洲研究院等国际著名AI实验室和知名院校,获得了公开组第一名。
回想四年IIAU实验室参加VOT的经历,卢湖川教授对2018年的那一次比赛印象尤为深刻:
“当时所有过往的视觉目标跟踪方法都聚焦于短时方向,而当VOT提出长时目标跟踪这一问题后,我们觉得,现实世界中的确需要长时跟踪。因此,这个问题是非常重要的,我们就先瞄准了这一点。”
长时赛道(Long-term Challenge)的每个视频在2000帧至2万帧左右,被跟踪目标频繁离开视野,然后再次出现。因此,要求跟踪算法必须具有判断目标是否在当前帧出现和全图搜索目标的能力。作为一个新的研究问题,IIAU实验室为这一问题提出了很好的解决方案:MBMD,用一个基于匹配的回归网络和一个基于分类的验证网络,使得Detection和Tracking的融合机制得到了较强的提升。
图注:MBMD算法 VOT Long-term Challenge 获奖证书
MBMD算法在2018年获得了首届VOT Long-term Challenge的冠军。值得一提的是,凭借这个比赛的冠军以及ECCV的论文,MBMD的第一作者、 IIAU实验室的硕士生张允华同学,在颁奖仪式上做完大会报告演讲之后,英国牛津大学和荷兰阿姆斯特丹大学相关研究组都给了她博士全额奖学金,人工智能领域最好的研究院之一FAIR(Facebook Artificial Intelligence Research)也邀请她去工作。
不仅本身的难度高,VOT之所以被视为视觉跟踪领域最难的竞赛,还有一个重要原因是VOT参与角逐者高手如云,它不仅聚集了如牛津大学等来自全球知名院校,还包括微软亚洲研究院等国际著名实验室。
那么,为什么IIAU实验室能在每一年都取得冠军?卢教授在本次访谈中为我们分享了一些经验:
“的确,在这几年的竞赛中,有越来越多厉害的团队融入进来。他们有非常强的算力,有非常优秀的学生,这使得竞赛的难度大大提升了。但这其实是一件很好的事情。因为在这些厉害的团队融入进来之后,他们做出了很多优秀的成果。而这些成果后续会发表成论文,这些论文则会推动目标跟踪领域的发展。那么,我们的学生也能学习到他们的成功经验,并能站在他们的高度继续提升。这可以说是相辅相成的。”
在参加视觉竞赛方面,IIAU实验室非常注重布局。以今年取得三个赛道冠军来举例,卢教授说:“我们希望,所有的赛道都有我们的学生去参与。同时,我们实验室参与竞赛的选手,会由我们的一些非常有经验的年轻老师及博士后来带领,这对学生们的帮助是很显著的。”
卢湖川教授要求每一位参加比赛的学生们在各个赛道都能融会贯通,能够互相借力,从而使得不同赛道能够有共通的地方。如果只做一个赛道,做的人少,那每进一步都会很困难。而IIAU的同学们在不同赛道中做出来的效果,或许也能应用到其他赛道中去。通过这种方式,就体现出了团队的优势。早期参加VOT竞赛时,卢教授团队是以Long-term Challenge为基础,设计了一个检测加跟踪的较好框架,使得算法稳定又快速。此后,IIAU实验室每年都会在原来的基础上,提出新的想法与思路,通过这种方式,才得以蝉联Long-term Challenge冠军。其他赛道也同步发力,通过方方面面的努力,才取得了耀眼的成果。
像VOT这样的视觉竞赛,让我们的学生得到了快速的提升。无论是老生还是新生,都能在参与竞赛的过程中快速掌握视觉跟踪方向的关键技能,同时对于论文工作也有很大的帮助,这一点是很重要的。
在深度学习时代,大家更关注算法的性能,如果性能上不去,大家就会觉得这篇论文或算法还欠缺了许多,而视觉竞赛就特别关注算法的性能。一个好的工作,在视觉竞赛中需要达到一个较高的性能才有可能发表下来,被大家所熟知。那么,从这个角度来说,视觉竞赛对于学生快速迭代、提升基本技能,起到了很好的促进的作用。
其次,当有了视觉竞赛这种刷榜之后,特别是VOT竞赛,我们看到在它不同的赛道出来之后,视觉算法开始更多地向着真正的实用性去发展。之前学术界一直关注的都是Shot-term方向,而VOT则提出了RGB-T、RGB-D和Long-term方向。这些其实都代表着工业界在不同方面的需求。而学术界需要像VOT这类围绕工业界需求所发起的竞赛来作为牵引,使得学术界能够迈向实用。现在有很多工业界的公司,如果他们有某些需求,他们就可以设立相应的竞赛,通过一些实际问题对竞赛进行设定。那么这些竞赛就会牵引着学者们对这些实际问题感兴趣,从而能够让学术界帮助工业界来解决实际的问题。而学者们也能通过这种方式获得很多成就感和灵感启发。因此可以说,视觉竞赛让我们学术届和工业界前所未有的紧密融合,让学生们能够真正的学以致用。从这个角度而言,视觉竞赛的作用是巨大的,它为学生提高综合能力提供了很好的平台和机会。
02
IIAU实验室的成功之路
03
与企业合作共赢
04
上进心是优秀的前提
05
洞察前沿观点
在访谈的最后,卢教授为我们分享了关于他目前主要研究领域,即显著性目标检测和目标跟踪领域目前存在的问题,以及未来发展应用方面,非常有深度的学术观点:
在跟踪方面,目前距离工业界的需求还有很大的差距。而检测相关的技术发展迅速,并受到了学术界和工业界广泛的认可。因此,检测在实际应用方面相对跟踪而言影响力要多一些。实际上检测若和跟踪的结合才应该是完美的解决方案,但是由于跟踪本身的精度、稳定性、包括速度都没有到成熟的阶段,所以导致很多实际问题并不能很好的解决。我们在这一领域研究了很久,就感受到,目前跟踪真正说在哪块有很好的应用,现在还真没有看到。所以说跟踪要迈向实用,还有很大的空间。
而在显著性目标检测方面,目前在一些简单的背景下,效果还可以,但是当背景稍微复杂一些后,我们就发现显著性目标检测表现不佳。再加上现在视频的显著性目标分割的需求越来越大,那么如何保持在视频中得到稳定显著性目标分割,就成为了一个难题,这实际上也是时间连续性的问题。这些都是目前显著性目标检测所存在的一些核心要解决的问题,当这些问题真的解决了之后,那么对于真正的实际应用就会有很多的帮助。
06
学者介绍