童心未泯的 YOLO 之父,小马哥 Joseph Redmon 笑傲 CV 江湖记
在这个六一儿童节,我们将为大家介绍一位这样的计算机视觉大牛:留着大胡子却怀揣着少女心,技术超神却依然童心未泯——他就是YOLO之父,一位或许现在正在过着儿童节的计算机视觉开发者。
一年了,大家还记得那位退隐CV江湖的YOLO之父“小马哥”吗?
可能搞目标检测的,或者说搞计算机视觉的,都知道一个叫YOLO的系列工作。YOLO是You Only Look Once的缩写,即“你只需要看一次”。
YOLO可以说是计算机视觉领域最知名的目标检测算法之一,它是用来找出图像中人们感兴趣的目标,并确定其大小、位置和类别,很多日常生活中的常见任务都离不开这种算法。
作为开创one-stage检测的先河,纵然YOLO算法在学术界可能不如RCNN等系列算法那样引人注目,但是在工业界,YOLO的名头可是响当当的。毕竟,每次YOLO更新,都会迎来一大波公司更新自家算法的热潮。
在这个六一儿童节,我们将带领大家走进YOLO的作者:Joseph Redmon,一位经常让自己家的狗和自己一起出镜,可能你去美国滑雪的话还能偶遇的“看不出是大神的大神”。人是真的低调,但技术也是真的硬核。
明明长了络腮胡,确有一颗少女心
图注: “鬼马精灵”Joseph Redmon的简历
图注: Joseph Redmon的小马
结束这些工作之后,小马哥前往华盛顿大学攻读博士学位,他的大神之路,也就正式开始了。
一路开挂的YOLO系列
2013年开启华盛顿大学求学生涯,Joseph Redmon 跟随 Allen School 教授 Ali Farhadi 从事计算机视觉研究。
在2016年,他提出了他至今以来最有名的个人项目:《You Only Look Once: Unified, Real-Time Object Detection》。这篇论文也发表在CVPR2016上,并获得了 CVPR 2016的“OpenCV People's Choice Award”奖项——也就CVPR最佳人气奖,由此可见大家对于YOLO这一算法的追捧与喜爱。
小马哥也就是从这里开始,如脱缰的野马,一发不可收拾。每年推出一个YOLO新版本,一代比一代强。
在当时,主流的目标检测算法是基于Region Proposal的R-CNN系算法,这类算法在包含实例分割、目标检测等多个计算机视觉任务上都表现优异。但它们通常存在一个问题,就是速度较慢。对比之下,YOLO让当时的技术实现了一个十分重要的突破:one-stage,即“你只需要浏览一次(You Only Look Once)”,就能一步到位地完成目标定位和目标识别。
R-CNN系算法是two-stage的,因而需要将目标检测分解为两个问题,即分类和回归分别求解,而YOLO则将目标检测作为一个回归问题进行求解。由于 YOLO 只使用单个网络,因此可以在检测性能上直接对其进行端到端的优化,这使得基础的YOLO模型实时处理图像的速度能达到每秒45帧。
2017年,Joseph Redmon与导师合著,发表了论文《YOLO9000: Better, Faster, Stronger》,也就是YOLOv2。这篇论文获得了CVPR 2017 最佳论文荣誉提名奖(Best Paper Honorable Mention),与最佳论文仅一步之遥。
要知道,CVPR是计算机视觉领域最受关注的顶会之一。出道仅4年,小马哥的工作就被提名了最佳论文,这就相当于一位初出茅庐的青年导演被提名奥斯卡的最佳影片一样啊。
相对于第一个版本,YOLOv2在继续保持处理速度的基础上,实现了更准确的预测、更快的速度以及更多的识别对象这三大改进,YOLOv2能够检测9000种不同对象,因此也将其称之为YOLO9000。
如果说前两篇还只是正常发挥,那么在2018年提出的YOLOv3,绝对能算的上是惊艳之作。这篇论文,从改进思路到行文风格,一看就知道它是出自Joseph Redmon之笔。
虽然Joseph Redmon在论文开篇说:“有时,你一整年都在敷衍了事却不自知。比如今年我就没做什么研究,而是在推特上挥霍光阴,置 GANs 于不顾。但凭着上年余留的一点动力,我对 YOLO 做了一些成功的升级。实话说,没什么特别有趣的东西,只不过是些小修小补。同时我对其他人的研究也做出了少许贡献。”
大家看了是不是想说:既然没做啥,你说这么多干嘛?如果这样想,你就too young too naive啦,大神只是谦虚一下而已。这次YOLOv3的提出,解决了一个非常重要的问题——针对YOLO在小目标检测上的性能不够强大做出了改进。此外,这一新版本不仅保持了 YOLO 的一贯的速度优势,同时提升了模型精度,针对小目标检测以及重叠遮挡目标的识别短板进行了补齐,一跃成为了当时速度和精度均衡性能最强的目标检测网络。
2018年,凭借在“创造更快、更好、更有用的计算机视觉应用工具”方面的贡献,Joseph Redmon还获得了2018年度谷歌博士奖学金,当年全球仅有的39名获奖者。小马哥的技术,又一次得到了学界的认可。
插曲:此前,小马哥曾在艾伦人工智能研究所实习,这家研究所孵化出了初创公司 XNOR.ai,创建者之一是他的导师Ali Farhadi,也是YOLO的合著者。小马哥参与了XNOR-Net 的开发工作。Xnor.ai作为为数不多的专注于在边缘提供AI功能的创业公司,2019年被评选为美国50家最有前途的人工智能公司之一。2020年1月,XNOR.ai被苹果收购,交易金额或高达 2 亿美元。因此,小马哥已经成功地实现从技术YOLO(you only look once)到人生YOLO(you only live once)的转变。
小马哥的隐退
视频:Joseph Redmon的TED演讲
YOLO大旗没有倒下