超能课堂(143):起底3D面部识别技术,“Face ID”们区别在哪?
2017年9月,苹果发布了十年纪念之作iPhone X手机,以“刘海屏”设计、Face ID人面识别技术再一次改变世界手机设计标杆,由于异形刘海屏的仿制难度不大,各家手机厂商很快就完成相关产品推出,但对于苹果拥有核心技术、数年时间研发的Face ID就一筹莫展,Android阵营直到9个月后的才陆陆续续拿出相关技术的期货手机(小米8探索版、OPPO Find X),那么他们之间到底是不是一样的吗?有何异同?
面部识别技术,是基于人的脸部特征信息进行身份识别的一种生物识别技术。利用摄像头采集人面部图像或者是视频,通过提取其中的关于面部图像特征,与数据库中存储的特征模板进行搜索匹配,当相似度超过设定阈值就会输出匹配成功,反之输出匹配失败结果。
因此目前的面部识别技术原理上都是大同小异,万变不离其宗的,只不过是在面部信息数据采集方案有所不一样,有的利用算法模拟出面部特征点三维关系,有的是直接采集面部深度数据。因此按照采集面部数据异同,3D深度相机大概有有以下三种主流方案:双目视觉、结构光和TOF飞行时间法。
双目视觉 Stereo
其实这个很好理解,它是目前机器视觉的重要形式,仿照人类眼睛的构造,利用两个镜头的视觉差模拟人眼能够获取到的3D深度数据,两幅不同视觉的图像,计算其中对应点之间的位置偏差,即可获得物体的三维几何信息。
一般方案会采用被动双目,优点在于不需要额外的光源,利用一切自然光就能使用,缺点就是到了暗处或者夜间,被动双目就抓瞎了,因此后续研究人员开发出利用红外光作为照明光源的主动双目,这样晚上也能使用。
小米8,商汤科技,红外人脸识别(基于2D,非3D)
由于双目视觉仅仅是依靠图像进行特征匹配,使用普通摄像头即可,硬件附加设备要求非常低,成本也很低,虽然计算量比较大,但是对于目前SoC都能够胜任,也是三种方案中计算量最少的。而且只要能够保证光源强度,室内外都能够使用,适用性非常好。
双目视觉的缺点也很明显,对于环境光照非常敏感,光线差异会导致图像偏差很大,导致匹配失败或者是精度过低;识别场景中有复杂背景可能会导致面部识别失败;而且后续有安全专家表示,可以利用较为精细的3D打印面部模具欺诈通过识别,安全性依然是个大问题。
目前利用双目视觉方案获取3D深度信息的代表有,Leap Motion、大疆无人机。
接下来要介绍的结构光以及TOF两个方案,就不得不提到微软大佬,因为其XBOX上动作采集设备Kinect正正是采用了这两项技术的代表,但显然是“起了个大早,赶了个晚集”。第一版Kinect所谓的深度传感器,其实就是采用结构光方案,对光进行编码,投射到人身上,读取投射的红外线形状,透过计算变形量来取得深度信息。技术提供方是以色列的PrimeSense公司,然后在2013年就被苹果公司买下来,做成Face ID。
投
射红外线pattern的IR Projector(左)和IR Camera(右)
结构光 Structured Light
通过近红外激光器发射具有一定结构特征的光线后,经过人脸反射,形变之后的图案被红外图像传感器所接收。由于原始光线在被摄物体的不同深度区域被反射,采集后生成的图像相对原始光线结构发生变化,通过运算单元将这种结构的变化换算成深度信息,然后两颗图像传感器的信息再汇总至专用的图像处理芯片,利用三角原理计算从而得到拍摄物体的三维结构。
而根据编码图案不同一般有条纹结构光、编码结构光、散斑结构光三种不同方案。下面我们会以具体手机所采用的方案进行介绍。
苹果iPhone X(Prime Sense,散斑结构光)
因为整体技术解决方案较为成熟,移动端的3D结构光技术主要以苹果的3D散斑结构光为主。同时苹果较早收购了提供该技术公司以色列公司Primesense,相关的专利技术掌握在其手中。
根据Prime Sense在专利中的描述,红外激光生成器射出激光束,通过光学衍射元件DOE(Diffractive Optical Elements)进行衍射(这个在iPhone X就是点阵投影器),进而得到所需的散斑图案。这些散斑具有高度的随机性,而且会随着距离的不同而变换图案。只要在空间中打上这样的结构光,相当于空间已经被细分,每个区域都做了标记,只要你的人脸进入了这个空间,利用红外镜头把空间的散斑图案记录下来,与之前光源基准标定进行对比计算,就能获取到当前物体与手机的具体距离,从而知道深度信息。
点阵投影器,图片来自上海微技术工业研究院
3D结构光最大优势在低光照下也可以使用,而且包含深度信息的图像分辨率可以做到很高,安全性可以通过提高光点数目,创建更加精细的毫米级3D面部模型达成,在可靠性上非常有优势,比如iPhone X可以打出3万点散斑。
但也正是数据量大幅度增加,需要配合高性能处理器进行编解码,因此苹果专门对iPhone X的A11处理器进行过AI训练处理,专门用于加速面部信息处理。此外用过iPhone X的人都知道另一个缺点,就是距离不能太近(基线大),需要有一段距离才能正确设备,这个与衍射光点的结构模块有关;距离太远的话,精度也会随之变差;在室外遇到强光也可能影响到红外摄像头采集散斑效果,导致匹配解锁失败。
OPPO Find X(奥比中光,散斑结构光)
OPPO Find X同样是采用了结构光方案,他们自家称之为O-Face,技术供应方是来自中国的奥比中光,是国内目前唯一量产出手机可用的3D结构光模块厂商,前不久才刚刚完成了蚂蚁金服领投的超两亿美金的D轮融资,研发实力相当强劲。
尽管OPPO Find X只能投射出1.5万个散斑,只有iPhone X方案的一半,但依靠外挂Secure Enclave安全区域芯片,率先完成了Android手机的Face ID移动支付功能,这个非常重要。“Face ID”如果不能用于移动支付,仅仅是作为解锁手机的功能,这个就让人很纳闷,大几千的手机都不支持生物识别技术支付,还不如指纹识别,开倒车?
其实这个事情或许需要两面看,Face ID类在移动支付是新尝试,银行、移动支付机构需要时间验证其安全性,涉及到钱银上都是万分小心的,只有当技术、安全达到要求,厂商、银行、第三方软件开发商才会敢采用。
小米8探索版(Mantis Vision,编码结构光)
小米8探索版是在小米8红外人脸识别方案的基础上,加入了点阵投影器以获取人脸3D深度信息。发布会上说可以打出3.3万个光点,一开始以为和苹果iPhone X一样,但其实他们光点有着本质不同,小米8探索版采用的是以色列公司Mantis Vision的方案,他们是编码结构光的代表,与Prime Sense散斑结构光不同,他们的打出来的光点是经过编码的光斑(不需要DOE衍射结构),就像下图所示那样,这样做的好处在于能够减少3D信息计算量,降低结构光算法功耗。也就是说,不用像苹果那样,专门训练过一个神经网络来处理这部分数据,计算难度大大下降。
不过目前你会发现小米8探索版似乎还不支持移动支付,这可能要归咎于Android系统上混乱的生物认证API,大家各造各的,统一不起来,Google已经意识到这个问题,已经在Android P中新增专门用于生物识别技术的统一API——BiometricPrompt API,打造更加完善的生态系统;其次Android手机中可能需要额外增加用于存储巨量面部数据的Secure Enclave安全区域芯片,因为数据的比对要在SE内部完成,否则存在数据泄露风险,目前指纹方案是在TE模块上实现,两者不同,苹果更是直接在A11芯片上集成SE模块,可靠性更高。但不排除小米8探索版是没有完工,适配工作还在继续,别忘了探索版可是还有屏下指纹识别哦,这也是可以充当移动支付的手段,而那个“Face ID”只能用于解锁手机啦。
从市面上三家手机厂商推出的3D结构光方案,可以看出Face ID已经成为未来手机生物识别主流技术方案。据相关机构统计,3D成像和传感器件市场的复合年增长率为37.7%,2022年将达到90亿美元。但是由于核心技术被全球少数公司垄断,除了苹果收购的Primesense外,还有Intel、MantisVision,而国内能够量产的只有奥比中光一家。
同时由于结构光需要投射固定/可编程的光点,因此需要特殊的DOE衍射结构器件,这个也是目前业界量产难题,不仅做得供应商少,而且有能力做好的无非就意法半导体、德州仪器、英飞凌这几家。产能极少,满足不了手机庞大市场,只能是少部分高端手机采用,同时成本上依然是非常高昂。
猜猜这是谁家的方案?很厉害的哦
光飞行时间法 Time of Fight
可能是第一版Kinect被消费者诟病太多,结构光技术存在有效深度信息少、baseline(基线)大、工作距离短、量产难度大等挑战。微软很快就放弃,转投TOF阵营,2014年发布的第二代Kinect就是采用TOF(Time of Flight)方案来获取深度信息图像。
C
olor Camera旁边是红外线Camera(左)和投射脉冲变调红外线的Porjector(右)
顾名思义,飞行时间法就是计算传感器发出经调制的近红外光,遇物体后反射,传感器通过计算光线发射和反射时间差或相位差,来换算被拍摄景物的距离,以产生深度信息。
TOF并非基于特征匹配,结构光和双目视觉来说受环境影响最小的技术,这样在测试距离变远时,精度也不会下降很快,而且响应速度快,如果不是计算相位差方案,计算量不算太多。
Vivo TOF 3D超感应技术
而中国手机厂商成为了新技术探索的先行者,vivo前不久发布了“TOF 3D超感应技术”,这个就是TOF方案的应用在手机上的体现。
据vivo介绍,TOF具备有效深度信息高、工作距离远、结构布局灵活、应用场景丰富等优势。通过发射近红外光,传感器计算红外光与目标的触达返回时间差,从而实现立体视觉。相比结构光技术,vivo TOF 3D超感应的有效深度信息点高达30万,为结构光技术的10倍。同时将有效工作距离提升到3米,是结构光的3倍。
Vivo还提到了ToF 3D成像技术还可以做到屏下,这样就可以抛弃大家不待见的刘海屏,让手机真正进入全面屏时代。当然,现在一时半会还做不到,这个要和屏幕供应商密切合作才能够量产。
TOF又有优点,固然也有缺陷的地方,TOF对于设备要求非常高,特别是时间测量模块,毕竟光速一秒299792458米,要区分你面部几毫米细节,就需要对测量模块精度提出了全新要求。如果采用了相位差方式,又需要多次采样进行积分,造成运算量巨大,消耗资源多。
深度相机的另类应用
既然能够获取人面部的深度信息,那是不是可以像好莱坞特效电影那样,在人物模型上套上别的皮肤呢?是的,完全可以,因此我们才会看到像Animoji、AR Emoji、米萌这类型可爱的动话表情。
更
进一步的话,可以建立起人体模型,什么3D试衣、体感游戏、AI修图等等都是非常有潜力的应用哦。
现在几百块的手机都能有指纹识别功能,而且速度还贼快,和高端机型根本做不出区别来。因此手机厂商都煞费苦心地研究什么屏下指纹识别、面部识别技术,而其中3D结构光、TOF已经逐渐成熟,并且可以小型化,集成于手机上,未来我们肯定可以看到更多采用这类方案的面部生物识别的手机。
附三种方案对比,由方正证券研究所提供