未来科技体验馆 03 | 谁才是 AR 技术等待已久的破局者?
AR 简介
今天我们要聊的这个话题,叫做增强现实技术,我们通常会简称它为 AR。
如果用最通俗易懂的话来介绍 AR 技术,那就是通过人工智能和计算机算法,把一些虚拟出来的东西添加到你的真实视野里来。换句话说,AR 可以把你看到的世界变得半真半假,甚至真假难辨。
如果你在听到这期节目之前,还不太了解AR这项技术,你可能会问:看到一个半真半假的世界,对我们的生活有什么帮助呢?哈,这个帮助可太大了!
比如说,我们的手机里都有电子地图,当我们找不到路的时候,电子地图就可以在地面上生成一个箭头,你只要一直跟着箭头走,就可以到达目的地了。
再举个例子,手机里的照相机,就是一个最典型的 AR 应用了。
当我们把照相机对准目标时,我们会看到,相机上的焦点框会自动锁定人脸。
有些相机应用还支持给照片或者视频添加特效,你可以给相机中的人物戴上小丑的红鼻子,或者戴上一个虎头帽。
一些支持手势识别的相机,还可以根据镜头中人物的手势而添加特效,一个双手揉眼睛的手势就能添加眼泪的特效,一个单手比心的手势,就能让你的手指尖上冒出一串串的红心来。
视频里的人物和场景都是真实的,但虎头帽、眼泪和一串串的红心却是虚拟的,所有符合这个特征的应用,都可以叫做 AR。前两年大火的到街上用手机抓怪物的游戏就是一个典型的 AR 游戏。
与 AR 对应的还有一个词是 VR,也就是“虚拟现实”的意思,一般是指让用户沉浸在纯虚拟的环境中。
但是,我想跟大家说,AR 和 VR 从来就没有一条明确的分界线,它们之间的边界是模糊的。AR 和 VR 是我们人为定义出来的,在真实的商业社会中,重要的是满足市场需求,而不是一定要搞清楚自己研发的产品是 AR 还是 VR。
限于本节目篇幅,今天这期节目我们侧重于谈增强现实技术,但可能会涉及到一些 AR 和 VR 的模糊地带,不再特别说明,到底叫什么 R,这个真的不是最重要的。
AR 的发展历程
AR 自从上个世纪 80 年代诞生以来,一直就是一个由市场需求驱动的技术。汽车的驾驶员希望能够不低头就看到仪表盘,士兵希望望远镜能把目标的距离直接显示在望远镜上,所有的这些,都可以用 AR 来完成。
在电影《钢铁侠》中,主角托尼·史塔克总是用手一挥,就能呼叫出几个虚拟窗口或者设计模型,然后凭空操作和拖拉虚拟物体。
在很多描写未来世界的科幻电影中,我们还能看到满街都是 AR 技术的应用:
通往目的地的路线已经被清晰地标注出来
广告牌上只会播放你最近关注的商品信息
与好朋友的视频通话窗口,就悬浮在离你不远的空气中,你不需要举着手机,也能与好朋友随时畅谈……
而所有的这一切,都只有你一个人才能看得到。人们是如此地期待 AR 时代的到来,然而 AR 技术的发展却并没有像预想的那样顺利。
如果你在最近几年认真地关注过AR技术的发展的话,你肯定会注意到一个现象,那就是:
AR 已经好几次被推到风口浪尖上,成为大家公认的新技术趋势,但又好几次默默无闻地淡出了公众的视野。直到现在,AR 最成熟的应用,依然只是那些比较简单的手机应用而已。
2014 年 3 月,Facebook 斥资 20 亿美元收购了一家名为 Oculus 的虚拟现实公司。另外一家名为 MAGIC LEAP 的公司,也在 2014 年 10 月获得了阿里巴巴和谷歌等公司联合投出的 14 亿美元的巨额投资[1]。
国内的虚拟现实产业,投资额也一点不少。
根据《2016中国虚拟现实产业投融资报告》中的数据,2015 到 2016 年两年之中,国内虚拟现实领域投资总额达到了 71.6 亿元,共有 238 家公司获得了融资。融资额最高的企业,获得了 2.3 亿元的高额风险投资[2]。
所以,从投资数量上来看,虚拟现实领域的创业企业,其实一点儿都不缺少资金。AR 技术的飞轮没有顺利转动起来,一定存在着一些与钱无关的因素。
AR 的发展瓶颈
既然 AR 技术从来都不缺少应用场景,又不缺钱,那它的问题到底出在哪里呢?
体验过头戴式AR设备的用户,反馈最多的就是
眩晕
卡顿
看起来虚假
这三个问题,下面我们就来分析一下,这三个问题到底是如何产生的。
高沉浸感的 AR 体验,需要一个专用设备来支持,这就是虚拟现实眼镜。虚拟现实眼镜会给我们的眼睛提供一个 360° 无死角的虚拟视野。无论我们如何运动,都能从眼镜里看到一个与我们的动作相匹配的画面,这就是虚拟现实的“沉浸感”。
那么,虚拟现实眼镜又是如何知道自己是前进了还是后退了,是向左转还是向右转了呢?
这就要谈到虚拟现实眼镜中最重要的一个设备,名叫 IMU,它的中文名称叫做惯性测量单元。IMU 设备好不好,直接影响我们的体验。
比如说,我们的头向左转动了 90° 时,眼镜里看到的画面也必须是转动 90° 应该看到的画面。如果这个运动匹配做得不好,就会让我们感到头晕。
IMU 是一个由多轴陀螺仪、加速度计、磁力计和压力传感器共同组成的复杂传感器系统。
多轴陀螺仪负责感知 IMU 在空间中的方向变化
而磁力计则可以利用相对稳定的地球磁场,来校正陀螺仪在惯性运动过程中产生的偏差
加速度计和压力传感器的配合,就可以实时获得IMU的运动速度根据运动速度和时间,我们就可以计算出IMU发生的空间位移了[3][4]。
IMU 并不是什么很高科技的设备,我们的手机中一般都有一个,成本也就几十元。
当然,IMU 也有高端的。比如,宇宙飞船和火箭上也装有 IMU,这些高精度的 IMU 设备,能帮助一颗导弹跨越几千公里的距离,从发射到击中目标只出现几米的误差。这样高精度的 IMU 设备价格也非常昂贵,往往会达到上百万元。
所以,IMU设备并不存在科学瓶颈,但想要提升它在 AR 上的精度,是需要有大规模的生产和应用作为支持的,只有更大规模的应用,价格才有希望降下来。
AR 技术想要大规模推广,还有一个重大的阻碍,那就是芯片的运算速度。
我们体验到的 AR,本质上是摄像头拍摄外部视频后,再用算法把虚拟物品的影像叠加到视频上,最终生成一个合成的视频流。AR 里面的虚拟物品,全部都是经过渲染的视频特效。
你想想看,摄像头拍摄到的视频画面要经过分析、计算、叠加、渲染,然后再输出,这些都需要在不能让人感觉到延迟的瞬间完成,没有一个强大的芯片支持,那是肯定要出现卡顿现象的。
如果使用者的体验是卡顿的,那又何谈大规模的推广呢?
要想解决这个问题,我们需要的是运算和显示速度都更快,同时也更便宜的计算机芯片。在半导体行业里,有一个著名的摩尔定律。
摩尔定律预言,集成电路上可容纳的元器件数量,每隔 18 个月就会翻一番。从 1980 年到 2010 年的三十年间,摩尔定律一直都是奏效的。我们的计算机芯片也真的以指数级别提升性能。
但是,如果你回忆这几年我们更换手机的历程,你就会发现,我们的手机的确变快了很多,但手机里的芯片核心,也由 1 个变成了 8 个。
硅谷创业教父史蒂夫·布兰科指出:
“严格来说,'摩尔定律’其实在十年前就已经失效,只是消费者没有意识到而已。”[5]
芯片上的元器件已经无法造得更小了,更小的元器件不可避免地会遭遇到量子隧穿效应的影响。换句话说,在芯片制造领域,我们已经触及到了科学原理的瓶颈。
晶体管的数量和运用晶体管的方法共同决定了芯片的计算能力。既然晶体管已经不能造得更小,那么想办法把同样数量的晶体管用得更有效率,就成了关键。因此,史蒂夫·布兰科才会说:
“现在每一块芯片上都排列着几十亿个晶体管,如何重新设计算法,创造性的利用这些晶体管,才是整个行业的重点。”[6]
比如说,最新款的华为 Mate30 手机搭载的麒麟 990 芯片,就带着
一个 8 核心的中央处理器,
一个 16 核心的图形处理器,
一个专门处理多任务
及多媒体信息的双核心神经网络处理器。
这样的配置,哪里是一个芯片,这简直就是一个数据处理中心了。
因此,AR 一直没有发展起来,用技术飞轮的工具来分析,原因就是 AR 技术最刚需的那部分需求一直被科学原理的瓶颈锁死了。
没有更强大的芯片,AR 就实现不了良好的沉浸体验,没有良好的体验,就无法满足市场需求,就无法大规模应用,产生不了巨大的经济效益,就不足以撬动半导体行业针对性地重新设计性能更优化的芯片。
这是一个死循环,也是 AR 到现在也没能大规模商业应用的原因所在。
这个局能不能破呢?答案是肯定的,破局者就是 5G。
5G 是如何推动飞轮的?
2019 年被称为 5G 商用元年,在 5G 技术的推动之下,虚拟现实技术再一次从幕后走到了台前,成为投资者们争相追捧的领域。腾讯掌门人马化腾也在世界互联网大会上表示:
5G 为虚拟现实技术的大规模商用提供了必要的基础条件,腾讯也将为微信提供虚拟现实功能。
5G 的到来,是否会让 AR 技术的热潮一直持续下去,直到走进千家万户呢?我们不妨再次拿起技术飞轮,一起来分析一下。
全景视频阶段
我们先来说一个可能会被很多人忽视或者轻视的,技术含量不高的边缘应用,叫做全景视频。这种视频就是把你视野范围内的所有方向全部无死角地拍摄下来。
严格来说,全景视频并不算是 AR 技术,因为在全景视频里,并没有任何虚拟的东西被合成进去。但是,你可别小看了它,它很可能成为一根撬动整个虚拟现实产业的杠杆。我给你讲讲这其中的道理。
全景视频想要实现高度的沉浸感,就必须实现 5K×5K 的分辨率,这种分辨率的视频文件,相当于 20 台 1280×1024 分辨率的显示器加起来的像素点数。
超高清的画质可以带来身临其境的沉浸体验,但是随之而来的代价也很高,那就是全景视频中的每一帧,都有高达 78MB 的数据量,即便进行较好编码压缩之后,也需要大约 40M 的带宽才能够流畅地播放,这远远超过了当前 4G 网络的承载能力。
在 5G 时代到来之后,全景视频将是第一个被解锁的 AR 周边应用。因为不需要提前下载,那么全景视频也将走进直播时代。到时候,体育比赛、演唱会、娱乐节目现场以及联欢晚会都会开展全景直播业务。
想想看,在未来某一年春节联欢晚会的时候,热情的主持人可能会这样说:
“电视机前的观众朋友们,现在用虚拟现实眼镜扫描屏幕下方的二维码,就可以做客我们的虚拟直播间,体验一下亲临现场的感受。”
那时候,我们不仅可以身临其境地坐在观众席上观看演出,还能随时把镜头切换到舞台视角、主持人视角甚至高空鸟瞰视角,这样的感受,简直是想一想都会觉得过瘾啊。如果你觉得看春晚没意思,那就想一想去选美大赛的现场吧。够你大饱眼福的了。
全景视频、全景直播以及虚拟演播厅,这是刚需,5G 基础建设的完成将成为满足刚需的先决条件。
如此一来,技术飞轮的市场需求问题就被破局了。而这件事情我预测会在未来的 5-8 年之间蓬勃发展。
虚拟现实眼镜普及
全景视频的需求会推动虚拟现实眼镜的大规模应用,而眼镜的需求又可以直接推动芯片技术的发展。很快,就会有专门为虚拟现实眼镜设计的芯片推出来,而芯片的价格,也会像大家期待的一样大幅度地跳水。
强大的芯片可以支持 AR 技术对现场传来的全景视频进行深度加工。与此同时,高端 IMU 设备也将随之降价,虚拟现实眼镜的运动感应水平将会有指数级的提升。
5G 网络的低延时特性也得到了充分发挥。人们可以带着虚拟现实眼镜随意移动,也不再会有头晕的不良感受了。
这一阶段,必然会有大量让人脑洞大开的 AR 应用出现在我们的生活中。我来举一些例子,这些例子只是我现在用很短的时间想到的,也有可能是伪需求,但我这只是抛砖引玉,一两个伪需求不能掩盖所有的真需求。比如,
你可以在购买商品之前,就先把商品摆到桌面上,360°无死角地欣赏一下,以后再也没有“没有想象的那么大”这种尴尬的商品评价了。这个例子是我刚刚参加完一个 AR 产业论坛上,看到国内某知名电商品牌的 AR 事业部所展示的应用,不是我凭空想出来的。
逛动物园的时候,戴上 AR 眼镜,你会看到,三叶虫们在纯净的水中自由游弋,侏罗纪的巨兽也会成群结队地从你身边走过。只要你挥一挥手,你的眼前就会浮现出这些古生物的介绍,耳边则会想起讲解员悦耳的声音。
每一片空旷的地方都有可能成为 AR 的舞台,
你的书桌
你的客厅地板
你的小区广场
以及中心花园的绿地……
至于什么奇迹会发生在这里,就全凭 AR 设计师们的想象了。节假日的天空中,将会再次绽放起绚丽的焰火,春节的楼底下,也会再次响起鞭炮声。只要我们想得到的,就没有什么体验不到。
虚拟现实眼镜也会逐渐变得更轻巧、耗电也更低。它们看起来将越来越接近一个真正眼镜的大小,可以随时带在身边,依靠你的手机供电。这个时代,大约会在 10 到 15 年之间蓬勃发展。
说到这里,你可能会以为,是不是这就是 AR 技术的终极形态了呢?如果你这么想,那可就太小看 AR 技术了。AR技术还有一个超级大招没有放出来呢。
终极形态:遮挡问题解决
大家可以回想一下刚刚我们说过的应用,每一个都是那么绚丽多彩,但你有没有觉得缺了点儿什么?没错,就是对 AR 中虚拟物品的掌控感。这也是当前的 AR 技术需要面对的最大挑战。
当我们站在窗前眺望远方时,我们的双眼能够精确地辨识出来,窗框和玻璃距离我们最近,窗前的树木比窗框要远一些,再远一些的地方是楼群,楼群的后面,则是蓝天白云和天上的太阳。这就是立体视觉。
AR 如果想要做到逼真,也是需要立体视觉的。当一只巨大的恐龙出现在体育场的中央时,虚拟现实眼镜必须清楚,虚拟恐龙脚下的地面,它的空间结构是怎样的。
如果对视野中的空间结构解析得不准确,就会出现恐龙的脚落不到地面的情况,这会让我们感觉眼前的 AR 影像不真实,从而产生强烈的跳出感。
另一个更加困难的挑战叫做遮挡问题。
假如我们伸出手,想要摸一摸眼前的这只恐龙,由于恐龙是叠加在视频上层的,那么一伸手就会发现,我们的手竟然被距离更远的恐龙遮住了。这一下子就会让人产生虚假感。要想让手遮住恐龙,唯一的办法,就是要让 AR 引擎通过空间识别找到我们的手,并且把被手遮住的这部分恐龙身体从画面上抹掉。
在众多的解决方案中,一种叫做双眼立体视觉的技术是目前效果最佳的。AR 引擎会通过比对 2 个摄像头之间的视角差,来判断画面中物体的远近。这与我们人眼立体视觉的原理是一模一样的。
但是,这个技术现在遇到的困难是,识别出来的物体轮廓分辨率不高。如果应用到 AR 上,就会看到手周围的轮廓总是存在很多的马赛克。如果我们在 AR 中看到我们自己粗糙的手臂抚摸着清晰度极高的恐龙皮肤,那画面一定会是非常违和的。
不过,现在这项技术已经找到了一些突破口,比如
通过人工智能专门对手臂这类经常会遮挡住虚拟物体的东西进行深度学习和优化。
还可以根据空间经验对当前所处的空间结构进行预判。
我们还可以通过发射红外线对距离不太远的物体进行主动探测,然后根据红外线返回时间的不同,来比较精确地识别物体的轮廓。
一旦遮挡算法出现重大突破,就像打开了一扇新的大门,AR 技术也会随之再上一个大台阶。
首先,钢铁侠中随手操纵虚拟物品的功能可以得到实现。
我们还可以戴上虚拟现实手套,让我们的手指尖感觉到摸到虚拟物品的真实触感。
我们可以像在电脑上一样,把眼前的虚拟物品放大和缩小。
产品设计师可能会彻底摆脱电脑,在 AR 软件中完成产品设计。
而艺术家很可能会在空间中完成他们的新作。
遮挡问题解决后,AR 游戏也会更加丰富。游戏中的小精灵可能会在你的书桌上跟你玩儿捉迷藏,它很可能会钻进你的书包里,等你来找它。
这个阶段的 AR 电商,完全可以让虚拟的行李箱出现在屋子里,让你推来推去,试试看能不能塞进床底下。你可以在购买前就无限期地试穿,为了效果好,最好是尽量还原穿衣前的真实体态。当然,如果被以假乱真到穿着虚拟的时装出门的话,那可是要上演真实版的《皇帝的新衣》了。
我相信,这个终极形态的 AR 技术也不会离我们很远,我预测最多 20 年的时间,它就会来临。当然,请记住,所有的变化都不是一夜之间的,都会有一个逐步普及的过程。
我相信正在听节目的你,肯定能赶得上这个亦真亦幻、绚丽多彩的新时代。
讲到这里,想到一本科幻小说,对即将到来的 AR 时代有着非常生动的描写,作者是大神级的科幻小说家弗诺·文奇,他 2006 年写了部科幻长篇小说《彩虹尽头》,获得 2007 年的雨果奖。
文奇本身就是个计算机科学家,所以,他在小说中描写的大量人机交互的细节完全可以当作 IT 公司的研发人员的设计参考,如果我的听众中有 AR 或者 VR 的从业人员,我强烈建议你去读一下《彩虹尽头》这本书,或许会对你的工作产生价值。
好,这就是本期的未来科技体验馆。
下一期,我将跟你探讨一个或许会让你悲观,也或许会让你兴奋的话题,那就是,在未来的人工智能时代,我们到底是会失业还是获得解放?
更多推荐
太阳系新知 12 | 水星身世之谜
太阳系新知 13 | 嫦娥四号为什么要在月球背面找橄榄石?
生活科普 | 蓝光是否会对眼睛造成伤害?
生活科普 | 益生菌真的能治疗便秘吗?
硬核科普 | 湍流是如何产生的?
硬核科普 | 轮回转世现象存在吗?
未来科技体验馆 01 | 密码、刷脸、皮下芯片,未来金融业的身份认证会走向何方?
未来科技体验馆 02 | 5G 生活将从什么时候真正到来?
微信开屏画面从这里诞生
地外文明题材的巅峰之作 -《接触》(上)
为什么光速极限不需要加“人类已知”的定语?
汪诘作品《太阳系新知》第一集片段抢鲜看
真的看完了?点了才算数