车载双目摄像头,为什么特斯拉还在迟疑?
本文来源:智车科技、作者:刘洪
/ 导读 /
埃隆·马斯克一直在诟病激光雷达的成本,现在激光雷达便宜的竞争者来了,他应该点赞哦。不过,特斯拉至今没有搭载,咋的了?
埃隆·马斯克的特斯拉打死也不搭载激光雷达(LiDAR)自有其道理,但也没能找到让尚处于自动驾驶起步阶段的车辆发现未经机器学习训练的庞然大物的方法,以至于因“视而不见”而事故不断,当然,无端突然加速又是另外一回事了。
事实上,近年来马斯克爱用的摄像头方案已有了新的进展,引起了主机厂和Tier 1极大的关注和采用,它就是立体视觉(StereoVision)技术,也有人叫它3D感测或双目摄像头,当然还有多目摄像头。今天就来聊聊这个双目摄像头的一些事儿。
特斯拉黑客的发现
谈到一种技术,人们总要看电动汽车的领头羊特斯拉是怎么做的,双目摄像头自然也不能例外。
最近,特斯拉黑客@greentheonly在Autopilot代码中观察到Tesla Semi卡车的10个摄像头设置,发现了Semi可能会安装10个摄像头的提示。他说:“Semi的第十个摄像头被列为“右中继器(Repeater)2”,这是相当有趣的,在Class 8卡车位于中央驾驶位置。车辆控制器‘HW3.2’也提到了Semi的10个摄像头设置。所以只有一个右中继器是不够的。”不过,上述发现没有涉及双目立体视觉之类的摄像头。
此前,Model 3车主Erik J. Martin曾路遇一辆路测的Semi原型车,它配备了26个摄像头。特斯拉工程师当时表示,量产版Semi车型不会配备那么多摄像头。那么,除了Green发现的10个摄像头,另外16个又是什么样的摄像头呢?
其实,早在2016年,在Model S上测试的特斯拉Autopilot 2.0硬件就可能有“某种双目镜头相机,在驾驶员一侧有一个吸盘支架,看起来像一副小望远镜。支架下面是一个非常大的中心镜头,看起来很像警车的行车记录仪。”驾驶员侧的大镜头是一个较小的单元,看起来像是面对路边。这些附加摄像头都没有成为Model S或Model X当前Autopilot传感器套件的一部分。为什么?最后会分析。
特斯拉Autopilot 2.0硬件曾有双目摄像头
地主家有没有余粮啊
就目前来说,特斯拉只能算新能源领域的豪车,尚无法与传统意义上的豪车相提并论。看看那些典型豪华车:奔驰S级和E级、宝马7系和5系、雷克萨斯LS系列、路虎Discovery Sport SUV、捷豹XFL、XE,都搭载了双目摄像头。
双目摄像头已上路
目前,全球主要双目系统供应商有德国大陆、博世、韩国LG、日本日立和日本电装,国内也有中科慧眼等双目相机头部企业,这些厂商的主要工作是使双目相机能够具备较好的障碍物分类能力。
两个“眼睛”的双目摄像头
那真正的豪华车为什么与“新贵”一样不使用测距很精确,视角也很大,覆盖面更广的LiDAR呢?最主要的原因还是成本太高,豪华车也不能不计成本呀!
“现在,L4自动驾驶所需64线LiDAR的成本约为8-10万美元,而在改装第一代自动驾驶时大概花了两百万人民币。”一位业内人士透露。其中,LiDAR是公认最花钱的地方之一。分辨率底很多的16线LiDAR也要约4千美元。一些初创公司如Oryx Vision、Oryx Vision、Quanergy都在研发替代旋转式LiDAR的全固态LiDAR,但是,即使这样,后者的价格还是在近千美元,况且成熟度有待考量。性能好的LiDAR与双目摄像头相比不相上下,而价格却一个是“很高”,另一个是“中等”。
Innoviz联合创始人兼CEO Omer Keilaf也承认:“针对L3自动驾驶,主机厂通常只愿意为LiDAR付1000美元;对于L2车型,他们只愿付400到500美元。”面对激烈的市场竞争,哪家主机厂会不计成本为车辆增加更多功能呢?
实锤还要看性能
现代汽车中使用的各种传感器都是为了安全相关的感测目的,其实并无优劣之分,各有各的用处。自动驾驶车辆通常部署多个传感器系统用于环境感知,LiDAR、雷达和摄像头模块最受欢迎。这些传感器系统协同工作,提供对外部世界车辆、行人、骑自行车的人、标志等的综合表示,其重叠功能也会产生冗余,确保在一个系统出现故障时,另一个系统会填补这一空白。来看看三种方案的对比。
·雷达:是大多数汽车传感器套件的一个组成部分,也是一种成本相对较低、可靠且经过时间考验的技术,能够在合理距离内探测到较大的物体,并且在弱光和恶劣天气情况下表现良好,这也是其在汽车领域的强大优势。然而,由于很难探测到较小的物体并识别已探测到的物体,因此雷达只是解决方案的一个组成部分,即主要感测方式(LiDAR或摄像头)的重要补充。
·LiDAR:通过测量激光信号从物体上返回到本地传感器所需的时间来测量距离。它使用与声纳相似的原理,通过发射激光脉冲并测量这些信号从物体上弹回接收器所需的时间来确定车辆与环境之间的距离。
·双目摄像头:成对儿使用的摄像头(即立体视觉)也可提供距离估计,它基于从相邻的两个视角(即两个摄像头)获取同一环境的两幅独立图像来估计距离,是视觉信息的三角测量结果。下图显示了双目摄像头的简单原理。
利用两个摄像头视差变化精准判断距离
与人类双眼成像原理相同,利用左相机和右相机同步对场景进行成像,近处物体在左右眼之间的位置变化比较大,而远处的物体在左右眼中的位置差异较小。这就是视差,坐标系中的每一点距立体相机的距离都可以通过视差来转化。
由于立体摄像头有两个“眼睛”,能够利用一个摄像头拍摄的图像中的差异来检测每种类型的障碍物,从掉在道路上的物品到人、动物和道路边界,并可以确定它们的大小和到它们的距离,实现物体、车辆和行人检测。LiDAR与双目摄像头的优缺点在下表中一目了然。
LiDAR与双目摄像头的优缺点
比起LiDAR,双目摄像头最大的优势是成本,价格在几千元人民币。另外就是不用裸露在车外,维护成本低。此外,与成为豪华车首选的双目摄像头相比,LiDAR车载功能单一,无法识别颜色(刹车灯)。双目摄像头不仅能精确测量距离,还可以识别刹车灯、车道线、路旁交通标志等。
中科慧眼COO孟然表示:“随着更高等级自动驾驶系统的技术成熟和市场应用,双目天然的测量精度优势,加上干扰较少,可以使其在未来的发展中生命周期更长。
立体视觉算法结合立体摄像头的实时高精度深度图(冷色调表示远,暖色调表示近)
特斯拉还是“比目鱼”
我们人类闭着一只眼也能感受到深度,因为视野中包含了很多深度相关的语义线索,例如物体大小、消失点等;自然界中还真存在依靠单目感知的生物,例如比目鱼。其实比目鱼也是双目,只不过两眼离得很近罢了。
特斯拉有点像它,那为什么它敢以目前的单目摄像头为主传感器呢?因为单目成本最低,所以才把重点放在单目上。之所以敢用,是因为它用实践证明了单目可行和好用。
众所周知,目前主流摄像头只能提供2D图像信息,缺少深度。使用摄像头作主传感器的主要难点就在于深度恢复。而自动驾驶的路径规划需要有3D道路信息和3D障碍物信息。如果摄像头想成为主传感器,就必须能够提供准确的深度感知。从特斯拉公开的资料看,其深度恢复做的相当好,为感知、定位和规划提供了坚实的基础。不过,这样做必须让系统训练有素,虽然它有海量数据可以用来训练深度模型,但实际上仍无法保证能正确处理所有场景。所以,一旦出现深度预测失准,出现训练的“漏网之鱼”,就会错误估计道路环境和障碍物位置,可能车毁人亡。
事实上,LiDAR和HDMap(高精地图)都可以可以作为额外的安全保障,但为了宽慰消费者和投资者,马斯克必须控制成本,抛弃LiDAR的理由主要是太贵。马斯克还有虚晃的一枪:2020年底就实现完全自动驾驶,但遇到实操时却说:Autopilot只能作为L2使用,出了事故还是用户背锅。2020年9月,加拿大一车主就被这漂亮的甩锅砸中,因“滥用”Autopilot超速而受到犯罪指控。
被指控车辆貌似“无人”驾驶
特斯拉还玩不转立体视觉?
摄像头越用越多,怎么选择?特斯拉任何车型至今没有搭载双目摄像头,这一直是个谜。
使用单目摄像头获得距离信息,必须先识别目标。而双目摄像头需要对每一个像素点进行立体匹配,需要超大运算量,但算法简单,适合用FPGA来完成,佐思产研研究总监周彦武认为:“FPGA不是特斯拉这种小厂能玩得转的。”
2020年4月,特斯拉收购了一家专注于开发计算机视觉技术的初创公司DeepScale,以提高其算法能力。特斯拉的深度学习网络HydraNet包含48个不同的神经网络,每个时间步输出1000个不同的张量(tensor)即预测;理论上,HydraNet可以同时检测1000个物体。
同时,特斯拉还发布了自主研发设计的芯片Tesla FSD,作为一款FPGA芯片,它集成了60亿个晶体管和2.5亿个逻辑门,每颗处理器内部有多达12个ARM A72 CPU核。马斯克称之为世界上最强大的芯片,性能是之前是用的NVIDIA方案的21倍,而且不只是性能强大,更关键是安全,任何一个模块挂掉,汽车都会继续正常行驶,故障率甚至比人失去意识的可能性还要低一个数量级。不过,至今尚无下文,没有车型搭载。
半导体供应商和主机厂紧锣密鼓
2020年8月,在日本市场销售的新款斯巴鲁Levorg的高级驾驶辅助系统(ADAS)搭载了FPGA头部企业Xilinx汽车认证Zynq UltraScale+多处理器片上系统(MPSoC)。
双目组件上的FPGA已在量产车中发挥关键作用
典型ADAS具有多种功能,包括自适应巡航控制、车道保持辅助和摇摆警告、碰撞前感测和发动机油门控制。斯巴鲁的专有ADAS称为Eyesight,基于立体视觉技术,2020和2021年几款车型都将采用。
立体视觉系统生成两种类型环境数据,一是基于高程(elevation)测量的复杂驾驶环境密度图,二是由参数化车道、跟踪长方体和行人组成的一系列几何元素。这些计算元素既耗时又密集。为了根据接收到的环境数据进行实时决策,系统需要大量的数据带宽和处理能力,因此并行性是必须的。这就是Xilinx UltraScale+SoC的用武之地。
Zynq UltraScale+MPSoC为ADAS提供了关键功能,Xilinx IP核上的高精度3D点云有助于产生立体视觉;Xilinx FPGA进行高速并行视频和图像处理,算法处理由Arm Cortex-A53处理,实时事件由Arm Cortex-R5处理。
汽车级Zynq UltraScale+MPSoC框图
斯巴鲁首席技术官Tetsuo Fujinuki表示:“立体摄像头是斯巴鲁ADAS应用的核心。与普通方法不同,我们新一代系统采用的图像处理技术可扫描立体摄像头捕捉的所有东西,并创建高精度3D点云,使我们能够提供先进的功能,例如在交叉口进行碰撞前制动,在高速公路和交通拥堵时协助放手驾驶。”
他补充说:“由于Xilinx汽车器件具有内置功能,使我们能够满足严格的ASIL要求,因此它们无疑是实现斯巴鲁新ADAS视觉系统的最佳技术。”
ADAS双目感知进入AI时代
双目系统成本比单目系统要高,但尚处于可接受范围内,且与激光雷达等方案相比成本较低,但计算量级的加倍是难关也是突破口。
过去,传统双目摄像头不能区分障碍物类型,仅仅是将前方障碍物检测或测量出来,在实际应用中难以满足要求。现在,利用先进处理器和人工智能算法,双目摄像头已能够具备较好的障碍物分类能力和量产实用性。值得我们期待的是,双目系统的门槛将正在逐步降低,未来将进入更多车型。