特斯拉巡航系统供应商Mobileye创始人详解自动驾驶三大支柱

来源 | 机器之心(ID:almosthuman2014)
这家名叫 Mobileye 的以色列公司,撑起了特斯拉的巡航系统。2016年,Mobileye 从辅助驾驶系统,开始真正走向自动驾驶汽车。在 CVPR 2016 上,Mobileye 的联合创始人 Amnon Shashua 教授做了关于自动驾驶的演讲,对自动驾驶的三大支柱:传感、地图测绘、驾驶策略规划进行了详细讲解。(注:本文系2016年7月的文章,希望对大家有参考价值)

Mobileye 创立于 1999 年,由以色列著名计算机视觉科学家 Ziv Aviram 和耶路撒冷希伯来大学(Hebrew University of Jerusalem)计算机科学系教授 Amnon Shashua 等联合创办。2014 年 8 月 1 日在纽交会首次公开发行股票,市值超过 80亿美元。在成功上市之前,Mobileye 融资过十轮。

特斯拉在 2016 年使用了 Mobileye 的系统。之前,Mobileye 的主要产品是先进驾驶辅助系统(Advanced Driver Assistance System,简称 ADAS),以及围绕该系统所推出的多种解决方案。奥迪、宝马、雪铁龙、福特、通用、本田、现代、捷豹、陆虎、尼桑、欧宝、雷诺、丰田和沃尔沃等一共 17 家汽车品牌都和 Mobileye 有合作关系。

2016 年,Mobileye 从辅助驾驶系统,开始真正迈向自动驾驶汽车。Mobileye的技术和谷歌有所不同,谷歌从 A 点到 B 点不需要司机,Mobileye 技术则是在行驶时用的。使用 Mobileye 系统的车辆,并不像谷歌无人驾驶汽车一样智能,仅能够处理在高速公路单行道的驾驶,加速或是按照信号灯进行停车。因为总成本很低,Mobileye 的技术能够轻松实现商业化。

以下,为此次 Mobileye 联合创始人 Amnon Shashua 教授在 CVPR 2016 大会上的演讲整理:

演讲视频

为何追求自动驾驶技术?

1、汽车使用扇形图(左图)

  • 黄色:合计每年驾驶时间 4%

  • 蓝色:合计每年非驾驶时间 96%(大部分都是停在停车场)

2、估算平均每英里的共享的成本明细(基于美国市场,右上图)

  • 蓝色:驾驶员工资, 0.75 美元,50%

  • 黄色:乘车费用,0.30 美元,20%

  • 绿色:折旧费,0.15 美元,10%

  • 靛蓝:燃油费,0.15 美元,10%

  • 橙色:保险、保养费用,0.15 美元,10%

3、每英里成本——共享 vs. 自有(右下图)

机器 & 网络代表一个功用,能引发大数据 & 内容的市场机遇(左图)。

为何硅谷对自动驾驶感兴趣:在我看来,自主性共享能被视为是由机器和网络代表的一种功用,能够产生大数据以及内容机会。硅谷不只是对功用反面感兴趣,更重要的是向今天的汽车公司出售它们不熟悉的数据、内容以及经验的机会,这能带来数万亿美元的潜力。这一有潜力的 TAM(技术接受模型) 的捆绑模式(功用+内容+数据)使得一些如今硅谷服务的其他主要的终端市场(PC,智能手机)相形见绌。此外,里程驾驶是一个增长型业务,长期下,在量级上有潜力超过全球轻型汽车生产,也可能超过硅谷其他主要的终端市场。

自动驾驶的三大支柱

  1. 传感:环境模式、360 度感知

  2. 地图测绘: 高精确度定位(10 cm)、可行驶路线

  3. 驾驶策略(规划):多方博弈中的协商

传感、地图测绘、驾驶策略,三者在互相影响的同时也必须要同步进行。它们并不是三个独立的技术区块。

1、传感

为什么是摄像头?

1、分辨率:

  • 最好的摄像头有 1.3 - 1.7 MP(130 万-170 万像素),FPS(每秒帧数)为 36 (每秒大约 47-61 M )

  • 2020 年计划摄像头分辨率达到 7.2 MP (每秒 260 M)

  • 激光雷达技术每秒发射脉冲 60-300k (300k 赫兹)

  • 最先进的未来雷达(MIMO)将会达到每秒 300k 点次。

2、分辨率为什么重要?

  • 高分辨率能够显示复杂场景的细节描述

  • 低分辨率(激光雷达)需要一个稳定的背景 3D 地图

3、形状 vs. 外观

  • 最复杂的情境由外观( 纹理)定义,而不只是形状:

  • 道路标记、交通标识、交通信号灯

  • 像马路牙子这样的路径界标

在「环境模式」中都发生了什么

1、动态/静态目标(ADAS 技术自然发展出来的):

  • 得到零个假负例样本(0 个假正例是自动采集系统的一部分)

  • 任何方位的汽车,增强型的行人/自行车探测

  • 更为普通的目标(非基于模型训练的)

2、路径分界(略微超出ADAS 的能力):自由环境,探测任何道路边界,标记边界的类型

3、可驾驶路线(非常具有挑战性):

  • 探测所有可驾驶路线的道路边界(即使车道线不存在)

  • 为每一条路线附加语义信息(路面标线以及其他环境信息)

  • 探测关键点(并道、岔道等)

为何要是全范围摄像头?

四角雷达 + 两边雷达是否足够覆盖全范围?

  • Yes,在大部分都是高速公路的高度自动化驾驶(HAD,Highly Automated Driving)级别,这是正确的。

  • 在城市环境中的全自动驾驶(FAD)级别,却需要更高的分辨率传感,如图中所示。

这里,Amnon Shashua 教授讲了一个传感部分的例子:3DVD 探测任意方位的汽车。探测一个目标,你不只需要探测这是一辆汽车,还包括每辆汽车所属方位:红色的离你很近,绿色的在你前方,黄色的在左方,蓝色的在右方等。

  • 输出的定义:并非在任何时间下,都能看到汽车 3D 信息。

  • 测量:范围以及 TTC。

在这一部分,Amnon Shashua 教授视频演示了在自由环境中,路径界定的技术。他表示 Mobileye 在这里面用到了深度学习。

语义自由环境:目标

包括平整路面、台阶(路沿)、竖墙、防护轨、混凝土防撞栏。

在环境感知中,最难的一部分就是可驾驶线路中的探测。

在这种环境中,计算机需要在没有地标的情况下规划驾驶路线,使用到了整体的提示信息。

如此,把前面介绍的语义自由环境(SFS)、车道线探测等技术结合起来就是整合路线。

这同样是个视频演示的例子:在隧道中自动驾驶汽车的线路探测。

可驾驶路线中的语义信息:包括往左、往右变道,岔道等。

道路信息中有很多关键点,比如说车道分叉口,车道合并处。

  • HL - 左边主车道

  • HR - 右边主车道

  • NLL -下一条车道的左标记

  • ERR - 右车道出口的右标记

  • ERL - 右车道出口的左标记

道路语义信息 — 坡度估算

蓝色图片是地面实况图(上)与网络(ConNet)(下)输出的路面信息。

右边蓝色图片中标色的线是斜坡,上面一张显示的是路面实况图,下面一张是网络输出的图,可以看出显示出的路面信息是一样的。

道路语义信息 — 车道分割信息

  • 红黄是「复杂的」道路标记(左/右)

  • 浅蓝是「简单的」道路标记

上面的对比图中,路面实况图把右边的整条车道都标记成了复杂,而左边的照片显示的实际情况只有前面分叉的地方才是复杂的。在这一点上网络输出的路面信息是正确的。

下面的对比图中,路面实况漏标了一处复杂。

2、驾驶策略/规划

需要像人类那样驾驶

  • 驾驶是一个「多主体」情境

  • 有很多行为需要学习

  • 如果我们希望 FAD 汽车与人类驾驶的汽车并存在马路上,那么 FAD 应该学习人类的驾驶技术

传感 vs. 规划

1、感知

  • 感知当下的环境

  • 单一「主体」情境

  • 完美可预测

技术

  • 深度监督学习

  • 多模块,端到端训练训练每个模块

2、驾驶策略

  • 计划未来

  • 多主体情境

  • 「如果....会发生什么」类型的推理

  • 非完美可预测

技术

  • 强化学习

强化学习

  • 目标:学习一个策略,绘制从状态到行为的图

  • 学习过程如图中所示。

强化学习 vs. 监督学习

  • 在监督学习中,行为不会影响环境,因此我们能收集训练样本,而且之后只能搜索出一个策略

  • 在监督学习中,行为的影响是局部的,而在前强化学习中,行为具有长期的影响

  • 在监督学习中,我们被给予了正确的答案,而在强化学习中,我们只观察到一个奖励

Mobiley RNN 网络深度强化学习

S. Shwartz, Ben-Zrihem,Cohen & Shahua 「通过短期预测进行的长期规划」

这里展示了汽车进入环形交通枢纽的状况,其中蓝色的车是攻击性的司机、绿色是有礼貌的司机。

对比可以发现,迭代次数较少时,汽车会比较容易发生冲撞;迭代次数较多时,汽车会选择绿色汽车让道后驶入。

为什么感知和驾驶测试相关?

语义和时间的抽象。输入视频经过深度神经网络处理得到驾驶策略(Driving Policy),然后实现对各种部件的控制,最终实现对汽车的控制。

卷积(端到端)模型和时间抽象模型。

3、地图测绘

地图测绘(Mapping):道路经验管理(REM)

我们人类不需要地图测绘就能驾驶汽车,但我们可能需要导航地图,借助 GPS 技术可以实现大约 10 m左右精度的导航。而无人驾驶汽车对地图测绘的要求就高得多,精度至少需要达到大约 10 cm。

「自动驾驶」有怎样的地图要求?

1、地图更新必须是近实时的连续处理

  • 处理必须是「众包」的,即每一辆自动驾驶汽车的地图更新都会汇集起来给所有汽车使用

2、每辆汽车每千米所积累的数据量应当非常小,大约每千米 10 kb

  • 传输图像和其它原始数据是不可能的

  • 必须要在汽车的本地计算机中完成高级处理,将图像等数据中的关键信息提取出来

3、最好不要为这一任务引入任何专用的硬件

  • 相机已经被用于 ADAS(高级驾驶辅助系统)系统了——而且采用率还在增长

  • 稀疏的 3D:主要确定一些路标性的东西,比如交通灯、交通标志等的位置。数据量较大,稀疏处理比较好。

  • 密集的 1D:车道线,这需要精确的处理,但因为只有 1D,所以数据量也不大。加上稀疏的 3D 数据只需要 10kb/km 的数据量就够了。

  • 众包:将所有汽车处理后的数据上传到云综合起来,得到持续更新的地图。

稀疏 3D 处理的各种视觉路标的例子。

我们大约有 2 万种不同的道标。包括一些交通标志:圆形的、方形的、三角形的、菱形的、道路转向标志、车道线、交通信号灯

还有路灯杆、反射器、水平结构、隧道的出入口等建筑和结构。这些都可以使用计算机视觉进行检测。

道路上路标的分布情况。通常城市中路标较多,更容易处理,而高速路上则少一点。在美国,最糟糕的情况是每隔 200 米才有一个路标。在路标之间运动时,一个想法是使用自运动(egomotion)来保持位置,而且还要保证不发生偏移(drift)。

密集的 1D 用来记录车道的位置,使用自运动保持运动。

众包可以整合 REM 分段(10kb每千米)、增加路标的精度、检测发生的改变;从而得到 RoadBook。

  • RoadBook 的作用:

  • 纵向大约 10 cm,横向大约 3-5 cm 的精度

  • 高清地图内容:哪里是可以行使的路径?

  • 使用地图内容驱动控制

通过 REM 的驱动控制,可以简单假设成以下配置:

  • 车 1 沿着特定道路旅行生成了一个模型;

  • 车 2 使用车 1 生成的模型来保持其在同一道路上的横向运动。

如图:来自车 1 的模型投射到来自车 2 的视频上。

日产的演示总结:

  • 15 千米的市区和高速公路,有一些区域塞满了汽车和 VRU

  • 交叉路的 REM 定位

  • 交叉路的 90° 转向

  • 270° 爬坡

  • 汇入高速路

  • 离开高速路

  • 变道

实际试验时的画面:图上的三个点分别是下一、二、三个瞬间汽车的目标位置。

在日本的实验:两条全自动驾驶路径的测试,其中每条路径有 8 千米城市道路、20 千米高速路。

1、从横滨(Yokohama)到 Oppama:

  • 29 个交叉路口,10 次路口转向

  • 7 次汇入高速路

  • 1 个收费站

2、从 Oppama 到横滨(Yokohama):

  • 30 个交叉路口,11 次转向

  • 6 次汇入高速路,1 次汇入前的隧道内变道

  • 1 个急转弯

  • 1 个收费站

一个复杂十字路口的地图测绘(来自大众)

现在我们已经有大众、通用、宝马已经加入,但预计到今年年底,汽车行业的大部分企业都将加入。

总结

2015-2017 年:高速路自动驾驶(今天的特斯拉这样的),算不上自动驾驶,需要人类监督,只能是不安全(当人放松警惕时)的横向控制(lateral control)。

2018-2020 年:高度自动驾驶(HAD),但只能在高速路上使用,你有足够的反应时间,非常安全。你可以睡觉,当汽车需要你时会唤醒你;就算你不醒来,汽车也会自动安全停靠。

2021 年:全面的自动驾驶(FAD,4 级或 5 级自动化)(扩展到市区、共享汽车),再也不需要司机了,但监管可能滞后。

2023 年后:全面的自动驾驶(任何地方都是自动驾驶,共享汽车所有权),甚至可以向汽车商订阅汽车,按需使用。

(0)

相关推荐