多角度解析自动驾驶芯片,避免成为盲人工程师(下)

在上一篇文章中,主要是从以下几个关键点进行自动驾驶芯片的解析:

1.芯片的四大算力单位(OPS、MACS、FLOPS、DMIPIS);

2.两大典型AI控制器的算力如何计算(FSD和Xavier);

3.解释专用处理器的定义(FSD中的NNU、Xavier中的DLA等);

4.解释为什么Xavier中30 TOPS作为主要量化指标;

5.对汽车界大明星——英飞凌的TriCore™的计算力进行直观解释。

本文,将从以下几个方向对自动驾驶芯片做一些说明和补充:

1.高算力芯片需求的背后:智能汽车E/E架构的发展

2.智能汽车AI芯片大集锦

1

高算力芯片需要的背后:智能汽车E/E架构的发展

引用一句大家都熟悉的话,目前E/E 构架设计面临4大挑战:功能安全、实时性、带宽瓶颈、算力黑洞

具体解释就是:在功能复杂度持续提升的情况下满足功能安全的等级要求,包括ISO26262、SOTIF和RSS;在复杂的架构和功能框架下满足实时性的保证;指数级增长的传感器数据和爆炸式的网联数据造成的带宽瓶颈;满足软件持续升级所需要的算力黑洞。

因此,智能汽车E/E架构正从分布式走向集中式,其终极形态是超级计算机。

博世的渐进式路线是目前E/E架构发展的典型路径。从图中可以看出,整体的发展趋势是计算集中化

伴随着计算集中化的产生,存在一个新的概念。图中可以看出,在域融合的下一阶段,是“车载电脑和区域导向结构”。区域导向结构的关键在于配合车载电脑,完成执行器 、传感器 、诊断以及传统I/O 的连接汇总,顺利完成高级决策功能,其类似于PC中的南北桥。

在这种情况下,拿军事打个比方。域概念就像是按照职能划分海陆空三军(车身域、底盘域、娱乐域、安全域),并且有独立的作战权。那么车载电脑和区域导向结构概念则是按照战区进行组织划分 ,与中央计算机形成了联合作战司令部+战区的概念。这样,中央计算机进行统筹兼顾、作出重大决策,对控制器的算力要求显著提升

另一方面,在未来,OEM交付的汽车将不是一个功能固化的产品,而是一个持续进化的机器人,在汽车整个生命周期内,硬件平台需要持续支持软件迭代升级,这意味着必须打造一个开放的、工具链完善的、拥有强大算力保障的计算平台,提供高达1000 TOPS的算力,为各种软件功能提供充足的算力储备

智能汽车E/E架构的发展势必导致对高算力芯片的需求。我们一直强调说,软件定义汽车,其实AI芯片何尝不是由软件定义本质上讲,芯片和构架是手段和载体,软件是目的和灵魂。软硬件一起做 ,可以让手段和目的高度统一

只有硬件俯下身来去适配软件的时候,才能够使晶体管所发挥的效能大幅度增加。处理器构架的创新是一个非常高的壁垒,需要对软件有深刻理解。这样的整体解决方案决定了数据转化为决策/服务的效率和质量,是时代真正呼唤的硬科技,满足汽车对芯片高算力且低功耗的要求。

2

智能汽车AI芯片大集锦

公司

名称

产品参数

应用

百度

云端全功能AI芯片

内存带宽:512 GBps;

算力:峰值260 Tops算力;

功耗:150w;

计算速度:推理速度比传统 GPU/FPGA 加速模型快 3 倍。

支持包括大规模人工智能计算在内的多种功能,例如搜索排序、语音识别、图像处理、自然语言处理、

自动驾驶和 PaddlePaddle等深度学习平台。

线

架构:自研BPU

算力:4TOPS

功耗:2W

自动驾驶中对车辆、行人和道路环境等目标的感知,类似MobileyeQ系列芯片;

Matrix2平台,基于Journey征程2芯片,算力达到16Tops

面向智能摄像头

310

算力:16 TOPS;

功耗:8W;

能效:

2 TOPS/W

集成了FPGA和ASIC两款芯片的优点,包括ASIC的低功耗以及FPGA的可编程、灵活性高等特点。

MDC300:由华为昇腾Ascend310芯片、华为鲲鹏芯片、Infineon的TC397组成;算力为64Tops

MDC600:基于8颗昇腾310 AI芯片,同时还整合了CPU和相应的ISP模块,算力高达352 TOPS。

Cam

bricon-1M

int 8(8位运算)效能比:5Tops/W;

提供了2Tops、4Tops、8Tops三种尺寸的处理器内核。

支持CNN、RNN、SVM、k-NN等多种深度学习模型与机器学习算法的加速,能够完成视觉、语音、自然语言处理等任务

云端

智能

芯片

Cam

bricon MLU

100

平衡模式(主频 1Ghz):128万亿次定点运算;功耗80w。

高性能模式(主频1.3GHz):166.4万亿次定点运算,功耗110w。

华山

二号

A1000

8个CPU核;

NN算力:40

~70TOPS,

功耗:8-10W

适用于低等级级ADAS辅助驾驶;单颗A1000芯片适用于L2+自动驾驶;双A1000芯片互联组成的域控制器可支持L3级别自动驾驶;四颗A1000芯片叠加可用于未来L4级别自动驾驶。

A1000L适用于ADAS,计算力为16TOPS ,功耗为5W;

A1000适用于 L2+, 计算力为70TOPS 功耗为10W;

A1000*2适用于 L3, 计算力为140TOPS, 功耗为25w;

A1000*4适用于l3/L4 ,计算力为280TOPS,功耗为 60W。

Xilinx赛

MP

SoC

系列

双核/四核 ARM Cortex A53

(达1.5Ghz)

速率高达

600Mhz的四核 ARM Cortex-R5 MPCore

频率高达

667Mhz的GPU ARM,支持

H.264-H.265的视频编解码器

经被包括戴姆勒奔驰在内的29个汽车品牌以及Aptiv、Autoliv、博世和大陆集团等顶级零部件供应商广泛使用

FSD

配备了两个神经网络处理器(NNP)

算力:144 TOPS;

功耗:72W;

能效比:

2TOPS/W

NVI

DIA

Xavier

8核ARM64架构;

GPU采用512颗CUDA的Volta;

支持FP32/

FP16/INT8;

20W功耗下单精度浮点性能1.3TFLOPS;

Tensor核心性能20TOPs,解锁到30W后可达30TOPS.

Orin

170亿个晶体管;

搭载NVDIA下一代GPU(即基于Ampere架构的GPU)和Arm Hercules CPU核心;

可以提供200TOPS是运算能力,是上一代Xavier SOC的7倍;

功耗45W;

2022年交付.

Mobil

eye

EyeQ系列

最高的EyeQ4的算力2.5 TOPS;

功耗:3W;

能效:

0.83 TOPS/W

EyeQ5

计算力:24TOPS

功耗:10W;芯片能效是Xavier的2.4倍。EyeQ5芯片将装备8枚多线程CPU内核,同时还会搭载18枚Mobileye的下一代视觉处理器

全视觉方案

3

写在最后

之后,可能要写系列性文章,加深自己对知识的巩固,也希望能和大家一起探索。

如果觉得有用,各位路过的大佬点个关注、在看,茫茫人海相遇不易~

如果存在疑问或者觉得汽车人写点欠妥,后台加微信交流哇。

我是Automan,咱们下期再见。

——  End  ——

(0)

相关推荐