多角度解析自动驾驶芯片,避免成为盲人工程师(下)
在上一篇文章中,主要是从以下几个关键点进行自动驾驶芯片的解析:
1.芯片的四大算力单位(OPS、MACS、FLOPS、DMIPIS);
2.两大典型AI控制器的算力如何计算(FSD和Xavier);
3.解释专用处理器的定义(FSD中的NNU、Xavier中的DLA等);
4.解释为什么Xavier中30 TOPS作为主要量化指标;
5.对汽车界大明星——英飞凌的TriCore™的计算力进行直观解释。
本文,将从以下几个方向对自动驾驶芯片做一些说明和补充:
1.高算力芯片需求的背后:智能汽车E/E架构的发展
2.智能汽车AI芯片大集锦
1
高算力芯片需要的背后:智能汽车E/E架构的发展
引用一句大家都熟悉的话,目前E/E 构架设计面临4大挑战:功能安全、实时性、带宽瓶颈、算力黑洞。
具体解释就是:在功能复杂度持续提升的情况下满足功能安全的等级要求,包括ISO26262、SOTIF和RSS;在复杂的架构和功能框架下满足实时性的保证;指数级增长的传感器数据和爆炸式的网联数据造成的带宽瓶颈;满足软件持续升级所需要的算力黑洞。
因此,智能汽车E/E架构正从分布式走向集中式,其终极形态是超级计算机。
博世的渐进式路线是目前E/E架构发展的典型路径。从图中可以看出,整体的发展趋势是计算集中化。
伴随着计算集中化的产生,存在一个新的概念。图中可以看出,在域融合的下一阶段,是“车载电脑和区域导向结构”。区域导向结构的关键在于配合车载电脑,完成执行器 、传感器 、诊断以及传统I/O 的连接汇总,顺利完成高级决策功能,其类似于PC中的南北桥。
在这种情况下,拿军事打个比方。域概念就像是按照职能划分海陆空三军(车身域、底盘域、娱乐域、安全域),并且有独立的作战权。那么车载电脑和区域导向结构概念则是按照战区进行组织划分 ,与中央计算机形成了联合作战司令部+战区的概念。这样,中央计算机进行统筹兼顾、作出重大决策,对控制器的算力要求显著提升。
另一方面,在未来,OEM交付的汽车将不是一个功能固化的产品,而是一个持续进化的机器人,在汽车整个生命周期内,硬件平台需要持续支持软件迭代升级,这意味着必须打造一个开放的、工具链完善的、拥有强大算力保障的计算平台,提供高达1000 TOPS的算力,为各种软件功能提供充足的算力储备。
智能汽车E/E架构的发展势必导致对高算力芯片的需求。我们一直强调说,软件定义汽车,其实AI芯片何尝不是由软件定义。本质上讲,芯片和构架是手段和载体,软件是目的和灵魂。软硬件一起做 ,可以让手段和目的高度统一。
只有硬件俯下身来去适配软件的时候,才能够使晶体管所发挥的效能大幅度增加。处理器构架的创新是一个非常高的壁垒,需要对软件有深刻理解。这样的整体解决方案决定了数据转化为决策/服务的效率和质量,是时代真正呼唤的硬科技,满足汽车对芯片高算力且低功耗的要求。
2
智能汽车AI芯片大集锦
公司 名称 |
产 品 |
产品参数 |
应用 |
百度 |
云端全功能AI芯片 |
内存带宽:512 GBps; 算力:峰值260 Tops算力; 功耗:150w; 计算速度:推理速度比传统 GPU/FPGA 加速模型快 3 倍。 |
支持包括大规模人工智能计算在内的多种功能,例如搜索排序、语音识别、图像处理、自然语言处理、 自动驾驶和 PaddlePaddle等深度学习平台。 |
地 平 线 |
征 程 |
架构:自研BPU 算力:4TOPS 功耗:2W |
自动驾驶中对车辆、行人和道路环境等目标的感知,类似MobileyeQ系列芯片; Matrix2平台,基于Journey征程2芯片,算力达到16Tops |
旭 日 |
面向智能摄像头 |
||
华 为 |
昇 腾 310 |
算力:16 TOPS; 功耗:8W; 能效: 2 TOPS/W 集成了FPGA和ASIC两款芯片的优点,包括ASIC的低功耗以及FPGA的可编程、灵活性高等特点。 |
MDC300:由华为昇腾Ascend310芯片、华为鲲鹏芯片、Infineon的TC397组成;算力为64Tops。 MDC600:基于8颗昇腾310 AI芯片,同时还整合了CPU和相应的ISP模块,算力高达352 TOPS。 |
寒 武 纪 |
Cam bricon-1M |
int 8(8位运算)效能比:5Tops/W; 提供了2Tops、4Tops、8Tops三种尺寸的处理器内核。 |
支持CNN、RNN、SVM、k-NN等多种深度学习模型与机器学习算法的加速,能够完成视觉、语音、自然语言处理等任务 |
云端 智能 芯片 Cam bricon MLU 100 |
平衡模式(主频 1Ghz):128万亿次定点运算;功耗80w。 高性能模式(主频1.3GHz):166.4万亿次定点运算,功耗110w。 |
||
黑 芝 麻 |
华山 二号 A1000 |
8个CPU核; NN算力:40 ~70TOPS, 功耗:8-10W |
适用于低等级级ADAS辅助驾驶;单颗A1000芯片适用于L2+自动驾驶;双A1000芯片互联组成的域控制器可支持L3级别自动驾驶;四颗A1000芯片叠加可用于未来L4级别自动驾驶。 A1000L适用于ADAS,计算力为16TOPS ,功耗为5W; A1000适用于 L2+, 计算力为70TOPS 功耗为10W; A1000*2适用于 L3, 计算力为140TOPS, 功耗为25w; A1000*4适用于l3/L4 ,计算力为280TOPS,功耗为 60W。 |
Xilinx赛 灵 思 |
MP SoC 系列 |
双核/四核 ARM Cortex A53 (达1.5Ghz) 速率高达 600Mhz的四核 ARM Cortex-R5 MPCore 频率高达 667Mhz的GPU ARM,支持 H.264-H.265的视频编解码器 |
经被包括戴姆勒奔驰在内的29个汽车品牌以及Aptiv、Autoliv、博世和大陆集团等顶级零部件供应商广泛使用 |
特 斯 拉 |
FSD |
配备了两个神经网络处理器(NNP) 算力:144 TOPS; 功耗:72W; 能效比: 2TOPS/W |
|
NVI DIA |
Xavier |
8核ARM64架构; GPU采用512颗CUDA的Volta; 支持FP32/ FP16/INT8; 20W功耗下单精度浮点性能1.3TFLOPS; Tensor核心性能20TOPs,解锁到30W后可达30TOPS. |
|
Orin |
170亿个晶体管; 搭载NVDIA下一代GPU(即基于Ampere架构的GPU)和Arm Hercules CPU核心; 可以提供200TOPS是运算能力,是上一代Xavier SOC的7倍; 功耗45W; 2022年交付. |
||
Mobil eye |
EyeQ系列 |
最高的EyeQ4的算力2.5 TOPS; 功耗:3W; 能效: 0.83 TOPS/W |
|
EyeQ5 |
计算力:24TOPS; 功耗:10W;芯片能效是Xavier的2.4倍。EyeQ5芯片将装备8枚多线程CPU内核,同时还会搭载18枚Mobileye的下一代视觉处理器 |
全视觉方案 |
3
写在最后
之后,可能要写系列性文章,加深自己对知识的巩固,也希望能和大家一起探索。
如果觉得有用,各位路过的大佬点个关注、在看,茫茫人海相遇不易~
如果存在疑问或者觉得汽车人写点欠妥,后台加微信交流哇。
我是Automan,咱们下期再见。
—— End ——