边缘AI计算在自动驾驶汽车上的潜力 / 四六文摘

自动驾驶是边缘计算的重要应用，自动驾驶需要100-1000TOPS边缘AI算力，其具有高性能、低功耗特点的边缘AI（Edge AI）成了行业壁垒。

AI计算需要域来优化算法和数据流架构，摩尔定律已逼近极限，若没有正确的算法和架构，仅基于处理技术的驱动性能将无法实现预期的结果。

整体边缘计算市场规模高速增长。图片来源：IDC

未来计算平台

第一类：冯·诺依曼人工智能架构

哈佛大学推出了参数化深度学习基准套件ParaDNN，这是一种系统化、科学化的跨平台基准测试工具，不仅可以比较运行各种不同深度学习模型的各类平台的性能，还可以支持对跨模型属性交互作用的深入分析、硬件设计和软件支持。
TPU（Tensor Processing Unit, 即TPU张量处理单元）是谷歌打造的处理器，专为机器学习量身定做的，执行每个操作所需的晶体管数量更少，效率更高。TPU对CNN和DNN的大批量数据进行了高度优化，具有最高的训练吞吐量。
GPU表现出与TPU类似的性能，但对于不规则计算（如小批量和非MatMul计算）具有更好的灵活性和可编程性。
CPU在针对RNN方面实现了最高的FLOPS利用率，并且因其内存容量大而支持最大模型。

第二类：非冯·诺依曼人工智能架构

内存计算（CIM）：基于SRAM、NAND闪存以及新兴内存（如ReRAM、CeRAM、MRAM）的CIM阵列被视为神经网络计算的可重新配置、可重新编程加速器。CIM优点：高性能、高密度、低功耗和低延迟。当前的挑战：读出位线模拟信号传感和专用RAM处理技术的ADC。
神经形态计算：神经形态计算将AI扩展到与人类认知相对应的领域，如解释和自主适应。下一代人工智能必须能够处理新的情况和抽象，以自动化普通人类活动。
量子计算：在量子计算中，最小的数据单位是基于磁场自旋的量子位。基于量子纠缠，量子计算允许2个以上的状态，纠缠速度非常快(比如：Google Sycamore、Quantum Supremay、53个Qbits、速度快1.5万亿倍、在200秒内完成一项需要经典计算机10000年才能完成的任务)。当前的挑战：嘈杂中型量子（NISQ）计算机中的错误率和消相干。
量子神经形态计算：量子神经形态计算在类脑量子硬件中物理实现神经网络，以加快计算速度。

边缘AI与垂直应用

边缘人工智能将主导未来的计算，人工智能是一种能实现未来水平和垂直应用的技术。
水平人工智能应用解决了许多不同行业的广泛问题（例如计算机视觉和语音识别）；垂直人工智能应用是针对特定领域进行高度优化的特定行业（例如高清地图、自动驾驶定位与导航）。
凭借深厚的领域知识，高效的AI模型和算法可将计算速度提高10-100000倍。这是未来人工智能中最核心、最重要的自动驾驶技术。
所有垂直应用解决方案均需要用于多任务的多级AI模型。

AI模型与算法

DNN是人工智能的基础，如今的DNN使用一种称为反向传播的学习形式。如今的DNN训练速度慢，训练后是静态的，有时在实际应用中不能灵活应变。
迁移学习是一种将先前开发的DNN“回收”作为DNN学习第二项任务起点的方法，有了迁移学习，DNN可用较少的数据训练DNN模型。
持续（终身）学习是指在保留先前学习经验的同时，通过适应新知识不断学习的能力。例如，与环境交互的自动驾驶需从自己的经验中学习，且必须能在长时间内逐步获取、微调和迁移知识。
强化持续学习（RCL）通过精心设计的强化学习策略，为每个新任务寻找最佳的神经结构。RCL方法不仅在防止灾难性遗忘方面具有良好的性能，而且能很好地适应新的任务。

自动驾驶系统 (ADS) – 功能框图。图片来源：ARM

自主驾驶技术需要突破：

图片来源：ARM

自动驾驶需要在高清地图、定位和环境感知中处理大量数据，边缘处理的所有数据都需要在关键的几毫秒内完成。在感知、定位、导航、强化交互（驾驶策略）方面智能精确地减少数据，将使自动驾驶系统缩短延迟，并快速响应不断变化的交通状况。

强大、高性能的边缘人工智能（Edge AI）是自动驾驶汽车领域主要壁垒之一。5G连接支持可靠的MIMO连接、低延迟、高带宽。在5G的加持下，强大的边缘AI，加之高清地图、定位和感知方面的创新，将使真正的自动驾驶成为现实。

边缘AI计算在自动驾驶汽车上的潜力