用TensorRT极致'榨干'GPU性能!C /Python高性能推理教程发布

部署是人工智能落地的最后一公里,但是这“一公里”往往并不好走。如何让模型落地复杂的软硬件环境,并充分实现最优的推理效果,一直是人工智能从业者们追求和努力的方向。

飞桨听见所有开发者的心声,在未来的一个月中,分別准备了十节不同场景的手把手部署实操课程,其中又分为四月服务器侧部署系列5节课程,及五月端侧部署系列的5节推理实践。!

一般来说深度学习部署往往不外乎两个方面: 如何选择合适的推理预测库和相应的硬件。在预测库部分,飞桨深度学习平台除了为人工智能的应用提供了扎实的框架基座,也在预测库上根据不同场景提供了多端多平台的选择:

包含了适合传统数据中心及服务器的高性能预测库 Paddle Inference,其抽取了主框架的前向算子,再整合TensorRT 等加速库达到最极致的性能; 

基于 Paddle Inference 封装了 gRPC, bRPC, RestfulAPI 的服务化部署框架 Paddle Serving,让你轻松一键完成模型即服务; 

根据手机及端侧的有限内存及功耗最佳化的轻量化预测库 Paddle Lite;

专门设计给 APP 开发者的开箱即用工具 LiteKit 和国内唯一的前端 JavaScript 预测库 Paddle.js 等。

而在硬件方面,英伟达可以说是人工智能时代的领跑者,旗下丰富的通用 GPU 硬件,从服务器端的 Tesla 系列、端侧的 Jeston 系列、到人手一张的消费型显卡 Geforce 系列,相信所有开发者都或多或少使用过。而要想充分释放你手边英伟达 GPU 硬件最大能力,除了使用通用的 CUDA, 使用 TensorRT 加速库也是绝对必备的!

那么飞桨与基于英伟达 GPU+TensorRT 具体怎么使用,才能够充分实现更卓越的部署体验呢?飞桨将会在部署月活动课程中,详细解读如何在上述各种不同 GPU 硬件场景下如何利用飞桨框架更便利的启用 TensorRT。

举例来说,在对模型推理延时和吞吐量要求极高的数据中心及服务器部署时,飞桨将通过 Paddle Inference 与 TensorRT 的结合,实现高性能的推理。而进一步还可以搭配飞桨的模型压缩工具 PaddleSlim 对模型进行剪枝、量化等操作,或者使用 C++ 的推理库取代大家比较熟悉的 Python 推理库,都能有效提升性能。

最后,入门深度学习用戶或者传统制造业中常常使用的 Windows 系统台式机,而且 Windows 系统下许多开发者选用的C#编程环境,这类场景中如何结合 TensorRT 做推理呢?又如何解决编译环境通常比较复杂的问题?相关的教程资源网络上还比较少,但是飞桨部署月的课程都会为大家详细讲解。

(0)

相关推荐