NVIDIA TensorRT高性能深度学习推理

2023年4月10日上午12:16 • 深度学习

NVIDIA TensorRT™ 是用于高性能深度学习推理的 SDK。此 SDK 包含深度学习推理优化器和运行时环境，可为深度学习推理应用提供低延迟和高吞吐量。

NVIDIA TensorRT高性能深度学习推理

在推理过程中，基于 TensorRT 的应用程序的执行速度可比 CPU 平台的速度快 40 倍。借助 TensorRT，您可以优化在所有主要框架中训练的神经网络模型，精确校正低精度，并最终将模型部署到超大规模数据中心、嵌入式或汽车产品平台中。

TensorRT 以 NVIDIA 的并行编程模型 CUDA 为基础构建而成，可帮助您利用 CUDA-X 中的库、开发工具和技术，针对人工智能、自主机器、高性能计算和图形优化所有深度学习框架中的推理。

TensorRT 针对多种深度学习推理应用的生产部署提供 INT8 和 FP16 优化，例如视频流式传输、语音识别、推荐和自然语言处理。推理精度降低后可显著减少应用延迟，这恰巧满足了许多实时服务、自动和嵌入式应用的要求。

可以从每个深度学习框架中将已训练模型导入到 TensorRT。应用优化后，TensorRT 选择平台特定的内核，在数据中心、Jetson 嵌入式平台以及 NVIDIA DRIVE 自动驾驶平台上更大限度提升 Tesla GPU 的性能。

借助 TensorRT，开发者可专注于创建新颖的 AI 支持应用，无需费力调节性能来部署推理工作。

TensorRT 优化与性能

NVIDIA TensorRT高性能深度学习推理

与所有主要框架集成

NVIDIA 与深度学习框架开发者紧密合作，使用 TensorRT 在 AI 平台上实现优化的推理性能。如果您的训练模型采用 ONNX 格式或其他热门框架（例如 TensorFlow 和 MATLAB），您可以通过一些简单的方法将模型导入到 TensorRT 以进行推理。下面介绍了一些集成，其中包含了新手入门信息。

TensorRT 和 TensorFlow 已紧密集成，因此您可以同时尽享 TensorFlow 的灵活性和 TensorRT 的超强优化性能。

MATLAB 已通过 GPU 编码器实现与 TensorRT 的集成，这能协助工程师和科学家在使用 MATLAB 时为 Jetson、DRIVE 和 Tesla 平台自动生成高性能推理引擎。

TensorRT 提供了一个 ONNX 解析器，因此您可以轻松地从框架（例如 Caffe 2、Chainer、Microsoft
Cognitive Toolkit、MxNet 和 PyTorch）中将 ONNX 模型导入到 TensorRT。

TensorRT 还与 ONNX Runtime 集成，助您以 ONNX 格式轻松实现机器学习模型的高性能推理。

如果您在专有或自定义框架中执行深度学习训练，请使用 TensorRT C++
API 来导入和加速模型。

NVIDIA TensorRT高性能深度学习推理

“通过在 V100 上使用
Tensor 核心、新近优化的 CUDA 库以及 TF-TRT 后端，我们能将原本就很快的深度学习 (DL) 网络速度再提升 4 倍”

公布 TensorRT
7.1：新功能

TensorRT 7.1 针对 NVIDIA A100 GPU 进行了优化并加入了新优化，现可使用 INT8 精度加速 BERT 推理，实现高达 V100 GPU 六倍的性能。NVIDIA 开发者计划成员可于 2020 年夏季下载 TensorRT 7.1。

TensorRT 7.0（当前版本）包含：

新编译器，可对语音和异常检测中的常用时间递归神经网络进行加速
对 20 多种新 ONNX 操作的支持，这些操作可对 BERT、TacoTron 2 和 WaveRNN 等关键的语音模型进行加速
对动态形状的扩展支持，可实现关键的会话式 AI 模型
新版插件、解析器
BERT、Mask-RCNN、Faster-RCNN、NCF 和 OpenNMT 的新示例

其他资源

概览

NGC 中的 TensorRT 容器、模型和脚本
运行 TensorRT 的“Hello
World”（示例代码）
将 ONNX 用作输入，运行 TensorRT 的“Hello
World”（示例代码）
使用自定义校准以 INT8 精度执行推理（示例代码）
TensorRT 简介（网络研讨会）
使用 TensorRT 执行
8 位推理（网络研讨会）

NVIDIA TensorRT高性能深度学习推理

会话式 AI

使用 TensorRT 通过
BERT 实现实时自然语言理解（博客）
使用 TensorRT 进行自动语音识别 (Notebook)
使用 TensorRT 对实时文字转语音进行加速（博客）
使用 BERT 实现
NLU (Notebook) (Notebook)
实时文字转语音（示例）
基于序列到序列 (seq2seq) 模型的神经网络机器翻译 (NMT)（示例代码）
逐层构建 RNN 网络（示例代码）

开始实操训练

NVIDIA 深度学习学院 (DLI) 为 AI 和加速计算领域的开发者、数据科学家和研究人员提供实操训练。立即参加关于使用 TensorRT 优化和部署 TensorFlow 模型以及“使用 TensorRT 部署智能视频分析”的自定进度选修课程，获取 TensorRT 实操经验。

适用范围

NVIDIA 开发者计划会员可访问 TensorRT 产品页面，免费使用 TensorRT 进行用于开发和部署。最新版本的插件、解析器和示例也以开源形式提供，可从 TensorRT GitHub 资源库获取。

开发者还可以通过 NGC 容器注册表中的 TensorRT 容器获得 TensorRT。

TensorRT 已纳入：

用于在计算机视觉和智能视频分析
(IVA) 应用中进行实时流分析的 NVIDIA Deepstream SDK
适用于 NVIDIA DRIVE PX2 自动驾驶平台的 NVIDIA DriveInstall
适用于 Jetson TX1、TX2
嵌入式平台的 NVIDIA Jetpack

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：NVIDIA TensorRT高性能深度学习推理 - Python技术站

深度学习

0 0 打赏

微信扫一扫

支付宝扫一扫

NVIDIA深度学习Tensor Core性能解析（下）

上一篇 2023年4月10日上午12:15

NVIDIA数据中心深度学习产品性能

下一篇 2023年4月10日上午12:16

深度学习原理与框架-Tfrecord数据集的制作 1.tf.train.Examples(数据转换为二进制) 3.tf.image.encode_jpeg(解码图片加码成jpeg) 4.tf.train.Coordinator(构建多线程通道) 5.threading.Thread(建立单线程) 6.tf.python_io.TFR(TFR读入器)

1. 配套使用: tf.train.Examples将数据转换为二进制，提升IO效率和方便管理对于int类型： tf.train.Examples(features=tf.train.Features(feature=tf.train.Feature(int64_list=tf.train.Int64List(value=[value])))) …

深度学习 2023年4月13日
000
深入了解深度学习–训练与误差

概述训练模型表示通过有标签样本来学习确定所有的权重和偏差的理想值。在监督式学习中，机器学习算法通过以下方式构建模型：检查多个样本并尝试找出可最大限度地减少损失的模型；这个过程称为经验风险最小化。损失是对糟糕预测的惩罚。也就是说，损失是一个数值，表示对于单个样本而言模型预测的准确程度。如果模型的预测完全准确，则损失为零，否者损失会很大。训练模型的目的是从所…

深度学习 2023年4月13日
000
深度学习

深度学习入门一周，我都做了些什么

零基础，进入这个大火的圈子，实验室里面这方面的大牛不少，但对于一个渣前端来说，还是需要时间研究的。我就记录一下，我在没有时间的情况下，入门一周都做了些什么？怎么做的？主要是记录一下看了些什么做了些什么，明白了什么？因为老师要求一周内要抛出一个demo来，所以我就直奔主题，先了解深度学习是什么，神经网络是什么，深度学习框架是什么，框架怎么用，安装，跑官方示例…

2023年4月10日
000
深度学习

深度学习基础-优化算法详解

所谓深度神经网络的优化算法，即用来更新神经网络参数，并使损失函数最小化的算法。优化算法对于深度学习非常重要，网络参数初始化决定模型是否收敛，而优化算法的性能则直接影响模型的训练效率。前言所谓深度神经网络的优化算法，即用来更新神经网络参数，并使损失函数最小化的算法。优化算法对于深度学习非常重要，如果说网络参数初始化（模型迭代的初始点）能够决定模型是否收敛，…

2023年4月10日
000
深度学习

Deep Learning 7_深度学习UFLDL教程：Self-Taught Learning_Exercise（斯坦福大学深度学习教程）

理论知识：自我学习练习环境：win7， matlab2015b，16G内存，2T硬盘练习内容及步骤：Exercise:Self-Taught Learning。具体如下：一是用29404个无标注数据unlabeledData（手写数字数据库MNIST Dataset中数字为5-9的数据）来训练稀疏自动编码器，得到其权重参数opttheta。…

2023年4月9日
000
吴恩达《深度学习》第三门课（2）机器学习策略二

2.1进行误差分析（1）一识别猫为案例，错误率为10%，这时系统还可以有较大提升空间，这时该往哪方面努力呢？可以通过误差分析，具体可以拿出100个分类错误的样本，然后利用表格统计每个样本分类错误的原因（如下图所示），比如很模糊，狗和猫很像，有滤镜等，一个样本出错可以同时有多个原因，统计看因为什么原因导致分类错误的比例最高，那么就应该着重花功夫在那上面。（…

深度学习 2023年4月11日
000
深度学习

Deep Learning 1_深度学习UFLDL教程：Sparse Autoencoder练习（斯坦福大学深度学习教程）

本人写技术博客的目的，其实是感觉好多东西，很长一段时间不动就会忘记了，为了加深学习记忆以及方便以后可能忘记后能很快回忆起自己曾经学过的东西。首先，在网上找了一些资料，看见介绍说UFLDL很不错，很适合从基础开始学习，Adrew Ng大牛写得一点都不装B，感觉非常好，另外对我们英语不好的人来说非常感谢，此教程的那些翻译者们！如余凯等。因为…

2023年4月10日
000
佩琪小分队实验六团队作业3：基于深度学习的银行卡号识别系统项目需求分析与原型设计

项目** 内容课程班级博客链接课程班级博客这个作业要求链接作业要求团队名称佩琪小分队团队成员分工描述＊诚：博客撰写＊作朝：原型设计＊云云：用户调研与访谈＊婷婷：用户调研与访谈团队的课程学习目标（1）学习使用软件原型开发工具；（2）掌握软件原型开发技术；（3）体验以原型设计为基础的软件项目需求获取技巧与方法。这个作业在哪些方面帮助团队实现…

深度学习 2023年4月11日
000

NVIDIA TensorRT高性能深度学习推理

公布 TensorRT 7.1：新功能

开始实操训练

相关文章

公布 TensorRT
7.1：新功能