-Snap Monetization Group 工程总监 Nima Khajehnouri
深度学习推理平台 NVIDIA® Tesla® GPU 和NVIDIA TensorRT™,世界最为快捷高效的平台,可助您直面挑战。NVIDIA 推理平台支持所有深度学习工作负载,能够提供绝佳的推理解决方案,即能够结合超高吞吐量、出色的效率和灵活性来助力各种 AI 驱动体验。
NVIDIA TensorRT 是一个高性能神经网络推理平台,相较于 CPU 架构,可将推荐系统、语音识别和机器翻译等多种应用程序的推理速度提升至 40 倍。
NVIDIA Triton 推理服务器(以前称为 TensorRT 推理服务器)是一款开源软件,可简化在生产环境中部署深度学习模型的过程。Triton 推理服务器允许团队从基于 GPU 或 CPU 的基础设施上的本地存储、Google Cloud 平台或 AWS S3 部署通过各种框架(TensorFlow、PyTorch、TensorRT Plan、Caffe、MXNet 或自定义框架)训练的 AI 模型。它在单个 GPU 上同时运行多个模型以更大限度地提高利用率,并与 Kubernetes 集成,以进行编排、建立指标和自动扩展。
企业还可通过 NVIDIA GPU 上的 Kubernetes,将训练和推理部署无缝扩展到多云 GPU 集群。借助 Kubernetes,可将经 GPU 加速的深度学习和高性能计算 (HPC) 应用程序迅速部署到多云 GPU 集群。
NVIDIA DeepStream 是专为极为复杂的智能视频分析 (IVA) 打造的应用程序框架。开发者现在可以将精力放在构建核心深度学习网络上,而不需要从头开始设计端到端应用程序(已提供模块化框架)和硬件加速构建模块。
NVIDIA Tesla T4 具备全球顶尖的推理效率,最多可达 CPU 推理效率的 40 倍。T4 可通过专用的硬件加速视频转码引擎对多达 39 路同步高清视频流进行实时分析。NVIDIA T4 在提供以上所有性能的情况下仅会耗费 70 瓦 (W) 功率,这使其成为业内主流服务器的首选推理解决方案。
借助搭载 NVIDIA Volta™ 的 Tesla V100 GPU,数据中心的深度学习工作负载吞吐量得以大幅提升,因而能够从当今海量数据中提取有效信息。在处理深度学习推理工作负载方面,一台配备单块 Tesla V100 的服务器可以代替多达 50 台 CPU 服务器,在大幅提升吞吐量的同时还能显著降低购买成本。
NVIDIA TensorRT 优化器和运行时引擎可为推荐系统、语音识别和图像分类等应用程序提供低延迟和高吞吐量。借助 TensorRT,可对使用 32 位或 16 位数据训练的模型进行优化,以在 Tesla T4 和 P4 上执行 INT8 运算,或在 Tesla V100 上执行 FP16 运算。NVIDIA DeepStream SDK 利用 Tesla GPU 的强大功能,可以同时解码和分析视频流。
NVIDIA Triton 推理服务器 推理服务器可提供高吞吐量的数据中心推理,并有助您充分利用 GPU。NVIDIA Triton 推理服务器 推理服务器可作为即用型容器提供,它是一个微型服务器,可并行运行 Caffe2、NVIDIA TensorRT、TensorFlow 等模型,以及一块或多块 GPU 上支持 ONNX 标准的任何框架。
| Tesla T4:世界领先的推理加速器 | Tesla V100:通用数据中心 GPU | 适用于超高效、外扩型服务器的 Tesla P4 | 适用于推理吞吐量服务器的 Tesla P40 | |
|---|---|---|---|---|
| 单精度性能 (FP32) | 8.1 TFLOPS | 14 TFLOPS (PCIe) 15.7 teraflops (SXM2) |
5.5 TFLOPS | 12 TFLOPS |
| 半精度性能 (FP16) | 65 TFLOPS | 112 TFLOPS (PCIe) 125 TFLOPS (SXM2) |
— | — |
| 整数运算能力 (INT8) | 130 TOPS | — | 22 TOPS* | 47 TOPS* |
| 整数运算能力 (INT4) | 260 TOPS | — | — | — |
| GPU 显存 | 16GB | 32/16GB HBM2 | 8GB | 24GB |
| 显存带宽 | 320GB/秒 | 900GB/秒 | 192GB/秒 | 346GB/秒 |
| 系统接口/外形规格 | PCI Express 半高外形 | PCI Express 双插槽全高外形 SXM2/NVLink | PCI Express 半高外形 | PCI Express 双插槽全高外形 |
| 功率 | 70 W | 250 W (PCIe) 300 W (SXM2) |
50 W/75 W | 250 W |
| 硬件加速视频引擎 | 1 个解码引擎,2 个编码引擎 | — | 1 个解码引擎,2 个编码引擎 | 1 个解码引擎,2 个编码引擎 |
您可立即购买 Tesla V100、P4 和 P40 进行深度学习推理。