MLPerf 是由来自学术界、研究实验室和相关行业的 AI 领导者组成的联盟,旨在“构建公平和有用的基准测试”,在规定的条件下,针对硬件、软件和服务的训练和推理性能提供公平的评估。为确保始终站在行业趋势的前沿,MLPerf 不断演进,定期进行新的测试并添加代表 AI 领域当前水平的新工作负载。
MLPerf Training v2.0 是第六个训练版本,由八个不同的工作负载组成,涵盖视觉、语言、推荐系统和强化学习等各种用例。
MLPerf Inference v2.0 在七个不同种类的神经网络中测试了七个不同的用例。其中三个用例针对计算机视觉,一个用例针对推荐系统,两个用例针对语言处理,还有一个用例针对医学影像。
NVIDIA A100 Tensor Core GPU 和 NVIDIA DGX SuperPOD™ 在所有 MLPerf 测试中的单芯片和大规模工作负载方面都实现了出色的性能。这种突破性性能得益于硬件、软件和系统层面技术的紧密结合。NVIDIA 对整个堆栈的不懈投资推动了每项 MLPerf 提交的性能提升。NVIDIA 平台在整体性能和通用性方面出类拔萃,提供了一个可在任何地方(从数据中心到边缘再到云)使用的单一训练和推理平台。
NVIDIA 的全栈创新促进持续改进
适用于商用解决方案
NVIDIA AI 平台在 MLPerf 测试中实现了出色的性能,并且是唯一一个参与所有基准测试的平台。这展示了全栈 NVIDIA AI 平台的性能和通用性,适用于所有 AI 工作负载。
| 基准测试 | 大规模(分钟) | 单个加速器(分钟) |
|---|---|---|
| 推荐 (DLRM) | 0.59 (DGX SuperPOD) | 12.78 (A100) |
| NLP (BERT) | 0.21 (DGX SuperPOD) | 126.95 (A100) |
| 语音识别 – 递归 (RNN-T) | 2.15 (DGX SuperPOD) | 230.07 (A100) |
| 目标检测 – 重量级 (Mask R-CNN) | 3.09 (DGX SuperPOD) | 327.34 (A100) |
| 目标检测 – 轻量级 (RetinaNet) | 4.25 (DGX SuperPOD) | 675.18 (A100) |
| 图像分类 (ResNet-50 v1.5) | 0.32 (DGX SuperPOD) | 217.82 (A100) |
| 图像分割 (3D U-Net) | 1.22 (DGX SuperPOD) | 170.23 (A100) |
| 强化学习 (MiniGo) | 16.23 (DGX SuperPOD) | 2045.4 (A100) |
A100 的单个加速器性能是利用 NVIDIA 合作伙伴的单节点训练时间计算出来的,并将其乘以芯片的数量,通过比较最接近的类似规模的性能,得出与其他芯片的性能比较。
最大规模条件下的训练时间:DLRM:2.0-2098 | BERT:2.0-2106 | Mask R-CNN:2.0-2099 | ResNet-50 v1.5:2.0-2107 | RetinaNet:2.0-2103 | RNN-T:2.0-2104 | 3D U-Net:2.0-2100 | MiniGo:2.0-2105
每个加速器的训练时间:DLRM:2.0-2068 | BERT:2.0-2070 | Mask R-CNN:2.0-207 | ResNet-50 v1.5:2.0-2069 | RetinaNet:2.0-2091 | RNN-T:2.0-2066 | 3D U-Net:2.0-2060 | MiniGo:2.0-2105
MLPerf 名称和徽标均为商标。详情请参见 www.mlperf.org。
NVIDIA 在所有场景(数据中心服务器和离线以及边缘单流、多流和离线)中都实现了极佳的性能结果。此外,我们的全部受测产品还在全部基准测试中实现了出色的每加速器性能。这些结果不仅证明 NVIDIA 在推理性能上出类拔萃,还证明其推理平台具有通用性。
| NVIDIA A100 (x86 CPU) (推理数/秒) |
NVIDIA A100 (Arm CPU) (推理数/秒) |
NVIDIA A30 (推理数/秒) |
NVIDIA® Jetson AGX Orin™ (最大推理数/查询) |
|
|---|---|---|---|---|
| DLRM (推荐系统) |
312380 | 281283 | 138194 | 不适用* |
| BERT (自然语言处理) |
3490 | 3149 | 1668 | 476 |
| ResNet-50 v1.5 (图像分类) |
39190 | 36487 | 18406 | 6139 |
| ResNet-34 (大型单次检测器) |
990 | 906 | 478 | 208 |
| RNN-T (语音识别) |
13344 | 13188 | 6557 | 1110 |
| 3D U-Net (医学影像) |
3 | 3 | 2 | 0.5 |
*DLRM 不是边缘类别套件的组成部分。
1) 如需检索数据中心服务器外形规格和脱机场景中的 MLPerf v2.0 推理结果,请参阅 www.mlperf.org 于 2022 年 4 月 6 日发布的以下条目:Inf-2.0-094、Inf-2.0-077 和 Inf-2.0-090。用主要的总性能指标除以报告的加速器数量即可计算出每个处理器的性能。
2) 如需检索边缘设备外形规格和离线场景中的 MLPerf v2.0 推理结果,请参阅 www.mlperf.org 于 2022 年 4 月 6 日发布的以下条目:2.0-140。用主要的总性能指标除以报告的加速器数量即可计算出每个处理器的性能。
AI 的复杂性要求平台的各个方面实现紧密结合。正如 MLPerf 基准测试中所展现的,凭借先进的 GPU、强大且可扩展的互连技术以及尖端软件(一种端到端解决方案,可在数据中心、云或边缘部署,并可提供出色结果),NVIDIA AI 平台可提供出色的性能。
要在训练和推理方面获得领先的结果,需要能够应对各种复杂的 AI 挑战的专用基础设施。NVIDIA AI 平台使用 NVIDIA A100 Tensor Core GPU、NVIDIA A30 Tensor Core GPU、NVIDIA A2 Tensor Core GPU、Jetson AGX Orin 模组的强大功能,以及 NVIDIA 互连技术(NVIDIA NVLink®、NVIDIA NVSwitch™ 和 NVIDIA ConnectX®-6 VPI)的可扩展性和灵活性打造。这些都是 NVIDIA DGX™ A100 的核心,而正是 NVIDIA DGX™ A100 助力我们在基准测试中提供出色性能。
NVIDIA DGX™ 系统提供了可扩展性、快速部署能力和惊人的计算能力,可使各个企业均能够构建领先的 AI 基础设施。
详细了解我们的数据中心训练和推理产品性能。