NVIDIA Tensor Core

为 HPC 和 AI 实现大规模加速

Tensor Core 可实现混合精度计算，动态调整算力，从而在保持准确性的同时提高吞吐量。在应对更广泛的 AI 和高性能计算 (HPC) 任务时，新一代 Tensor Core 的速度更胜以往。从 Transformer 网络训练速度提升 6 倍到所有应用程序性能提升 3 倍，NVIDIA Tensor Core 可以赋予各种工作负载新能力。

革命性 AI 训练

当今的 AI 模型面临着对话式 AI 等更高层次的挑战，这促使其复杂度呈爆炸式增长。在 FP32 精度下训练这些大型模型可能需要数周甚至数月时间。NVIDIA Tensor Core 能够通过降低精度（如 Transformer 引擎中的 8 位浮点 (FP8)、Tensor Float 32 (TF32) 和 FP16），在性能方面实现数量级的提高。通过 CUDA-X^™ 库直接支持原生框架，实施可自动完成，从而在保持准确性的同时，大幅缩短从训练到收敛的时间。

NVIDIA 凭借 Tensor Core 在 MLPerf 行业级训练基准测试中斩获佳绩。

突破性 AI 推理

优秀的 AI 推理加速器不仅要提供出色的性能，还要具备能够加速不同神经网络的通用性，以及能够使开发者构建新神经网络的可编程性。要可靠地部署推理，关键的性能要求是在低延迟下实现高吞吐量，同时更大限度地提高利用率。NVIDIA Tensor Core 提供了一整套精度（TF32、Bfloat16 浮点运算性能、FP16、FP8 和 INT8），确保实现出色的通用性和性能。

NVIDIA 凭借 Tensor Core 在 MLPerf 行业级推理基准测试中斩获佳绩。

Advanced HPC

HPC 是现代科学的基石为了点燃新一代发现的火花，科学家使用模拟手段来更好地理解复杂分子结构以支持药物发现，通过模拟物理效果来寻找潜在的能源，以及通过模拟大气数据来更好地预测极端天气状况并为之做好准备。NVIDIA Tensor 核心提供了一整套精度（包括 FP64），能在所需的高准确性下加速科学计算。

该 HPC SDK 能够提供必要的编译器、库和工具，用于开发适用于 NVIDIA 平台的 HPC 应用程序。

NVIDIA H100 Tensor Core

第四代

自推出 Tensor Core 技术以来，NVIDIA GPU 的峰值性能提高了 60 倍，推动了 AI 和 HPC 计算的普及化。NVIDIA Hopper™ 架构利用 Transformer 引擎改进第四代 Tensor Core，该引擎使用新的 8 位浮点精度 (FP8)，可为万亿参数模型训练提供比 FP16 高 6 倍的性能。Hopper Tensor Core 使用 TF32、FP64、FP16 和 INT8 精度，将性能提升 3 倍，能够加速处理各种工作负载。

详细了解 NVIDIA Hopper 架构

FP8
TF32
FP64
FP16
INT8

FP8

由于计算量庞大，Transformer AI 网络的训练时间会延长到几个月。与 Ampere 上的 FP16 相比，Hopper 新增的 FP8 精度可提供高达 6 倍的性能。FP8 用于 Transformer 引擎，后者是一项专门为加速 Transformer 模型训练而打造的 Hopper Tensor Core 技术。Hopper Tensor Core 能够应用混合的 FP8 和 FP16 精度格式，大幅加速 Transformer 训练的 AI 计算，同时保持准确性。FP8 还可大幅提升大型语言模型推理的速度，性能提升高达 Ampere 的 30 倍。

TF32

随着 AI 网络和数据集继续呈指数级扩展，它们对算力的需求也在以同样的速度增长。较低精度的数学计算大幅提升了性能，但过去这样做需要更改一些代码。H100 支持 TF32 精度，它的运作方式与 FP32 相似，与 NVIDIA Ampere™ Tensor Core 相比，它能将 AI 计算速度提高高达 3 倍，而且无需更改任何代码。

FP64

H100 继续为 HPC 提供 Tensor Core 的强大功能，并不断提高性能。与上一代产品相比，H100 的 FP64 性能提升了 3 倍，进一步加速了一系列需要双精度计算的 HPC 应用程序。

FP16

H100 Tensor Core 可提升用于深度学习的 FP16，与 NVIDIA Ampere 架构的 Tensor Core 相比，AI 速度提高了 3 倍。这大幅提高了吞吐量并缩短了收敛时间。

INT8

INT8 Tensor Core 在 NVIDIA Turing™ 中首次引入，可显著加速推理吞吐量，并大幅提升效率。对于生产部署，NVIDIA Hopper 架构中的 INT8 提供了比上一代 Tensor Core 高 3 倍的类似吞吐量。这种通用性为核心和边缘数据中心的大批量实时工作负载提供行业领先的性能。

NVIDIA Ampere 架构 Tensor Core

第三代

NVIDIA Ampere 架构 Tensor Core 基于先前的创新成果而构建，通过使用新的精度（TF32 和 FP64）来加速和简化 AI 采用，并将 Tensor Core 的强大功能扩展至 HPC。这些第三代 Tensor Core 支持 BFloat16、INT8 和 INT4，可为 AI 训练和推理创建高度通用的加速器。

详细了解 NVIDIA Ampere 架构

NVIDIA Turing Tensor Core

第二代

NVIDIA Turing^™ Tensor Core 技术能进行多精度计算，可实现高效的 AI 推理。Turing Tensor Core 提供了一系列用于深度学习训练和推理的精度（从 FP32 到 FP16 再到 INT8 和 INT4），性能大大超过 NVIDIA Pascal^™ GPU。

详细了解 TURING

NVIDIA Volta Tensor Core

第一代

NVIDIA Volta^™ 中的第一代 Tensor Core 专为深度学习而设计，通过 FP16 和 FP32 下的混合精度矩阵乘法提供了突破性的性能 – 与 NVIDIA Pascal 相比，用于训练的峰值 teraFLOPS (TFLOPS) 性能提升了高达 12 倍，用于推理的峰值 TFLOPS 性能提升了高达 6 倍。这项关键功能使 Volta 提供了比 Pascal 高 3 倍的训练和推理性能。

详细了解 VOLTA

功能强大的端到端 AI 和 HPC 数据中心平台

Tensor Core 是整个 NVIDIA 数据中心解决方案的基本构件，该解决方案包含了来自 NVIDIA NGC^™ 目录的硬件、网络、软件、库以及优化的 AI 模型和应用程序。作为强大的端到端 AI 和 HPC 平台，它让研究人员能够更快得到产出结果，并能将解决方案大规模部署到生产环境中。

	Hopper	Ampere	Turing	Volta
支持的 Tensor Core 精度	FP64、TF32、bfloat16、FP16、FP8、INT8	FP64、TF32、bfloat16、FP16、INT8、INT4、INT1	FP16、INT8、INT4、INT1	FP16
支持的 CUDA^® Core 精度	FP64、TF32、FP16、bfloat16、INT8	FP64、TF32、FP16、bfloat16、INT8	FP64、FP32、FP16、INT8	FP64、FP32、FP16、INT8

初步规格，可能会有所变更

深入研究 NVIDIA Hopper 架构

阅读白皮书