当今的 AI 模型面临着对话式 AI 等更高层次的挑战,这促使其复杂度呈爆炸式增长。在 FP32 精度下训练这些大型模型可能需要数周甚至数月时间。NVIDIA Tensor Core 能够通过降低精度(如 Transformer 引擎中的 8 位浮点 (FP8)、Tensor Float 32 (TF32) 和 FP16),在性能方面实现数量级的提高。通过 CUDA-X™ 库直接支持原生框架,实施可自动完成,从而在保持准确性的同时,大幅缩短从训练到收敛的时间。
NVIDIA 凭借 Tensor Core 在 MLPerf 行业级训练基准测试中斩获佳绩。