当今的 AI 模型需要应对精准对话式 AI 和深度推荐系统等新型挑战,这促使其复杂度呈爆炸式增长。训练这些模型需要大规模的计算能力和可扩展性。
NVIDIA A100 的第三代 Tensor Core 借助 Tensor 浮点运算 (TF32) 精度,可提供比上一代高 10 倍之多的性能,并且无需更改代码,更能通过自动混合精度将性能进一步提升两倍。与第三代 NVIDIA® NVLink®、NVIDIA NVSwitch™、PCIe 4.0、Mellanox 和 Magnum IO 软件 SDK 结合使用时,系统中可以集成数千个 A100 GPU。这意味着,BERT 等大型 AI 模型只需在 A100 构成的集群上进行训练几十分钟,从而提供出色的性能和可扩展性。
NVIDIA 在深度学习训练方面的领先地位在 MLPerf 0.6 中得到了证明,这是 AI 训练的第一项行业级基准测试。