一文看懂英伟达A100、A800、H100、H800各个版本有什么区别？

2024-07-16 05:45| 来源: 网络整理| 查看: 265

近期，AIGC领域呈现出一片繁荣景象，其背后离不开强大算力的支持。以ChatGPT为例，其高效的运行依赖于一台由微软投资建造的超级计算机。这台超级计算机配备了数万个NVIDIA A100 GPU，并利用60多个数据中心的数十万个GPU辅助，为ChatGPT提供了强大的算力支持。这种规模的算力部署不仅体现了AIGC技术的先进性，也预示着人工智能技术未来的发展趋势。这种集成了高性能计算、大数据处理和人工智能算法的超级计算机，将成为推动科技进步的重要引擎。

GPU 的核心架构及参数

我们先来简单了解下 NVIDIA GPU 的核心参数，这样能够更好地帮助我们了解这些 GPU 的差别和各自的优势。

CUDA Core：CUDA Core 是 NVIDIA GPU 上的计算核心单元，用于执行通用的并行计算任务，是最常看到的核心类型。NVIDIA 通常用最小的运算单元表示自己的运算能力，CUDA Core 指的是一个执行基础运算的处理元件，我们所说的 CUDA Core 数量，通常对应的是 FP32 计算单元的数量。Tensor Core：Tensor Core 是 NVIDIA Volta 架构及其后续架构（如 Ampere 架构）中引入的一种特殊计算单元。它们专门用于深度学习任务中的张量计算，如[矩阵乘法]和卷积运算。Tensor Core 核心特别大，通常与深度学习框架（如 TensorFlow 和 PyTorch）相结合使用，它可以把整个矩阵都载入寄存器中批量运算，实现十几倍的效率提升。RT Core：RT Core 是 NVIDIA 的专用硬件单元，主要用于加速光线追踪计算。正常数据中心级的 GPU 核心是没有 RT Core 的，主要是消费级显卡才为光线追踪运算添加了 RTCores。RT Core 主要用于游戏开发、电影制作和虚拟现实等需要实时渲染的领域。 NVIDIA GPU 架构的演进

从上图中就可以看出，V100 是前一代的算力大哥，而 H100 则是新一代的大哥，这些架构区别：

Volta 架构：Volta 架构是 NVIDIA GPU 的第六代架构，发布于 2017 年。Volta 架构专注于深度学习和人工智能应用，并引入了 Tensor Core。Turing 架构：Turing 架构是 NVIDIA GPU 的第七代架构，发布于 2018 年。Turing 架构引入了实时光线追踪（RTX）和深度学习超采样（DLSS）等重要功能。Ampere 架构：Ampere 架构是 NVIDIA GPU 的第八代架构，2020 年发布。Ampere 架构在计算能力、能效和深度学习性能方面都有重大提升。Ampere 架构的 GPU 采用了多个[流多处理器]（SM）和更大的总线宽度，提供了更多的 CUDA Core 和更高的频率。它还引入了第三代 Tensor Core，提供更强大的深度学习计算性能。Ampere 架构的 GPU 还具有更高的内存容量和带宽，适用于大规模的数据处理和机器学习任务。Hopper 架构：Hopper 架构是 NVIDIA GPU 的第九代架构，2022 年发布。相较于 Ampere，Hopper 架构支持第四代 Tensor Core，且采用新型流式处理器，每个 SM 能力更强。Hopper 架构在计算能力、深度学习加速和图形功能方面带来新的创新和改进。

A100 A800 40GB显存 80GB显存 PCIE 版和 SXM 版

H100 H800 80GB显存 PCIE 版、 SXM 版 NVL版

与 A100 相比，H100 中新的第四代 Tensor Core 架构可使每时钟每个 SM 的原始密集计算和[稀疏矩阵]运算吞吐量提升一倍，考虑到 H100 比 A100 拥有更高的 GPU 加速频率，其甚至会达到更高的吞吐量。其支持 FP8、FP16、BF16、TF32、FP64 和 INT8 MMA 数据类型。新的 Tensor Core 还能够实现更高效的数据管理，最高可节省 30% 的操作数传输功耗。

NVIDIA为了在遵守美国限制规则的前提下，同时满足中国客户的需求，在11月8日宣布将推出符合美国新规的A100的替代产品A800，并且将会在今年三季度投产。从官方公布的参数来看，A800主要是将NVLink的传输速率由A100的600GB/s降至了400GB/s，其他参数与A100基本一致。

今年3月，英伟达发布了新一代基于4nm工艺，拥有800亿个晶体管、18432个核心的H100 GPU。同样，NVIDIA也推出了针对中国市场的特供版H800。NVIDIA 在给路透社的一份声明中表示：“我们的 800 系列产品符合出口管制法规。”路透社报道称，H800 的芯片间数据传输速度是 H100 的一半。据称800系列产品已被阿里巴巴、百度和腾讯的云部门采用。

由于自去年底以来，随着以ChatGPT为代表的生成式AI的持续火爆，使得生成式AI市场对于基于高性能GPU的AI芯片需求暴涨。其中，性能强大的NVIDIA AI芯片更是备受市场追捧，在市场上居于垄断地位，相比之下AMD的AI芯片市场份额较小。

据统计NVIDIA当前在售的AI加速卡至少有9款型号，其中高性能的有4款，分别是V100、A800、A100及H100。价格方面，V100加速卡至少10000美元，按当前的汇率，约合6.9万元人民币；A800售价12000美元，约合人民币8.7万元，市场一度炒高到10万元人民币；A100售价在1.5万美元，约合人民币10.8万元；H100加速卡是NVIDIA当前最强的，售价3.65万美元，约合26.4万元人民币。

【本文地址】

公司简介

联系我们