GPU(国内外发展，概念参数（CUDA,Tensor Core等），类别，如何选型，NPU,TPU)

您所在的位置：网站首页 › gpu发展历程 › GPU(国内外发展，概念参数（CUDA,Tensor Core等），类别，如何选型，NPU,TPU)

GPU(国内外发展，概念参数（CUDA,Tensor Core等），类别，如何选型，NPU,TPU)

2024-07-05 14:36| 来源: 网络整理| 查看: 265

前言

1.国内外GPU发展简述

2.GPU概念参数和选择标准

2.1 CUDA

2.2 Tensor Core

2.3 显存容量和显存位宽

2.4 精度

2.5 如何选择GPU

3.常见GPU类别和价格

3.1 GPU类别

3.2 GPU价格（部分）

3.3 GPU云服务器收费标准（以阿里云为例）

3.4 国内外GPU对比

4.延深（NPU和TPU）

4.1 NPU

4.2 TPU

4.3 其他PU

参考文献

前言

从目前的市场看，人工智能（大模型）发展的快慢主要取决于算力，其次是算法。而算力又受限于GPU。

1.国内外GPU发展简述

预计到2030年，GPU市场将从现在的几百亿美元规模成长至数千亿美元规模。而当下GPU市场全面被国外垄断，其中桌面级GPU市场被英伟达、AMD和英特尔所垄断，移动级GPU市场被Arm、Imagination和高通所垄断。

随着国际对抗加剧，美国亚脱钩政策频频，2022年8月，美国政府出台新政策，禁止美国公司向中国出高端GPU和其他制造设备。国内现在买不到如NVIDIA的A100 H100等高端GPU。英伟达针对禁令做了应对措施，推出了A100/H100的阉割版本，A800、H800 GPU，主要是在NVLink模式下的带宽从600GB/s下降到400GB/s，其他参数均保持致。我今年3月份问价A800服务器价格在110万/台，6月现货价格在135万/台，期货130万每台，还需要全款后2月内交付。三季度又放出A800停止发货消息，芯片之争愈演愈烈。

在此背景下，国内也加快了国产替代进程，但目前相比主流产品，国产GPU还处于起步阶段。受限于工艺制程、EDA等技术封锁，国内厂商目前在自主研发领域的成果与国际一流水平还有着很大的差距。但随着国内自研GPU的领军企业景嘉微、壁仞科技、芯动科技等逐渐崭露头角，各厂家已发展出了一系列的产品线，并且均采用国内成熟制程工艺及自主架构。

GPU的研发并不是立竿见影，我们要做好苦战的准备，也要避免好高骛远，夸大宣传。科工力量曾指出，为了在宣传中超越英伟达，国产GPU存在田忌赛马式比拼，如某款标榜超越国际旗舰级算力的GPU，却不支持双精度浮点运算，只能用于人工智能方向，短期选择局部突破或是无奈之举，长远而言，还是应该全面超越。。

从短期来看，人工智能的快速发展离不开高端GPU算力的支持，美国的限制政策给予我国一定压力，但长远来看，只有攻克芯片行业，才能不受制于人，真正在人工智能的革命中站稳脚步、引领潮流。

2.GPU概念参数和选择标准

概念：GPU又叫做图形处理器，专门设计用于处理计算机图形和图像的处理器。它可以加速计算机图形渲染和处理操作，提高计算机图形和图像的性能和质量。此外，理解GPU指的是负责处理各种任务的那颗芯片，显卡指的是把GPU芯片、显存、接口等集合在一起的那张板卡。

GPU和CPU：GPU具有更多的处理单元和更高的并行处理能力，因此可以更快地处理大量的图形和图像数据。但GPU无法单独工作，需要依赖CPU控制调用。参考

2.1 CUDA

2006年NVIDIA推出以CUDA为核心的GPU，拉开了一个时代的序幕。CUDA是一种通用并行计算架构，而深度学习，强化学习需要大量且复杂的计算，CUDA的架构大大提高了运算速率，而且CUDA核心数量越多并行计算的能力越大，简单理解，之前需要一年的计算量，CUDA推出之后仅需一天。

2.2 Tensor Core

2017年引入Tensor Core，为大模型的出现奠定了坚实的基础，这也是专为深度学习所设计。深度学习所采用的核心计算主要由张量和矩阵组成，而Tensor Core为了他们专门设计了执行单元，Tensor Core在训练方面能够提供高达12倍的teraflops（兆亿浮点计算）峰值，而在推理方面则可提供6倍的leraflops（兆亿浮点计算）峰值。每个Tensor Core在每个时钟周期可执行64次浮点混合乘加 (FMA) 运算。Tensor Core使用的计算能力要比Cuda Core高得多。

补充：FLOPS，即每秒浮点运算次数（亦称每秒峰值速度）是每秒所执行的浮点运算次数，被用来评估电脑性能，尤其是在使用到大量浮点运算的科学计算领域中。

图1 CUDA和Tensor Core计算区别

2.3 显存容量和显存位宽

显存容量：其主要功能就是暂时储存GPU要处理的数据和处理完毕的数据。显存容量决定了我们一次读入显卡进行运算的数据多少(batch size)和我们能够搭建的模型大小(网络层数、单元数)，是对深度学习研究人员来说很重要的指标

显存位宽：显存在一个时钟周期内所能传送数据的位数，位数越大则瞬间所能传输的数据量越大，这是显存的重要参数之一。

2.4 精度

半精度：如果对运算的精度要求不高，那么就可以尝试使用半精度浮点数进行运算。这个时候，Tensor核心就派上了用场。Tensor Core专门执行矩阵数学运算，适用于深度学习和某些类型的HPC。Tensor Core执行融合乘法加法，其中两个4*4 FP16矩阵相乘，然后将结果添加到4*4 FP16或FP32矩阵中，最终输出新的4*4FP16或FP32矩阵。NVIDIA将Tensor Core进行的这种运算称为混合精度数学，因为输入矩阵的精度为半精度，但乘积可以达到完全精度。Tensor Core所做的这种运算在深度学习训练和推理中很常见。

单精度: Float32 是在深度学习中最常用的数值类型，称为单精度浮点数，每一个单精度浮点数占用4Byte的显存。

双精度：双精度适合要求非常高的专业人士，例如医学图像，CAD。

2.5 如何选择GPU

卷积网络和Transformer：Tensor核心数>单精度浮点性能>显存位宽>半精度浮点性能循环神经网络：显存位宽>半精度浮点性能>Tensor核心数>单精度浮点性能

其他配置选择参考（CPU，硬盘）：地址

3.常见GPU类别和价格

3.1 GPU类别

NVIDIA将其产品定位三类，GeFore用于家庭娱乐，Quadro用于工作站，而Tesla系列用于服务器。Tesla的k型号卡为了高性能科学计算而设计。

Quadro: Quadro系列显卡一般用于特定行业，比如设计、建筑等，图像处理专业显卡，比如CAD、Maya等软件。

Quadro常见系列：

NVIDIA RTX Series系列: RTX A2000、RTX A4000、RTX A4500、RTX A5000、RTX A6000

Quadro RTX Series系列: RTX 3000、RTX 4000、RTX 5000、RTX 6000、RTX 8000

GeForce: 这个系列显卡官方定位是消费级，常用来打游戏。但是它在深度学习上的表现也非常不错，很多人用来做推理、训练，单张卡的性能跟深度学习专业卡Tesla系列比起来其实差不太多，但是性价比却高很多。

GeForce常见系列:

Geforce 10系列: GTX 1050、GTX 1050Ti、GTX 1060、GTX 1070、GTX 1070Ti、GTX 1080、GTX 1080Ti

Geforce 16系列：GTX 1650、GTX 1650 Super、GTX 1660、GTX 1660 Super、GTX 1660Ti

Geforce 20系列：RTX 2060、RTX 2060 Super、RTX 2070、RTX 2070 Super、RTX 2080、RTX 2080 Super、RTX 2080Ti

Geforce 30系列: RTX 3050、RTX 3060、RTX 3060Ti、RTX 3070、RTX 3070Ti、RTX 3080、RTX 3080Ti、RTX 3090 RTX 3090Ti

暂未添加40系列。

补充1：GTX 到RTX：RTX20显卡采用的“图灵”架构引入了RT计算单元，使其光线追踪性能超越上一代显卡的六倍，拥有了即时处理游戏光追的条件，NVIDIA认为这是一个划时代的进化，于是把沿用多年的“GTX”改名为“RTX”。

补充2：GeForce的显卡型号是不同的硬件定制，越往后时钟频率越高显存越大，也就越能充分发挥其计算性能，其G/GS

【本文地址】

公司简介

联系我们