国产AI服务器分类、技术及产品(2023)

您所在的位置:网站首页 ai服务器销量排行 国产AI服务器分类、技术及产品(2023)

国产AI服务器分类、技术及产品(2023)

2024-07-16 15:46:02| 来源: 网络整理| 查看: 265

目前国产服务器主要品牌也就是浪潮、曙光、华为、超聚变、新华三、联想、风虎(科研服务器风虎信息、风虎云龙),也还有很多其他品牌,外国品牌惠普、戴尔、IBM等在国内还有不小的份额,其实核心部件大家都一样,选国产的更划算。

说明:

1、华为、超聚变已经为两家,超聚变以X86架构服务器为主,华为在走自研处理器服务器,主要为鲲鹏、昇腾系列;

2、科研服务器往往是众多应用的基础、涉及科研方向、领域较宽,特别是不同软件特征和使用环境,要求团队要有相当的专业经验,科研服务器是各类应用场景的先导和基础。

AI服务器采取GPU架构,相较CPU更适合进行大规模并行计算。通用服务器采用CPU作为计算能力来源,而AI服务器为异构服务器,可以根据应用范围采用不同的组合方式,如CPUGPU、CPUTPU、CPU其他加速卡等,主要以GPU提供计算能力。从ChatGPT模型计算方式来看,主要特征是采用了并行计算。对比上一代深度学习模型RNN来看,Transformer架构下,AI模型可以为输入序列中的任何字符提供上下文,因此可以一次处理所有输入,而不是一次只处理一个词,从而使得更大规模的参数计算成为可能。而从GPU的计算方式来看,由于GPU采用了数量众多的计算单元和超长的流水线,因此其架构设计较CPU而言,更适合进行大吞吐量的AI并行计算。

点击输入图片描述(最多30字)

深度学习主要进行矩阵向量计算,AI服务器处理效率更高。从ChatGPT模型结构来看,基于Transformer架构,ChatGPT模型采用注意力机制进行文本单词权重赋值,并向前馈神经网络输出数值结果,这一过程需要进行大量向量及张量运算。而AI服务器中往往集成多个AI GPU,AI GPU通常支持多重矩阵运算,例如卷积、池化和激活函数,以加速深度学习算法的运算。因此在人工智能场景下,AI服务器往往较GPU服务器计算效率更高,具备一定应用优势。

点击输入图片描述(最多30字)

AI服务器分类方式有两种:

1)按应用场景:AI服务器按照应用场景可以分为深度学习训练型和智能应用推理型。训练任务对服务器算力要求较高,需要训练型服务器提供高密度算力支持,典型产品有中科曙光X785-G30和华为昇腾Atlas 800(型号9000、型号9010)。推理任务则是利用训练后的模型提供服务,对算力无较高要求,典型产品有中科曙光X785-G40和华为昇腾Atlas 800(型号3000、型号3010)。

2)按芯片类型:AI服务器为异构服务器,可以根据应用范围调整计算模块结构,可采用CPU+GPU、CPU+FPGA、CPU+TPU、CPU+ASIC或CPU+多种加速卡等组合形式。目前,产品中最常见的是CPU+多块GPU的方式。

点击输入图片描述(最多30字)

常见的AI服务器分为四路、八路、十六路。一般来说,通用服务器主要采用以CPU为主导的串行架构,更擅长逻辑运算;而AI服务器主要采用加速卡为主导的异构形式,更擅长做大吞吐量的并行计算。按CPU数量,通用服务器可分为双路、四路和八路等。虽然AI服务器一般仅搭载1-2块CPU,但GPU数量显著占优。按GPU数量,AI服务器可以分为四路、八路和十六路服务器,其中搭载8块GPU的八路AI服务器最常见。

点击输入图片描述(最多30字)

AI服务器采用多芯片组合,算力硬件成本更高。我们以典型服务器产品为例拆解硬件构成,可以更清晰地理解两类服务器硬件架构区别:以浪潮通用服务器NF5280M6为例,该服务器采用1~2颗第三代Intel Xeon可扩展处理器,据英特尔官网,每颗CPU售价约64000万元,故该服务器芯片成本约64000~128000;以浪潮AI服务器NF5688M6为例,该服务器采用2颗第三代Intel Xeon可扩展处理器+8颗英伟达A800 GPU的组合,据英伟达官网,每颗A800售价104000元,故该服务器芯片成本约96万元。

点击输入图片描述(最多30字)

GPT模型训练需要大算力支持,或将带来AI服务器建设需求。我们认为,随着国内厂商陆续布局ChatGPT类似产品,GPT大模型预训练、调优及日常运营或将带来大量算力需求,进而带动国内AI服务器市场放量。以GPT-3 175B模型预训练过程为例,据OpenAI,进行一次GPT-3 175B模型的预训练需要的算力约3640 PFlop/s-day。我们假设以浪潮信息目前算力最强的AI服务器NF5688M6(PFlop/s)进行计算,在预训练期限分别为3、5、10天的假设下,单一厂商需采购的AI服务器数量分别为243、146、73台。

点击输入图片描述(最多30字)

AI大模型训练需求火热,智能算力规模增长有望带动AI服务器放量。据IDC数据,以半精度(FP16)运算能力换算,2021年中国智能算力规模约155.2EFLOPS。随着AI模型日益复杂、计算数据量快速增长、人工智能应用场景不断深化,未来国内智能算力规模有望实现快速增长。IDC预计2022年国内智能算力规模将同比增长72.7%至268.0 EFLOPS,预计2026年智能算力规模将达1271.4 EFLOPS,2022-2026年算力规模CAGR将达69.2%。我们认为,AI服务器作为承载智能算力运算的主要基础设施,有望受益于下游需求放量。EE芯视频推荐 视频:科电SMCV100B

点击输入图片描述(最多30字)

国产厂商布局丰富产品矩阵,占据全球AI服务器市场领先地位 浪潮信息、联想、华为等国产厂商在全球AI服务器市场占据领先地位。全球市场来看,AI服务器市场份额TOP10厂商中,国产厂商占据4席,累计市场份额超35%,其中浪潮信息以20.2%的份额排名第一。国内市场来看,AI服务器市场集中度较高,排名前三的供应商为浪潮信息、宁畅和华为,CR3达70.40%。我们认为,国产厂商凭借强大产品竞争力,已经在国际市场占据一定领先地位,未来随着AI算力需求释放,有望充分受益于产业成长机遇。

点击输入图片描述(最多30字)

浪潮信息:AI服务器产品矩阵丰富,产品力获国际认可。目前公司AI服务器主要产品型号包括NF5688M6、NF5488A5等,据公司官网,2021年上述两款AI服务器在国际权威AI基准测试MLPerf榜单中,获得医学影像分割、目标物体检测、自然语言理解、智能推荐等7项训练冠军,可满足包括自然语言理解等在内的多项AI训练需求。此外,公司在AI领域的积累还包括AI资源平台、AI算法平台等,具备大量算力解决方案实施经验。

点击输入图片描述(最多30字)

华为:AI服务器融合自研加速卡与英特尔CPU。公司AI服务器为Atlas 800推理服务器系列,旗下有型号3000、型号3010、型号9000和型号9010。其中,型号3000基于昇腾310芯片,型号3010基于Intel处理器,型号9000基于华为鲲鹏920+昇腾910处理器,型号9010基于Intel处理器+华为昇腾910芯片。旗舰级芯片加持下,产品最高拥有2.24 PFLOPS FP16的高密度算力,并在设计结构优化下,芯片间跨服务器互联时延可缩短10~70%。

点击输入图片描述(最多30字)

新华三AI服务器覆盖各训练负载要求,结合软件平台构建AI完整生态。公司主要产品型号包括R4900 G5、R5300 G5、R5500 G5等,可分别针对不同训练负载要求,满足大小规模的推理/训练任务。软件层面,公司通过新华三傲飞AI/HPC融合管理平台,全面提升AI作业效率约32%。2022年,新华三被国际权威分析机构Forrester认定为大型人工智能系统成熟厂商,可以提供可靠的服务器解决方案。同时,新华三AI服务器在MLPerf测评中共斩获86项世界第一。

点击输入图片描述(最多30字)

龙头厂商有望充分受益于算力需求释放。我们认为,随着ChatGPT待动大模型训练热潮,以人工智能训练为代表的智能算力需求逐步释放,有望带动AI服务器放量。拆解AI服务器成本来看,GPU等算力芯片为核心组件,先进算力产品受美国出口管制影响,但可通过采购A800实现基本替代。我们认为,浪潮信息等国产头部厂商凭借丰富产品矩阵和强大产品竞争力,占据全球AI服务器市场主要份额,未来有望充分受益于服务器需求释放。拆解来看,AI服务器主要成本包括算力芯片、内存、存储等。据IDC的2018年服务器成本结构拆分数据,芯片成本在基础型服务器中约占总成本的32%,在高性能或具有更强运算能力的服务器中,芯片相关成本占比可以高达50%-83%。以机器学习型AI服务器为例,其主要成本由GPU、CPU、内存及其他部件组成,其中GPU成本占比最高,达到72.8%。

点击输入图片描述(最多30字)

AI服务器算力芯片以GPU为主。据IDC,2022年国内人工智能芯片市场中,GPU芯片占据主要市场份额,达89.0%,主因GPU芯片并行计算架构更加适合于复杂数学计算场景,可以较好支持高度并行的工作负载,因此常用于数据中心的模型训练,以及边缘侧及端侧的推理工作负载。此外,其他主要的人工智能芯片还包括NPU、ASIC、FPGA等。一般而言,AI服务器中算力芯片需求数量取决于服务器设计性能要求,需求种类取决于成本、功耗、算法等指标。常见的算力芯片组合,如8x GPU+2x CPU、4x GPU+ 2x CPU、8x FPGA+1x CPU、4x FPGA+1x CPU等。

点击输入图片描述(最多30字)

GPU结构:计算单元+显存。计算单元(Streaming Multiprocessor):计算单元的功能是执行计算。其中每一个SM都有独立的控制单元、寄存器、缓存、指令流水线。显存(Global Memory):显存是在GPU板卡上的DRAM,容量大但速度慢。

1.计算单元底层架构: 显卡核心构成多样,不同核心专注不同任务。以英伟达为例,GPU显卡构成包括TENSOR CORE、CUDA和RT等部分。TENSOR CORE,即张量核心,是英伟达GPU上一块特殊区域,针对AI矩阵计算设计,可显著提高AI训练吞吐量和推理性能。CUDA则是英伟达生态中的通用结构,一般包括多个数据类型,适用于视频制作,图像处理,三维渲染等常见图像处理和计算工作。

点击输入图片描述(最多30字)

2、TOPS和TFLOPS是常见算力衡量单位:

1)OPS:OPS(Operations Per Second)指每秒执行的操作次数,是整数运算的单位,常在INT8、INT4等计算精度下度量算力性能。其中TOPS(Tera Operations Per Second)代表处理器每秒钟可进行一万亿次(10^12)操作,类似的单位还有诸如GOPS、MOPS,均代表每秒的操作次数。

2)FLOPS:FLOPS(Floating-point Operations Per Second)指每秒所执行的浮点运算次数,常在单精度(FP32)、半精度(FP16)等计算精度下度量算力性能。TFLOPS(Tera Floating-point Operations Per Second)代表处理器每秒钟可进行一万亿次(10^12)浮点运算。虽然TOPS和TFLOPS数量级一样,但前者是衡量操作次数,后者是衡量浮点运算,TOPS要结合数据类型精度(如INT8,FP16等)才能与FLOPS转换。

3.显存位宽、带宽与容量: 显存的主要指标包括位宽、带宽和容量。显存本身与CPU的内存类似,将数据在GPU核心与磁盘间传输。显存位宽是显存在一个时钟周期内所能传送数据的位数,决定了显存瞬时传输的数据量。显存带宽是指显示芯片与显存之间的数据传输速率,由显存频率和显存位宽共同决定,体现了显卡的速度和性能。显存容量决定了显存临时存储数据的多少。目前主流AI GPU芯片包括英伟达H100、A100以及V100等。全球来看,目前用于人工智能训练的AI GPU市场以英伟达为主导,公司旗下先进算力产品主要包括H100、A100以及V100。对比双精度浮点计算性能(FP64 Tensor Core)来看,H100、A100、V100计算速度分别为67 TFLOPS、19.5 TFLOPS、8.2 TFLOPS。从显存带宽来看,H100、A100、V100传输速度分别为3TB/s、2TB/s、900GB/s。

点击输入图片描述(最多30字)

先进算力芯片进口受限或为国产AI服务器的瓶颈之一。

2022年10月7日,美国商务部工业与安全局(BIS)宣布了针对中国出口先进芯片的管制新规声明。声明规定,满足输入输出(I/O)双向传输速度高于 600GB/s,同时每次操作的比特长度乘以 TOPS 计算出的处理性能合计为 4800 或更多算力的产品,将无法出口至中国。以英伟达A100为例,以TF32性能测算,即156*32=4992>4800,且传输速度为600GB/s。基于此,我们可以推断,性能大于等于A100 GPU的先进算力芯片属于美国出口限制范围。

采用英伟达A800服务器或为当前可行替代方案。以浪潮NF5688M6为例,NF5688M6是为超大规模数据中心研发的NVLink AI 服务器,支持2颗Intel最新的Ice Lake CPU和8颗NVIDIA最新的NVSwitch全互联A800GPU,单机可提供5PFlops的AI计算性能。对比核心硬件来看,NF5688M6采用英伟达中国特供版芯片—A800,在浮点计算能力、显存带宽、显存容量等性能指标上,与先进算力芯片—A100基本一致,主要差异在于芯片的数据传输速度,约为A100的三分之二。

点击输入图片描述(最多30字)

英伟达其他AI GPU芯片均不受出口限制影响。考虑到目前美国GPU芯片限制主要集中在先进算力领域,倘若未来进一步加大限制力度,A800等大算力芯片可能出现进一步被限制的风险。而从英伟达产品线布局来看,除了前面讨论的A100、A800、V100、H100等先进算力芯片外,还有A2、A10、A30、A40、T4等。这些芯片中,浮点计算能力最强的型号为A30,输出性能为82*32=2624



【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭