2023年服务器行业专题报告 AIGC带来服务器变革

您所在的位置:网站首页 中国ai服务器前三 2023年服务器行业专题报告 AIGC带来服务器变革

2023年服务器行业专题报告 AIGC带来服务器变革

2024-07-16 15:09:23| 来源: 网络整理| 查看: 265

服务器构成及市场情况

服务器整体市场情况

服务器构成:主要硬件包括处理器、内存、芯片组、I/O (RAID卡、网卡、HBA卡) 、硬盘、机箱 (电源、风 扇)。以一台普通的服务器生产成本为例,CPU及芯片组大致占比50% 左右,内存大致占比 15% 左右,外部 存储大致占比10%左右,其他硬件占比25%左右。 服务器的逻辑架构和普通计算机类似。但是由于需要提供高性能计算,因此在处理能力、稳定性、可靠性、 安全性、可扩展性、可管理性等方面要求较高。 逻辑架构中,最重要的部分是CPU和内存。CPU对数据进行逻辑运算,内存进行数据存储管理。 服务器的固件主要包括BIOS或UEFI、BMC、CMOS,OS包括32位和64位。

服务器市场规模持续增长。根据 Counterpoint 的全球服务器销售跟踪报告,2022年,全球服务器出货量 将同比增长6%,达到 1380 万台。收入将同比增长 17%,达到1117 亿美元。根据IDC、中商产业研究院, 我国服务器市场规模由2019年的182亿美元增长至2022年的273.4亿美元,复合年均增长率达14.5%,预计 2023年我国服务器市场规模将增至308亿美元。 竞争格局:根据IDC发布的《2022年第四季度中国服务器市场跟踪报告Prelim》,浪潮份额国内领先,新 华三次之,超聚变排行第三,中兴通讯进入前五。

AIGC带来服务器变革

AIGC火热,产业生态形成

2022年12月,Open AI的大型语言生成模型ChatGPT火热,它能胜任刷高情商对话、生成代码、构思剧本 和小说等多个场景,将人机对话推向新的高度。全球各大科技企业都在积极拥抱AIGC,不断推出相关技术、 平台和应用。 生成算法、预训练模式、多模态等AI技术累计融合,催生了AIGC的大爆发。 目前,AIGC产业生态体系的雏形已现,呈现为上中下三层架构:①第一层为上游基础层,也就是由预训练 模型为基础搭建的AIGC技术基础设施层。②第二层为中间层,即垂直化、场景化、个性化的模型和应用工 具。③第三层为应用层,即面向C端用户的文字、图片、音视频等内容生成服务。

模型参数量持续提升

GPT模型对比BERT模型、T5模型的参数量有明显提升。GPT-3是目前最大的知名语言模型之一,包含了 1750亿(175B)个参数。在GPT-3发布之前,最大的语言模型是微软的Turing NLG模型,大小为170 亿(17B)个参数。GPT-3 的 paper 也很长,ELMO 有 15 页,BERT 有 16 页,GPT-2 有 24 页,T5 有 53 页,而 GPT-3 有 72 页。 训练数据量不断加大,对于算力资源需求提升。 回顾GPT的发展,GPT家族与BERT模型都是知名的NLP模型,都基于Transformer技术。GPT,是一种 生成式的预训练模型,由OpenAI团队最早发布于2018年,GPT-1只有12个Transformer层,而到了 GPT-3,则增加到96层。其中,GPT-1使用无监督预训练与有监督微调相结合的方式,GPT-2与GPT-3 则都是纯无监督预训练的方式,GPT-3相比GPT-2的进化主要是数据量、参数量的数量级提升。

异构计算成为趋势

未来异构计算或成为主流。异构计算(Heterogeneous Computing)是指使用不同类型指令集和体系架构的计算单元组成系统的计算方式,目前主 要包括GPU云服务器、FPGA云服务器和弹性加速计算实例EAIS等。让最适合的专用硬件去服务最适合的业务场景。 在CPU+GPU的异构计算架构中,GPU与CPU通过PCle总线连接协同工作,CPU所在位置称为主机端 (host),而GPU所在 位置称为设备端(device)。基于CPU+GPU的异构计算平台可以优势互补,CPU负责处理逻辑复杂的串行程序,而GPU重 点处理数据密集型的并行计算程序,从而发挥最大功效。越来越多的AI计算都采用异构计算来实现性能加速。 阿里第一代计算型GPU实例,2017年对外发布GN4,搭载Nvidia M40加速器.,在万兆网络下面向人工智能深度学习场 景,相比同时代的CPU服务器性能有近7倍的提升。

为什么GPU适用于AI

未来异构计算或成为主流 。CPU 适用于一系列广泛的工作负载,特别是那些对于延迟和单位内核性能要求较高的工作负载。作为强大的执行引擎, CPU 将它数量相对较少的内核集中用于处理单个任务,并快速将其完成。这使它尤其适合用于处理从串行计算到数据 库运行等类型的工作。 GPU 最初是作为专门用于加速特定 3D 渲染任务的 ASIC 开发而成的。随着时间的推移,这些功能固定的引擎变得更加 可编程化、更加灵活。尽管图形处理和当下视觉效果越来越真实的顶级游戏仍是 GPU 的主要功能,但同时,它也已经 演化为用途更普遍的并行处理器,能够处理越来越多的应用程序。

训练&推理带来服务器增量需求

训练&推理

训练和推理过程所处理的数据量不同。 在AI实现的过程中,训练(Training)和推理(Inference)是必不可少的,其中的区别在于: 训练过程:又称学习过程,是指通过大数据训练出一个复杂的神经网络模型,通过大量数据的训练确定网络中权重和 偏置的值,使其能够适应特定的功能。 推理过程:又称判断过程,是指利用训练好的模型,使用新数据推理出各种结论。 简单理解,我们学习知识的过程类似于训练,为了掌握大量的知识,必须读大量的书、专心听老师讲解,课后还要做 大量的习题巩固自己对知识的理解,并通过考试来验证学习的结果。分数不同就是学习效果的差别,如果考试没通过 则需要继续重新学习,不断提升对知识的掌握程度。而推理,则是应用所学的知识进行判断,比如诊断病人时候应用 所学习的医学知识进行判断,做“推理”从而判断出病因。

训练和推理过程所处理的数据量不同。 训练需要密集的计算,通过神经网络算出结果后,如果发现错误或未达到预期,这时这个错误会通过网络 层反向传播回来,该网络需要尝试做出新的推测,在每一次尝试中,它都要调整大量的参数,还必须兼顾 其它属性。再次做出推测后再次校验,通过一次又一次循环往返,直到其得到“最优”的权重配置,达成 预期的正确答案。如今,神经网络复杂度越来越高,一个网络的参数可以达到百万级以上,因此每一次调 整都需要进行大量的计算。吴恩达(曾在谷歌和百度任职)举例“训练一个百度的汉语语音识别模型不仅 需要4TB的训练数据,而且在整个训练周期中还需要20 exaflops(百亿亿次浮点运算)的算力”,训练是 一个消耗巨量算力的怪兽。

推算ChatGPT带来的服务器需求增量

由于OpenAI暂未公开ChatGPT(基于大语言模型GPT-3.5)相关技术细节。估算基于GPT-3。 根据天翼智库,训练阶段的算力估算。 根据OpenAI在2020年发表的论文,训练阶段算力需求与模型参数数量、训练数据集规模等有关,且为两者乘积的 6倍:训练阶段算力需求=6×模型参数数量×训练集规模。 GPT-3模型参数约1750亿个,预训练数据量为45 TB,折合成训练集约为3000亿tokens。即训练阶段算力需求 =6×1.75×1011×3×1011=3.15×1023 FLOPS=3.15×108 PFLOPS 。依据谷歌论文,OpenAI公司训练GPT-3采用英伟达V100 GPU,有效算力比率为21.3%。GPT-3的实际算力需求应 为1.48×109 PFLOPS(17117 PFLOPS-day)。 假设应用A100 640GB服务器进行训练,该服务器AI算力性能为5 PFLOPS,最大功率为6.5 kw,则我们测算训练 阶段需要服务器数量=训练阶段算力需求÷服务器AI算力性能=2.96×108台(同时工作1秒),即3423台服务器工 作1日。

AI服务器市场有望迎来高速发展机遇

AI服务器市场规模预计将高速增长

AI服务器作为算力基础设备有望受益于算力需求持续增长 。 AI服务器作为算力基础设备,其需求有望受益于AI时代下对于算力不断提升的需求而快速增长。 根据TrendForce,截至2022年为止,预估搭载GPGPU(General Purpose GPU)的AI服务器年出货量 占整体服务器比重近1%,预估在ChatBot相关应用加持下,有望再度推动AI相关领域的发展,预估出货量 年成长可达8%;2022~2026年复合成长率将达10.8%。 AI服务器是异构服务器,可以根据应用范围采用不同的组合方式,如CPU + GPU、CPU + TPU、CPU + 其他加速卡等。IDC预计,中国AI服务器2021年的市场规模为57亿美元,同比增长61.6%,到2025年市 场规模将增长到109亿美元,CAGR为17.5%。

用户快速增长+模型持续迭代+应用场景的不断扩张或将使AI服务器需求超预期 ChatGPT用户数快速增加,上线仅5天,用户数便突破百万,上线两月后,ChatGPT月活用户数突破1亿, 根据Similarweb统计,OPENAI网站用户访问量快速增长,我们预计未来用户数仍将快速提升,带来交互 对话的产生,提升推理所需算力基础设施需求。 2018年OpenAl正式发布GPT(生成式预训练语言模型),可以生成文章、代码、机器翻译等,GPT是 ChatGPT的前身,最终形成的ChatGPT是优化版本的对话语言模型。预计GPT-4模型的参数量仍将进一步 增长,根据天翼智库,给GPT-3喂料的长度每次不能超过大约2000个字,现在GPT-4的“消化能力”提升 了10倍以上。 带来AI应用生态的繁荣,未来有望涌现更多应用场景。

AI服务器产业链解析

AI服务器构成及形态

AI服务器主要构成: 以浪潮NF5688M6 服务器为例,其采用NVSwitch实现 GPU跨节点P2P高速通信互联。整机8 颗 NVIDIA Ampere架构 GPU,通过NVSwitch实现GPU跨节点 P2P高速通信互联。配置 2颗第三代Intel® Xeon® 可 扩展处理器(Ice Lake),支持8块2.5英寸NVMe SSD or SATA/SAS SSD以及板载2块 SATA M.2,可选配1张 PCIe 4.0 x16 OCP 3.0网卡,速率支持10G/25G/100G; 可支持10个PCIe 4.0 x16插槽, 2个PCIe 4.0 x16插槽 (PCIe 4.0 x8速率), 1个OCP3.0插槽;支持32条DDR4 RDIMM/LRDIMM内存,速率最高支持3200MT/s,物 理结构还包括6块3000W 80Plus铂金电源、N+1冗余 热插拔风扇、机箱等。 目前按照GPU数量的不同,有4颗GPU(浪潮 NF5448A6)、8颗GPU(Nvidia A100 640GB)以及 16颗GPU(NVIDIA DGX-2)的AI服务器。

液冷:数据中心液冷应用将增加

A100服务器系统功耗明显提升。以NVIDIA的DGX A100 640GB为例,其配置了8片A100 GPU,系统功耗达到最大6.5 千瓦,未来随着A100服务器的应用增多,我们认为或将显著提升数据中心机柜的功耗。制冷散热主要方式:目前发展的散热冷却技术主要有风冷和液冷两大类,其中风冷包括自然风冷和强制风冷,适用的机柜功 率密度较低;液冷分为单相液冷和相变液冷。散热冷却系统所采用的冷却介质、冷却方式不同,移热速率差距大。传统风冷 最高可冷却30 kW/r的机柜,对于30 kW/r以上功率密度的机柜无法做到产热与移热速率匹配,会使机柜温度不断升高导致 算力下降甚至损害设备。 可以看到,采用A100后服务器功率大幅提升,参考上文若采用英伟达DGX A100 640GB服务器,单机柜的功率或将超过 30kW,此时更适宜应用液冷的冷却方案。 液冷分为间接液冷、直接单相液冷和直接两相液冷,主要根据液体与IT设备接触状态来区分。 我们预计液冷将在行业内开始推广,同时服务器厂商浪潮信息也开始推动进行液冷布局,All in液冷带动行业发展趋势。

AI服务器竞争格局

DC发布了《2022年第四季度中国服务器市场跟踪报告Prelim》。从报告可以看到,前两名浪潮与新华三 的变化较小,第三名为超聚变,从3.2%份额一跃而至10.1%,增幅远超其他服务器厂商。Top8服务器厂 商中,浪潮、戴尔、联想均出现显著下滑,超聚变和中兴则取得明显增长。其中,浪潮份额从30.8%下降 至28.1%;新华三份额从17.5%下降至17.2%;中兴通讯(000063)从3.1%提升至5.3%,位居国内第5。 联想降幅最为明显,从7.5%下降至4.9%。 据TrendForce集邦咨询统计,2022年AI服务器采购占比以北美四大云端业者Google、AWS、Meta、 Microsoft合计占66.2%为最,而中国近年来随着国产化力道加剧,AI建设浪潮随之增温,以ByteDance 的采购力道最为显著,年采购占比达6.2%,其次紧接在后的则是Tencent、Alibaba与Baidu,分别约为 2.3%、1.5%与1.5%。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)



【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭