半导体行业专题报告:算力芯片未来可期 您所在的位置:网站首页 日本半导体专业最强大学 半导体行业专题报告:算力芯片未来可期

半导体行业专题报告:算力芯片未来可期

2023-06-27 15:51| 来源: 网络整理| 查看: 265

(报告出品方:东方证券)

1 算力芯片壁垒高、发展必要性强

英伟达宣布生成式 AI 引擎 Nvidia DGX GH200 现已投入量产。2023 年 5 月 28 日,英伟达创始 人兼 CEO 黄仁勋在 NVIDIA Computex 2023 演讲中宣布,生成式 AI 引擎 NVIDIA DGX GH200 现 已投入量产。GH200 使用 Nvidia 的 NVLink-C2C 互连技术,将 Nvidia 基于 ARM 的 Grace CPU 和 Hopper GPU 架构融合到一个芯片中。NVIDIA DGX GH200 将 256 个 NVIDIA Grace Hopper 超级芯片完全连接到单个 GPU 中,支持万亿参数 AI 大模型训练,能够处理大规模推荐系统、生 成式人工智能和图形分析,并为巨型人工智能模型提供线性可扩展性。Nvidia 的服务器合作伙伴 正计划基于新的 GH200 Superchip 打造他们自己的系统,首批产品将于今年晚些时候上市。

GH200 速度和功耗指标都有显著提升。这款新的芯片总带宽达每秒 900GB,比当今最先进的加 速计算系统中采用的标准 PCIe Gen5 通道高出 7 倍。Nvidia 表示,Superchip 的功耗也降低了 5 倍,使其能够更有效地处理那些要求苛刻的 AI 和高性能计算应用。 AMD 推出数据中心 APU Instinct MI300。北京时间 2023 年 6 月 14 日凌晨,AMD 推出数据中心 APU(加速处理器)Instinct MI300,其旨在帮助数据中心处理人工智能相关数据流量,并在这一 快速增长的市场上挑战英伟达的垄断地位。Instinct MI300 系列将包括一个 GPU(图形处理器) MI300X,可以加速 ChatGPT 等聊天机器人所使用的生成式 AI 技术的处理。 先进算力国产替代在行业变革中有望迎来机遇。半导体国产化势在必行,而算力芯片又是重中之 重。AI 算力、低功耗等对服务器算力芯片提出新的要求,市场格局近几个季度变化较多,英伟达 GH200 有望加速全球 AI 服务器算力芯片市场变革,中国芯片企业在面临挑战的同时,也有望迎 来发展机遇。

1.1 不同算力芯片的特点与区别

计算芯片包括 CPU、GPU、FPGA、ASIC 等,都用作计算分析。其中,CPU 是性能最综合的计 算芯片,AI 算法的执行也运用 GPU、FPGA、ASIC 等芯片。

CPU 是综合计算芯片,擅长逻辑控制和串行运算。计算机的运算器和控制器一起组成了 CPU, CPU 是整台计算机的大脑,也是一个有多种功能的优秀领导者。它的优点在于调度、管理、协调能力强,计算能力则位于其次。CPU 有大量的缓存和复杂的逻辑控制单元,非常擅长逻辑控制、 串行的运算,但因计算单元占 30%左右,不擅长复杂算法运算和处理并行重复的操作。 GPU 相比 CPU 计算单元大大增加,擅长大量并行计算。而作为通用芯片的 GPU 相当于一个接受 CPU 调度的“拥有大量计算能力”的员工,计算单元相比 CPU 大大增加。GPU 最初承担图像计 算任务,能够进行并行计算,因此 GPU 架构本身比较适合深度学习算法,通过对 GPU 的优化, 进一步满足深度学习大量计算需求。其主要缺点在于功耗较高。

GPU 按照接入类型可以分为独立 GPU 和集成 GPU。独立 GPU 即独立显卡,需要插在主板的相 应接口上,具备单独的显存,不占用系统内存,能够提供更好的显示效果和运行性能。全球知名 供应商主要包括 AMD 和 NVIDIA 两家。集成 GPU 即集成显卡,是将图形核心以单独芯片的方式 集成在主板上,并且动态共享部分系统内存作为显存使用,能够提供简单的图形处理能力,以及 较为流畅的编码应用。全球知名供应商主要包括英特尔和 AMD 两家。

GPU 按照应用场景不同可分为 PC GPU、服务器 GPU 和移动 GPU。1)集成 GPU 一般运用于 PC 以轻办公、文字编纂为主;独立 GPU 则一般运用于 PC 以制作高清图片、编辑视频、渲染游 戏等。2)服务器 GPU 主要以独立 GPU 为主。服务器 GPU 主要应用于服务器,可做专业可视 化、计算加速、深度学习等应用。3)移动 GPU 以集成 GPU 为主。随着移动端向着轻薄化不断发展,终端内部净空间随着多种功能模组的增加呈快速下降趋势。此外,就目前的移动端视频和 图片的处理要求而言,集成 GPU 的性能尚可满足移动端的需要。 FPGA 又称半定制化芯片,具有足够的计算能力、较低的试错成本和足够的灵活性。FPGA 的计 算速度快是源于它本质上是无指令、无需共享内存的体系结构,“无指令”即使用硬件描述语言 编程,直接编译为晶体管电路的组合,所以 FPGA 实际上直接用晶体管电路实现用户的算法,没 有通过指令系统的翻译;“无需共享内存”是指对于保存状态的需求,FPGA 中的寄存器和片上 内存(BRAM)是属于各自的控制逻辑的,无需不必要的仲裁和缓存。因此 FPGA 运算速度足够 快,优于 GPU。同时,相比量产成本高昂的 ASIC 芯片,因为 FPGA 是一种半定制的硬件,通过 编程可定义其中的单元配置和链接架构进行计算,因此在灵活性上优于 ASIC,具备较低试错成本。

ASIC 是全定制芯片,性能强但是前期开发久、成本高。是根据产品的需求进行特定设计和制造 的集成电路,能够在特定功能上进行强化,具有更高的处理速度和更低的能耗。缺点是成本高, 且由于定制化,可复制性一般,因此只有用量足够大时才能够分摊前期投入,降低成本。

1.2 CPU 广泛应用于服务器、工作站、个人计算机等

CPU 可以应用在服务器、工作站、个人计算机(台式机、笔记本电脑)、移动终端和嵌入式设备 等不同设备上,根据应用领域的不同,其架构、功能、性能、可靠性、能效比等技术指标也存在 一定差异。

服务器处理器需长时间运行,数据处理能力最强、设计工艺最复杂、可靠性最高。服务器具有高 速的数据处理能力、强大的 I/O 数据吞吐能力、良好的可扩展性,并需要长时间可靠运行,其 CPU 芯片在性能、可靠性、可扩展性和可维护性等方面要求较为苛刻。因此,服务器处理器是数 据处理能力最强、设计工艺最复杂、可靠性最高的处理器。服务器的应用领域包括实时分析、5G 应用、人工智能、机器学习、金融、大数据和云计算等领域。 工作站主要为单用户提供比个人计算机更强大的性能。工作站是一种高端微型计算机,主要为单 用户提供比个人计算机更强大的性能,尤其是在数据并行处理能力和图形处理能力等方面。工作 站的典型应用领域包括科学和工程计算、软件开发、计算机辅助设计等。 个人计算机主要满足个人需求,核心数量较少。个人计算机包括台式机和笔记本电脑两大类,主 要用于满足个人的工作、学习、娱乐需求,以及企业员工的办公需求。个人计算机处理器核心数 量较少,具有较少 I/O。

移动终端具有低功耗、轻量化等特点,关注对多媒体功能的增强。移动终端包括手机、笔记本、 平板电脑、POS 机等。随着集成电路技术的进步和移动网络向宽带化发展,移动终端正从简单通 话工具逐步转变为综合信息处理平台。移动终端处理器具有低功耗、轻量化等特点,关注对多媒 体功能的增强,具有较少 I/O。 嵌入式设备对功耗、稳定性、可扩展能力要求高。嵌入式设备需要具有高稳定性和低功耗,其处 理器对环境(如温度、湿度、电磁场、振动等)的适应能力强,体积小,且集成度高,适用于工 业控制、移动便携设备、物联网终端等场合。其中,大多数物联网设备需要额外的 CPU 处理能力 来支持可升级的额外功能。因此,针对特定的物联网应用程序的 CPU 不仅必须支持安全特性,而且必须同时具有可扩展的性能,实现更高的时钟频率。物联网应用处理器芯片具有面向高集成度、 高抗干扰能力和低功耗的发展趋势。

1.3 GPU 等 AI 芯片广泛应用于高性能运算、深度学习等场景

AI 芯片主要指面向人工智能应用的芯片。大致包含三类:1)通用、半定制化芯片:经过软硬件 优化可以高效支持 AI 应用的通用芯片,如 GPU,FPGA;2)专门为特定的 AI 产品或者服务而设 计的芯片:侧重加速机器学习(尤其是神经网络、深度学习),如 ASIC;3)神经形态计算芯片: 不采用经典的冯·诺依曼架构,而是基于神经形态架构设计,类似人脑,具备较高的集成度和能 效比,以 IBM Truenorth 为代表。

2 份额提升空间大,性能有待突破

2.1 国内厂商份额极低,具备广阔拓展空间

全球 CPU 商用市场基本被 Intel、AMD 两家垄断,国产 CPU 具备广阔拓展空间。CPU 目前从市 场占有率来说,Intel 依靠其强大的 X86 生态体系和领先的制造能力,在通用 CPU 市场占据领先 地位。2021 年,Intel 市场份额不低于 80%,AMD 近期追赶势头明显,其他厂商整体市场份额不 超过 7%。

英特尔优势降低,数据中心领域集中度有所降低。2022 年,数据中心领域 Intel 市场占有率为 71%,较 21 年下降 10pcts,AMD 22 年市占率快速提升 8pcts 至 20%,亚马逊、Ampere 等新兴 玩家份额快速提升,给总计份额不足 5%的国产厂商发展带来了借鉴意义。

全球 GPU 市场为三足鼎立的寡头竞争格局,英伟达在独显领域一家独大。在独立显卡市场上, 长期以来都是 AMD 及 NVIDIA 两家的二人转,2022 年 Intel 正式杀入了显卡市场,目前独立 GPU 市场则主要由 NVIDIA、AMD 和英特尔三家公司占据,2022 年 Q4 全球独立 GPU 市场占有率分 别为 85%、9%和 6%,其中,NVIDIA 在 PC 端独立 GPU 领域市场占有率优势明显。

2.2 多数参数我国 CPU 具备比肩能力

影响国内CPU市占率的主要是技术差异,即产品性能。CPU性能的主要影响因素为频率和IPC, 其他影响 CPU 性能的因素还有总线宽度、制程、存储、内核数、封装技术等。

(1)主频,外频和倍频和 IPC。主频是 CPU 的时钟频率,即 CPU 的工作频率,一般来说,一个 时钟周期完成的指令数是固定的,所以主频越高,CPU单位时间运行的指令数越多。外频即CPU 和周边传输数据的频率,具体是指 CPU 到芯片组之间的总线速度,CPU 的外频决定着整块主板 的运行速度。产生的输出信号频率是输入信号频率的整数倍称为倍频,倍频和外频相乘就是主频, 当外频不变时,提高倍频,CPU主频也就越高。IPC指 CPU每一个频率周期里处理的指令数量。

(2)地址总线宽度。地址总线是专门用来传送地址的,CPU 通过地址总线来选用外部存储器的 存储地址,总线宽度决定了 CPU 可以访问的物理地址空间(寻址能力),简单地说就是 CPU 到 底能够使用多大容量的内存。例如 32 位的地址总线,最多可以直接访问 4GB 的物理空间。8 位 微机的地址总线为 16 位,则其最大可寻址空间为 2^16=64KB。

(3)数据总线宽度。数据总线宽度决定了 CPU 与内存以及输入、输出设备之间一次数据传输的 信息量。

(4)制程和封装。CPU 的生产需要经过硅提纯、切割晶圆、影印、蚀刻、分层、封装、测试 7 个工序,制程工艺的提升或更小的制程对于 CPU 性能的提升影响明显,主要表现为 CPU 频率提 升以及架构优化两个方面。一方面,工艺的提升与频率紧密相连,使得芯片主频得以提升;另一 方面工艺提升带来晶体管规模的提升,从而支持更加复杂的微架构或核心,带来架构的提升。

(5)工作电压。指的是 CPU 正常工作所需的电压。低电压能够解决耗电多和发热过高的问题, 使 CPU 工作时的温度降低,工作状态稳定。

(6)高速缓冲存储器。它是一种速度比内存更快的存储设备,用于缓解 CPU 和主存储器之间速 度不匹配的矛盾,进而改善整个计算机系统的性能。很多大型、中型、小型以及微型计算机中都 采用高速缓存。

(7)除上述性能指标外,CPU 还有其他如接口类型、多媒体指令集、装封形式、整数单元和浮 点单元强弱等性能影响指标。

多数参数我国 CPU 具备比肩能力,IPC 性能是最主要差距。目前通过公开信息可以看出,主频、 核心数、内存类型等指标我国 CPU 厂商差异不大,具备一定的比肩能力,但落实到具体性能决定 指标 IPC,仅 Intel 和 AMD 会公布 IPC“相比上一代提升了多少”,其他国产 CPU 从 IPC 性能来 看大致落后于 Intel、AMD 几年水平。

2.3 国内厂商提升 CPU 性能的几大壁垒

2.3.1 指令级架构与生态绑定多年,创新面临知识产权等多重壁垒

指令集是 CPU 所执行的指令的二进制编码方法,是软件和硬件的接口规范。日常交流中有时也把 指令集称为架构。CPU 按照指令集可分为 CISC(复杂指令集)和 RISC(精简指令集)两大类, CISC 型 CPU 目前主要是 x86 架构,RISC 型 CPU 主要包括 ARM、RISC-V、MIPS、POWER 架 构等。 指令集架构与生态绑定多年,创新面临知识产权、时间等多重壁垒。历经几十年的发展,全球形 成了 Wintel(Windows+Intel)和 AA(Android+ARM)两大信息化生态体系,并且都由美国主导, 在生态和知识产权上都形成了自己的“领地”。中国之前没有指令集,重新搭建或者在现有的开 源指令集基础上修改,会面临知识产权问题以及前期需要大量的试错优化过程。且新的指令集需 要新的生态来适配,所需要的操作系统、基础软件和各种应用软件都需要重新适配,这也是目前 新指令集发展的一个难点。

(1)x86 架构:主导桌面/服务器 CPU 市场

基于 CISC(复杂指令集)的 x86 架构是一种为了便于编程和提高存储器访问效率的芯片设计体 系,包括两大主要特点:一是使用微代码,指令集可以直接在微代码存储器里执行,新设计的处 理器,只需增加较少的晶体管电路就可以执行同样的指令集,也可以很快地编写新的指令集程式; 二是拥有庞大的指令集,x86 拥有包括双运算元格式、寄存器到寄存器、寄存器到存储器以及存 储器到寄存器的多种指令类型。 x86 架构主要参与者包括 Intel、AMD、海光、兆芯等。

(2)ARM 架构:崛起移动市场和 MCU 市场

ARM 架构过去称作进阶精简指令集机器,是一个 32 位精简指令集处理器架构,其广泛地使用在 许多嵌入式系统设计,近年来也因其低功耗多核等特点广泛应用在数据中心服务器市场。早期 ARM 指令集架构的主要特点:一是体积小、低功耗、低成本、高性能;二是大量使用寄存器,且 大多数数据操作都在寄存器中完成,指令执行速度更快;三是寻址方式灵活简单,执行效率高; 四是指令长度固定,可通过多流水线方式提高处理效率。 ARM 架构的 CPU 参与者包括飞腾、鲲鹏等,还有诸多 MCU 厂商用 ARM 架构设计相关产品,包 括意法半导体、兆易创新、普冉股份、恒烁股份等。

(3)RISC-V 架构:物联网时代的新选择

RISC-V是加州大学伯克利分校设计并发布的一种开源指令集架构,其目标是成为指令集架构领域 的 Linux,主要应用于物联网(IoT)领域,但可扩展至高性能计算领域。RISC-V 采用 BSDLicense 发布,由于允许衍生设计和开发闭源,吸引了一大批公司的关注,目前已有不少公 司开发基于 RISC-V 的 IP 核,如 Si-Five、台湾晶心、阿里平头哥等已可提供基于 RISC-V 的处理 器 IP 核,部分企业如兆易创新、北京君正等已开发出基于 RISC-V 的 MCU 芯片等。但整体上, 由于 RISC-V 产业生态还比较薄弱,未来的发展仍有较长一段路要走。 RISC-V 架构的参与者包括阿里平头哥,MCU 厂商包括国芯科技、赛昉科技等。

(4)MIPS 架构:在学术界影响广泛

MIPS 是高效精简指令集计算机体系结构中的一种,MIPS 的优势主要有三点:一是发展历史早, MIPS 在 1990 年代已经广泛使用在服务器、工作站设备上。二是在学术界影响广泛,计算机体系 结构教材都是以 MIPS 为实际例子。三是 MIPS 在架构授权方面更为开放,授权门槛远低于 x86、ARM,在2019年曾经有开放授权的实际动作,并且 MIPS允许授权商自行更改设计、扩展指令, 允许二次授权。

(5)POWER 架构:在部分汽车控制中有所应用

POWER 架构是由 IBM 设计的一种 RISC 处理器架构,POWER 在大型机领域独具优势。 POWER3 是全球首款 64 位架构处理器,开始应用铜互联和 SOI(绝缘体上硅)技术。直至 POWER9 依然追求最高性能,不仅具备乱序执行、智能线程等技术,还实现了 SMP(对称多处 理技术)的硬件一致性处理。POWER 架构 CPU 价格高昂,主要应用于高端服务器领域,市场份 额逐渐减少。 POWER 架构目前恩智浦、飞思卡尔和国芯科技的部分产品中有采用。

2.3.2 EDA 工具软件基本被垄断,软件工具集群被卡脖子

EDA 工具软件可大致可分为芯片设计辅助软件、可编程芯片辅助设计软件、系统设计辅助软件等 三类,可用于逻辑综合、布局布线、仿真、时序分析、物理验证等。目前国内厂商使用的 EDA 软 件主要是 Synopsys、Cadence 和 Mentor Graphics、华大九天,其中美国公司 Synopsys、 Cadence和Mentor Graphics三巨头占据了EDA设计软件市场95%以上的市场份额,控制了EDA 设计软件的发展。Synopsys、Cadence 等公司还将自己的软 IP 集成在设计软件中,垄断了优化 服务和基于设计库的解决方案,进一步增加了用户黏性,也提高了行业壁垒。 CPU 专用 EDA 国产替代难度大。我国的 CPU 专用 EDA 工具例如数字仿真、逻辑综合、建模、 布局布线等水平比较差,长期依赖国外产品,尚无法完成完整集成电路的功能设计、综合验证和 物理设计等全流程的软件工具集群,完全替换应用的难度大。

2.3.3 材料、设备、晶圆厂国产化率低,在诸多限制下提升困难

2022 年制造设备几家巨头占市场份额 80%以上。2022 年在半导体制造设备领域,美国的 AMAT 公司、Lam Research 公司、KLA-Tencor 公司,荷兰的 ASML 公司,日本的 Tokyo Electron 和 Dainippon Screen 公司的销售额几乎占全球市场的 80%以上。尤其是光刻机,核心技术掌握在荷 兰的 ASML 公司,该公司是全球唯一的高端光刻机生产商,其高端光刻机不仅售价高,而且产量 低,优先被英特尔、台积电、三星电子抢购,三家公司均占有股份。相较之下,国内晶圆厂面临 先进制程扩产的设备进口贸易管制。 2022 年境内晶圆厂市场份额比重低于 10%,工艺水平低于境外晶圆厂。芯片制造环节主要涉及 的企业有台积电、三星、GlobalFoundries、中芯国际等,其中 2022 年境内企业占全球市场份额 的比重低于 10%。工艺水平上,台积电、三星等垄断了先进制程代工,美国针对中国算力芯片公 司的贸易管制给发展带来挑战。

2021 年半导体材料国产化率不足 15%。半导体材料整体国产化率低,关键材料国产化替代的需 求十分迫切。2021年晶圆制造材料整体国产化率不足15%,其中工艺制程和先进封装领域,半导 体材料的国产化率更低。 封测环节中国企业具备优势。封测行业位于半导体产业链末端,其附加价值较低,劳动密集度高, 技术壁垒较低,涉及的企业有 Amkor、ASE 日月光、KYEC、通富微电子等。总体来看,在芯片 产业链的六大环节中,唯有封测环节,中国企业具有明显优势,不会受到其他国家和地区制约。

2.4 AI 芯片的关键性能差异

2.4.1 AI 芯片的关键特征包含数据特点、计算范式、精度、重构能力等

1)新型的计算范式:控制流程简化、计算量增大

AI 计算包括传统计算和新的计算特质,处理的内容往往是非结构化数据(视频、图片等)。处理 的过程通常需要很大的计算量,基本的计算主要是线性代数运算(如张量处理),而控制流程则 相对简单。

2)训练和推断:需要高效的数据处理能力

AI 系统通常涉及训练(Training)和推断(Inference)过程。简单来说,训练过程是指在已有数 据中学习,获得某些能力的过程;而推断过程则是指对新的数据,使用这些能力完成特定任务 (比如分类、识别等)。满足高效能机器学习的数据处理要求是 AI 芯片需要考虑的最重要因素。

3)数据精度:低精度成为趋势

低精度设计是 AI 芯片的一个趋势,在针对推断的芯片中更加明显。对一些应用来说,降低精度的 设计不仅加速了机器学习算法的推断(也可能是训练),甚至可能更符合神经形态计算的特征。

2.4.2 AI 芯片设计趋势

1)云端训练和推断:大存储、高性能、可伸缩

存储的需求(容量和访问速度)越来越高,处理能力推向每秒千万亿次(Peta FLOPS),并支 持灵活伸缩和部署。随着 AI 应用的爆发,对推断计算的需求会越来越多,一个训练好的算法会不 断复用。推断和训练相比有其特殊性,更强调吞吐率、能效和实时性,未来在云端很可能会有专 门针对推断的 ASIC 芯片(如 Google 的第一代 TPU),提供更好的能耗效率并实现更低的延时。

2)边缘设备:也需要具备一定的学习、本地训练能力

相对云端应用,边缘设备的应用需求和场景约束要复杂很多,针对不同的情况可能需要专门的架 构设计。抛开需求的复杂性,目前的边缘设备主要是执行“推断”。在这个目标下,AI 芯片最重 要的就是提高“推断”效率。目前,衡量 AI 芯片实现效率的一个重要指标是能耗效率—— TOPs/W,这也成为很多技术创新竞争的焦点。未来,越来越多的边缘设备将需要具备一定的 “学习”能力,能够根据收集到的新数据在本地训练、优化和更新模型。这也会对边缘设备以及 整个 AI 实现系统提出一些新的要求。最后,在边缘设备中的 AI 芯片往往是 SoC 形式的产品,AI 部分只是实现功能的一个环节,而最终要通过完整的芯片功能来体现硬件的效率。这种情况下, 需要从整个系统的角度考虑架构的优化。因此,终端设备 AI 芯片往往呈现为一个异构系统,专门 的 AI 加速器和 CPU,GPU,ISP,DSP 等其它部件协同工作以达到最佳的效率。

3)软件定义芯片:能够实时动态改变功能,满足软件不断变化的计算需求

在 AI 计算中,芯片是承载计算功能的基础部件,软件是实现 AI 的核心。这里的软件即是为了实 现不同目标的 AI 任务,所需要的 AI 算法。对于复杂的 AI 任务,甚至需要将多种不同类型的 AI 算 法组合在一起。即使是同一类型的 AI 算法,也会因为具体任务的计算精度、性能和能效等需求不 同,具有不同计算参数。因此,AI 芯片必须具备一个重要特性:能够实时动态改变功能,满足软 件不断变化的计算需求,即“软件定义芯片”。

3 国产厂商的机遇:数据中心、国产化和先进封装

3.1 数据中心快速发展带来行业新机遇

我国数据中心业务规模持续高速增长。根据工信部信息通信发展司数据,2017 年我国数据中心市 场总机架数量 166 万架,2022 年预测达到 670 万架,2017-2022E 复合增速达 32.2%。根据信通 院发布的数据中心白皮书,随着我国各地区、各行业数字化转型的深入推进,我国数据中心市场 收入将保持增长态势。

东数西算工程带来大量服务器相关软硬件需求。东数西算工程将通过构建数据中心、云计算、大 数据一体化的新型算力网络体系,将东部算力需求有序引导到西部,优化数据中心建设布局,促 进东西部协同联动。于 2022年 2 月,在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、 甘肃、宁夏 8 地启动建设国家算力枢纽节点,并规划了 10 个国家数据中心集群。各地数据中心都 将集聚大量服务器,如韶关数据中心集群提升网络级别至国家级骨干网络枢纽节点,预计到 2025 年,韶关数据中心集群将建成 50 万架标准机架、500 万台服务器规模,投资超 500 亿元。

3.2 在国产化浪潮中不断突破不同市场

国产 CPU 在政务、企业、消费级市场层层突破。CPU 市场主要分为三类:政务及重点行业市场、 企业级市场以及消费级市场,它们的需求特点各异。政务及重点行业市场,对安全性和定制化的 要求远高于消费级市场,同时对产业生态的要求相对较低,与国产 CPU 当前的发展现状非常契合, 所以此板块是近期国产 CPU 的核心市场。企业级市场对产业生态的要求高于政务但低于消费级市 场,此板块是国产 CPU 未来重要的增量市场。消费级市场对产业生态的要求最高,对性价比较为 敏感,迭代周期短,是国产 CPU 长期需突破的目标市场,尤其是在桌面 CPU 生态方面还有较大 的差距,还需要重点弥补。

政府及国有企事业单位为国产 CPU 主阵地,PC 芯片已成百亿级市场。政府机关和国有企事业单 位是国产 CPU 的主阵地,根据国家统计局公布数据,推断我国今年国有单位就业人数在 5600- 5700 万人(2020 年为 5563 万人),根据统计局 2018 年公布的数据,规上企业计算机人均保有 量为 0.29,考虑到政府和一些重要行业存在内网机需求,则假设人均保有量大约在 0.29-0.58 之 间。;根据海光信息公布的 CPU 价格数据,预计 PC 芯片价格在 1k 左右,则 PC 芯片市场规模 在 162-330 亿元之间。

党政和重要行业的企业级市场为国产服务器主阵地,2022年服务器芯片市场规模约 130亿美元。 党政、国有企业和部分重要领域的民营企业是国产服务器主阵地,根据 IDC 数据,政府需求占服 务器总需求比重约 9.1%,重要行业包括金融、电信、公共事业、能源、交通、教育、医疗等需求 约占比 38.4%,2022 年合计服务器芯片的销售额约为 130 亿美元。

消费级市场空间广阔,国产化势在必行。国产 CPU在关键性能指标、使用体验、生态建设等方面 与海外厂商仍存在差异,目前很难在消费级市场具备竞争力。但底层硬件、基础建设自主化是势 在必行的,信创政策不断强调关键技术自主可控原则,在关键平台、关键组件以及关键信息基础设施上形成自主研发能力,降低外部依赖、避免单一依赖,消费级市场虽然不及政务和重要领域 央国企对信息安全要求那么高,但是也属于信息化的关键平台和组件,推行自主化会不断投入人 力物力持续进行,与海外厂商的差距年限也呈逐步缩小趋势,终将进入消费级市场。

3.3 先进封装助力国产 CPU 企业弯道超车

后摩尔时代的到来,我国 CPU企业有望通过封测技术弯道超车。从芯片制造工艺来看,一方面, CPU 制程进入后摩尔定律时期升级速度趋缓,国产 CPU 性能与国际主流水平逐步缩小;另一方 面,先进封装技术成为竞争新赛道,我国封测厂商长电科技和通富微电在全球前五中占据两席, 通富与AMD紧密合作,在全球市场具备一定话语权。先进封装的出现,让业界看到了通过封装技 术推动芯片高密度集成、性能提升、体积微型化和成本下降的巨大潜力,先进封装技术正成为集 成电路产业发展的新引擎,我国 CPU 企业有望通过封测技术弯道超车,弥补先进制程能力不足的 缺陷。 国产 CPU 已经可以通过先进封装技术实现性能提升与应用场景拓展。龙芯中科最新的 3D5000 通 过 Chiplet 把两个 3C5000 硅片封装在一起,是一款 32 核 CPU 产品,已经可以面向服务器市场使 用,可满足通用计算、大型数据中心、云计算中心的计算需求。

4 投资分析

4.1 海光信息:国产服务器算力芯片龙头

海光信息技术股份有限公司成立于2014年,主要从事高端处理器、加速器等计算芯片产品和系统 的研究、开发,目标成为中国最重要的计算机芯片设计企业,为中国信息产业的强盛提供核心计 算引擎。

上游公司与 AMD 共建子公司,拿下 IP 授权关键核心技术。海光处理器源于 AMD 的技术授权, 采用 X86 架构,支持国内外主流操作系统、数据库、虚拟化平台或云计算平台,能够有效兼容目 前存在的数百万款基于 X86 指令集的系统软件和应用软件,具有优异的生态系统优势。目前海光 处理器性能参数上与国际同类型主流处理器产品相当,提供从 4 到 32 物理核心,8 到 64 线程, 最多 128 路 PCle 扩展,8 通道内存支持,以及针对虚拟机性能优化的大容量缓存设计,能够为云 计算、大数据分析、分布式元存储、Web 应用,人工智能、数据库等众多场景,提供强劲计算能 力,具有国际先进水平的竞争力。 海光拥有 CPU 和 DCU 两类高端处理器产品,覆盖服务器、工作站等计算、存储设备中对高端处 理器的功能需求。 CPU 稳步迭代,满足互联网、金融、电信、交通、能源等多行业需求。海光 CPU 系列产品兼容 x86 指令集以及国际上主流操作系统和应用软件,性能优异,软硬件生态丰富,安全可靠,可按 应用场景划分为 7000,5000,3000 三大产品系列。公司坚持自主创新,通过多代处理器产品的 送代设计与开发,已基本形成“量产一代、研发一代、规划一代”的产品持续演进节奏。目前, 海光 CPU 系列产品中海光二号为主力销售产品,海光三号已经实现小批量销售,海光四号、海光 五号处于研发阶段。

DPU 步入商业化,持续投入研发。海光 DCU 系列产品以 GPGPU 架构为基础,兼容通用的“类 CUDA”环境以及国际主流商业计算软件和人工智能软件,软硬件生态丰富,可广泛应用于大数 据处理、人工智能、商业计算等应用领域。目前海光 DCU 系列产品中,海光 DCU 系列产品深算 一号为公司 GPGPU 主要在售产品,深算二号、深算三号处于研发阶段。

4.2 寒武纪:领跑中国 AI 芯片市场

中科寒武纪科技股份有限公司成立于 2016 年 3 月,自成立来专注于人工智能芯片产品的研发与技 术创新,致力于打造人工智能领域的核心处理器芯片。寒武纪在人工智能芯片设计领域积累了较 强的技术和研发优势,是目前国际上少数几家全面系统掌握了智能芯片及其基础系统软件研发和 产品化核心技术的企业之一,能提供云边端一体、软硬件协同、训练推理融合、具备统一生态的 系列化智能芯片产品和平台化基础系统软件。 公司产品体系成熟,覆盖云边端全矩阵。公司主要产品包括终端智能处理器 IP、云端智能芯片及 加速卡、边缘智能芯片及加速卡以及与上述产品配套的基础系统软件平台。自 2016年 3 月成立以 来,寒武纪快速实现了技术的产业化输出,以约每年 1-2 件产品的速度推出了用于终端场景的寒 武纪 1A、寒武纪 1H、寒武纪 1M 系列智能处理器;基于思元 220 芯片的边缘智能加速卡及智能 模组;基于思元 100、思元 270、思元 290 芯片和思元 370 的云端智能加速卡系列产品。

新一代训练芯片寒武纪 590 训练能力突出。据寒武纪在 2022 年 9 月介绍,思元 590 采用全新的 MLUarch05 架构,训练性能较在售产品有了显著提升。思元 590 可提供更大的内存容量和更高的 内存带宽,其 PCIe 接口也较上代实现了升级。 借助车云协同与高效开发优势,开拓车载芯片领域。子公司寒武纪行歌借助既有优势布局,满足 智能汽车市场不同的算力需求。1)通过车云协同获得的数据迭代 AI 模型,优化用户体验。自动 驾驶芯片可以与寒武纪既有的云端训练产品协作,通过车云协同,将车端的数据快速回传,实现 AI 模型的快速迭代升级,优化自动驾驶客户体验;2)提供可以在云端开发自动驾驶模型的软件 开发平台。提供统一的软件开发平台,方便客户在云端开发相应的自动驾驶模型,并省去不同平 台之间的移植、迁移和模型量化的工作,从够缩减模型升级迭代周期,提高开发效率。

公司芯片和处理器产品能应用于多个“智能+”产业。公司的智能芯片和处理器产品可高效支持 视觉、语音和自然语言处理等技术相互协作融合的多模态人工智能任务,辐射智慧互联网、智能 制造、智能交通、智能教育、智慧能源、智慧电力、智慧物流、智慧畜牧、智慧金融、智能家居、 智慧医疗等“智能+”产业。

统一的基础系统软件平台打破开发壁垒,加速产品落地。公司为云边端智能芯片和处理器产品研 发了统一的基础系统软件平台,彻底打破云端、边缘端、终端之间的开发壁垒,无须繁琐的移植 即可让同一人工智能应用程序便捷高效地运行在公司云边端所有产品之上。云边端体系化的智能 芯片和处理器产品以及完全统一的基础系统软件平台可大幅加速人工智能应用在各场景的落地, 加快公司生态的拓展。

4.3 龙芯中科:从指令集到架构全自主的 CPU

“龙芯”系列是我国最早研制的通用处理器系列之一,于2001年在中科院计算所开始研发,得到 了中科院、国家自然科学基金、863、973、核高基等项目的大力支持。2008 年 3 月 5 日,公司 前身龙芯服务由转移中心和中科算源共同出资设立,开始进行处理器产品产业化的前期探索。 2020 年,公司推出了自主指令系统 LoongArch(龙芯架构),公司整体变更为股份有限公司。 公司实控人为胡伟武和晋红夫妇,胡伟武长期担任公司董事和总经理,晋红长期担任公司投资总 监。胡伟武持有天童芯源 47.67%的股权,晋红持有芯源投资 15.02%的合伙份额。胡伟武和晋红 通过天童芯源、芯源投资、天童芯正和天童芯国合计控制龙芯中科 33.61%的表决权。

自主研发 LoongArch 指令集,芯片性能追赶国际主流产品。公司自研 IP 和架构分为两步,首先 基于开源 MIPS 指令集定义自主指令集系统,然后基于自主指令集推出龙芯架构。 第一步:摒弃直接获取 IP 核授权或指令系统授权,自主定义上百条指令,形成 MIPS 兼容的 LoongISA 指令系统。2018 年至 2020 年,公司销售主要产品基于 MIPS 指令系统,但公司区别 于国内其他 CPU 设计企业多数采用的 IP 核授权或指令系统授权模式,一直致力于自主研发指令 系统,自研发初期即选择基于开放度较高的指令系统并结合自研的模式,在授权体系相对开放的 MIPS 指令系统基础上扩展了数百条自定义指令,形成了 MIPS 兼容指令系统 LoongISA,并在多 款 CPU 芯片中得到应用。 第二步:推出了自主指令系统 LoongArch(龙芯架构),具备更高运行效率。公司在经过长达 十余年的潜心研发之后,于 2020 年推出了自主指令系统龙芯架构 LoongArch。龙芯指令系统具 有较好的自主性、先进性与兼容性。龙芯指令系统从整个架构的顶层规划,到各部分的功能定义, 再到细节上每条指令的编码、名称、含义,在架构上进行自主重新设计,具有充分的自主性。 LoongArch 吸纳了现代指令系统演进的最新成果,运行效率更高,同原有兼容指令系统相比,不 仅在硬件方面更易于高性能低功耗设计,而且在软件方面更易于编译优化和操作系统、虚拟机的 开发,相同的源代码编译成 LoongArch 比编译成 MIPS 平均动态指令数可减少 10%-20%。

LoongArch 架构能兼容 X86、ARM,且通过了知识产权评估。该架构可充分融合 X86、ARM 等 国际主流指令特性,可实现跨指令平台应用兼容。并通过国内权威第三方机构中国电子信息产业 发展研究院的知识产权评估,认定 LoongArch 指令系统与 ALPHA、ARM、MIPS、POWER、 RISC-V、X86 为不同的指令系统设计。目前,龙架构已得到国际开源软件界广泛认可与支持,正 成为与 X86/ARM 并列的顶层开源生态系统。 基于 LoongArch 架构的芯片产品已上市销售,实现服务器等领域的应用。经过长期积累,龙芯 中科基本完成技术“补课”,基于 LoongArch 架构的芯片产品龙芯 3A5000 已于 2020年底流片, 并于 2021 年 5 月开始销售,面向服务器市场的 32 核产品 3D5000 已于 2023 年 4 月 8 日发布, 集成了 32 个高性能 LA464 处理器核,频率 2.0GHz,支持动态频率及电压调节;片内集成 64MB 片上 L3 共享缓存以及 8 个 72 位 DDR 3200 内存控制器,支持 ECC 校验;搭载 5 个 HT3.0 高速 接口,支持自研桥片及双路、四路 CPU 扩展。

相关领域一通百通便于跨界,也具备 MCU、GPU 核心技术实力。公司掌握了处理器核及相关 IP 核设计的核心技术,包括 CPU、GPU、内存控制器、IO 接口控制器、高速 SRAM、高速接口、 锁相环等核心 IP。 龙芯产品覆盖桌面服务器、工控和嵌入式领域。龙芯中科自研的芯片系列包括龙芯 1 号、龙芯 2 号、龙芯 3 号三大系列处理器芯片及桥片等配套芯片。其中,龙芯 1、2、3 号系列处理器芯片分 别服务于嵌入式领域、工业控制与终端等领域和桌面和服务器领域。而龙芯中科的配套芯片包括 桥片及正在研发尚未实现销售的电源芯片、时钟芯片等,主要与龙芯 1 号、2 号、3 号处理器芯片 配套使用。龙芯 1 号、2 号、3 号处理器芯片及配套芯片的主要客户是板卡、整机厂商,系列产品 在电子政务、能源、交通、金融、电信、教育等行业领域已获得广泛应用。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

精选报告来源:【未来智库】。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有