2023年英伟达专题报告 以CUDA为核心构建生态与技术的护城河 您所在的位置:网站首页 英伟达生态伙伴核心低位潜力股名单 2023年英伟达专题报告 以CUDA为核心构建生态与技术的护城河

2023年英伟达专题报告 以CUDA为核心构建生态与技术的护城河

2024-07-12 03:59| 来源: 网络整理| 查看: 265

一、人工智能时代软硬件一体化的AI解决方案领导者

1.1、公司持续推动业务转型升级,拥抱影响未来世界的人工智能

近四十年来,摩尔定律一直是推动芯片行业发展的核心驱动力。随着摩尔定律接近极限, 在成本和功耗的双重制约下,指数级的性能增长逐渐放缓。而 AI 和加速计算则成为算力 需求激增、数据中心功耗暴涨背景下延续摩尔定律,实现可持续发展、数字化以及卓越性 能的最佳工具。近日崛起的 ChatGPT 和 AIGC 正在推动企业重塑产品以及商业模型,重 构企业核心竞争力。

公司开创了加速计算的先河,首先提出 AI+云计算概念,用以帮助解决传统计算机无法解 决的重大挑战,并逐渐成长为全球人工智能的领导者。公司的平台已安装在数亿台计算机 中,也用于各类云服务以及服务器厂商,为 TOP500 超级计算机中的 361 台提供支持, 在整个生态中拥有超过 350 万开发者。以终端应用场景区分,目前公司的主营业务包括 数据中心、游戏、专业可视化、自动驾驶、OEM/其他。

近年来,公司持续以 CUDA 为核心构建生态与技术的护城河,将硬件、软件、系统、算 法、库以及终端应用进行一体化整合。通过整合底层 GPU+DPU+CPU 三大硬件,建立统 一的底层硬件架构,使得从云端到终端不同的硬件平台,都支持统一的 CUDA 软件平台。 而基于CUDA软件平台的可编程特性,使内部或第三方开发者可以不断开发并完善CUDA 的软件堆栈,使得 CUDA 生态不断形成正向循环,同时公司在各细分垂直领域落地全套 解决方案,建立起独特的生态与技术壁垒。

起步探索阶段(1993-1998):1993 年公司在硅谷成立并进军图形芯片业务,公司成立初 期市场已有 20 多家图形芯片公司,外部竞争环境十分激烈。1995 年公司推出其首款产品 NV1,但由于性能和通用性缺乏竞争力,投入市场后销量不佳,公司一度处于破产边缘。 1997 年公司推出全球首款 128 位 3D 处理器 NV3(即 RIVA 128),它迅速获得了原始设 备制造商的认可,并在前四个月内出货量突破100万台。公司依靠该系列中的Riva 128zx、 Riva TNT、Riva TNT2 三大产品逐渐走向显卡芯片市场的主流地位。1998 年公司与台积 电签约建立合作伙伴关系,将其显卡交由台积电代工生产,开启强强联合之路后公司与台 积电连续几年保持 70%年复合增长率,创造了业界奇迹。

快速成长阶段(1999-2005):1999 年 1 月,公司在纳斯达克上升,首日交易后价值 5900 万美元。同年 8 月,公司推出了全新架构的显示芯片,也是全球第一个真正意义上的 GPU 芯片 GeForce 256,GPU 由此独立于 CPU 成为独立的计算单元。公司还推出用于专业 图形的 Quadro 256,很快成为专业人士从事各种领域设计时遵循的标准。当年公司实现 出货量 1000 万台,并由此步入快速成长阶段。2000 年,公司收购图像技术先驱 3dfx, 此后公司始终保持视觉计算领域霸主地位。到 2002 年公司宣布实现 GPU 出货量累计高 达 1 亿颗,成为硅谷成长最快的半导体公司,收入达到 10 亿美元。

转型升级阶段(2006-2015):2006 年公司推出通用 GPU 计算的革命性架构 CUDA,运 用 GPU 并行处理能力来应对最复杂的计算挑战。2007 年公司在图形市场取得了突飞猛 进的增长,Tesla GPU 的问世标志着公司正式步入超级计算领域。随后一年,公司紧接着 推出了 Tegra 移动处理器,其功耗比普通 PC 笔记本电脑低 30 倍。经过 20 多年的发展, 公司逐渐形成 GeForce、Quadro、Tesla、Tegra 几大产品线,其中 GeForce 用于 PC 和 笔记本,Quadro 主要用于工作站,Tesla 主要用于大型计算,Tegra 则用于移动产品。2015 年其推出的 Tegra X1、DRIVE 高级驾驶辅助系统、GeForce GTX TITAN X 等使公司扩展 至人工智能、自动驾驶等新兴领域,应用领域持续转型升级。

飞速发展阶段(2016-至今):从 2016 年开始,随着人工智能技术兴起,公司 GPU 开始 在深度学习领域被广泛应用。得益于深度学习的技术开发,将人工智能推到了一个新的高 潮。2018 年,公司发布了加入光线追踪技术的图灵(Turing)架构,再一次重新定义了 计算图形,成为全球第一个支持实时光线追踪的 GPU。近年来随着 AI 算力持续革新,公 司在 GTC 2019 大会上推出多项创新应用领域,广泛覆盖人工智能、高性能计算、机器 人、自动驾驶、医疗健康、专业化视觉等众多领域。

1.2、游戏与数据中心双轮驱动,公司业绩持续成长

公司营收结构持续改善,更具成长潜力的数据中心业务成为最大营收来源。公司营收从 2013年的41亿美元成长到2022年的269.74亿美元,年复合增速为23.2%。净利润从 2013 年的4.4亿美元成长到2022年的43.68亿美元。其中数据中心、游戏、专业可视 化、自动驾驶、OED及其他在2022年分别实现营收 150.05(56%)、90.67(34%)、15.44 (6%)、9.03(3%)、4.55(2%)亿美元,分别同比+41%、-27%、-27%、60%、-61%。

2022 年公司游戏业务的下滑拖累整体营收增速,但 2013-2022 年营收的复合增速优于可 比公司。英特尔凭借着一直以来在 CPU 领域的领先地位,营收早早超过了 500 亿美元, 但近年来伴随着 CPU 的市场份额被 AMD 不断蚕食,英特尔营收增长出现乏力。而 2022 年更是受到终端消费萎靡的影响,营业收入同比减少 20%。公司凭借持续地研发创新投 入,开创性的将 GPU 的应用场景从游戏和图像渲染拓展到人工智能、自动驾驶以及其他 领域,随着数以千计的企业和用户使用 GPU 驱动的深度学习,营业收入也是呈现高速增 长的态势,2013-2022 年大部分时间的营收增速都要优于可比公司。

公司毛利率领先可比公司,2023 财年见底后有望逐季改善。从毛利率来看,公司近年来 毛利率稳定小幅成长,从 2013 年的 54.9%一路成长到 2021 年的阶段高点 64.9%,2022 年受到 PC 需求衰退以及全球经济下滑的影响,全年毛利率下滑到 56.9%,四个季度的毛 利率分别为 65.5%、43.5%、53.6%、63.3%,最低点出现在 2023 财年第二季度。但随 着 H100 与 RTX40 系列等高端产品的推出,也带动公司毛利率逐季改善,公司展望 2024 财年第一季度公司毛利率将落在 63.6%-64.6%。由于个人电脑市场的持续萎缩,英特尔 的毛利率逐年下滑,从 2013 年 59.8%下滑到 2022 年 42.6%,而英特尔预计 2023 年第 一季度将继续亏损。而近年来 AMD 的处理器在性能上也不断追赶甚至超越英特尔的产品, 使得 AMD 在处理器市场的份额逐年提升,也带动 AMD 公司毛利率自 2016 年以来逐年 改善,2022 年全年毛利率为 51.1%。

公司目前四大主营业务分别为数据中心、游戏、专业可视化以及自动驾驶。2023 财年公 司实现营收 269.74 亿美元,其中数据中心业务占比 56%,包括 DGX/HGX/EGX/IGX 系 统以及 GPU/CPU/DPU/Networking 硬件等。游戏业务占比 33%,包括用于游戏的 GPU 显卡以及用于云游戏的 GeForce NOW 产品。专业可视化业务占比 6%,包括 Quadro 和 Omniverse 产品。自动驾驶占比 3%,包括 DRIVE Hyperion、DRIVE AGX 以及 DRIVE AV & IX 产品。主营业务一:数据中心业务有望成为增长核心驱动力,过去 5 年营收 CAGR 达 51%。公 司数据中心业务专注于加速超大规模、云服务、企业、公共部门和边缘数据中心的计算密 集型工作负载,例如人工智能、数据分析、图形和科学计算等,并基于 GPU、DPU 和 CPU 三种新一代架构构建的加速计算平台,围绕 CUDA 提供各类库和软件开发工具,公 司正在不断重塑 AI 时代的数据中心。

公司在数据中心市场逐渐完成 CPU+GPU+DPU 三芯的硬件布局。2021 年 GTC 大会上, 公司公布了数据中心芯片的路线图,包括 CPU、GPU 和 DPU 这三类硬件,每种芯片都 将以两年为周期进行迭代。同时公司发布专为数据中心设计,基于 ARM 架构的 Grace CPU,采用台积电 4N 工艺制造,72 核 ARM v9 指令集架构,并自研 CPU 核心。2022 年 GTC 大会上,公司推出全新一代 Hopper 架构的 H100 GPU,采用台积电 4N 工艺, 拥有 800 亿个晶体管,各类算力指标都是上一代产品 A100 的 3-6 倍。

2023 年 GTC 大会 上,公司公布了 Grace CPU 的部分测试数据,相较于现有数据中心使用的 x86 CPU,运 行微服务的速度快 2.3 倍,内存密集型数据处理性能快 2 倍,在多个技术计算应用上运行 流体力学计算工作时速度快 1.9 倍,Grace CPU 有望在 2023 年下半年量产。而基于 CPU 和 GPU 的硬件布局,公司更推出了将两颗 Grace CPU 在同一款 PCB 上互联的 Grace Superchip,以及将Grace CPU和 Hopper CPU封装在一起的Grace Hopper Superchip。

主营业务二:游戏业务成长性有限,但有望成为长期现金牛业务,过去五年营收 CAGR 仅 10%。过去十几年间,游戏是最大的娱乐产业,PC 端成为最主要的游戏平台,3A 游 戏、电子竞技、社交连接以及游戏流媒体的兴起都在不断推动游戏业务的增长。公司在游 戏业务上提供面向 PC 和笔记本电脑的 GeForce RTX 和 GeForce GTX 显卡、用于在硬 件性能不足的设备上玩 PC 游戏的 GeForce NOW 云游戏、用于在电视上播放高质量流媒体的 SHIELD,以及用于游戏机的平台和开发服务。目前公司在 GPU 领域的市占率超过 80%,全球超过 2 亿游戏玩家使用公司的 GeForce 系列显卡。

公司的光追、DLSS 等技术引领游戏行业发展,同步发力云游戏业务。光线追踪长期以来 一直用于电影行业的特效,是一种计算密集型技术,该技术通过模拟光线的物理行为,甚 至可以将电影级实时渲染应用于对图像要求极为严格的游戏中。公司的 RTX 产品采用光 线追踪技术,在游戏中实现电影级质量的实时渲染,以此提高用户的游戏体验。而人工智 能也正在引发一场游戏革命,DLSS 技术将人工智能引入到游戏内的物理/动画模拟、实 时渲染和 AI 增强的直播功能。借助 DLSS 技术,公司基于 AI 的超高分辨率重新定义实 时渲染,即渲染更少的像素,然后使用 AI 构建更清晰、更高分辨率的图像。

主营业务三:前瞻布局自动驾驶业务,即将迎来收获期,过去五年营收 CAGR 达 10%。 公司正在以 DRIVE 品牌为自动驾驶市场提供完整的端到端解决方案,使得客户可以基于 公司平台快速高效地开发自动驾驶产品。解决方案包括软件和硬件部分,硬件端提供 Drive Orin SoC 和预计 2025 年量产的 Drive Thor SoC 两种高算力自动驾驶芯片。软件端,包 括基于DRIVE AV完整软件栈来实现自动驾驶、地图绘制和停车服务的DRIVE Chauffeur; 基于智能车载体验 DRIVE IX 软件的 Drive Concierge 和用于实时对话 AI 功能的 Omniverse Avatar。目前公司自动驾驶业务未来 5 年在手订单超 110 亿美元,公司产品已 覆盖前 30 大乘用车厂商中的 20 家,前 10 大货车厂商中的 7 家,前 10 大无人驾驶出租 车中的 8 家。我们看好公司自动驾驶业务即将步入收获期,有望成为下一个十亿美元的营 收板块。

主营业务四:专业可视化领域领导者,持续推动全行业的创新发展,过去五年营收 CAGR 达 11%。从桌面到数据中心再到云端,公司始终与独立软件供应商 (ISV) 密切合作来为 专业可视化市场服务,优化 ISV 为公司 GPU 配套的产品,并为计算机辅助设计、建筑设 计、消费品制造、医疗仪器和航空航天等设计与制造环节,以及专业视频编辑、后期制作、 电影特效和广播电视等数字内容创作环节提供更具生产力的 GPU 解决方案。公司目前占 据了 90%以上的图形工作站市场份额,4500 万艺术家、建筑师和产品设计师正在利用公 司的产品来处理具有挑战性的工作流,并突破创造力的极限。

1.3、公司面向万亿美元的可触达市场,平台化布局强化公司竞争优势

人工智能正在成为这个时代最具影响力的技术力量,我们认为人工智能(包括芯片,模组, 系统,算法,终端应用)未来将成为整合电子, 通信, 软件及云/边缘运算/设备电子端后 成为各种提升应用效能的人工智能工具平台,各类 AI+应用即将落地,像 ChatGPT 对话 机器人,以及特斯拉即将自动驾驶中引入AI学习框架,传统应用在引入AI后将迎来巨变。 公司在完成由 GPU 显卡供应商向软硬件一体 AI 解决方案供应商的转变后,形成了竞争 对手难以企及的平台化优势。

公司相对于竞争对手的优势在于: 1)硬件端产品布局齐全且性能突出,公司在数据中心业务中完成 CPU+DPU+GPU 的组合布局。数据中心 GPU 市占率遥遥领先,H100、A100 等高端训练卡供不应求,且 性能大幅度领先竞争对手 AMD 的同代产品,而英特尔仍处于起步阶段。CPU 端则是针对 数据中心自研 Grace CPU,侵蚀竞争对手英特尔最大的主营业务。公司在 GPU 高市占率 的背景下,Grace CPU 搭配公司 GPU 使用相较传统 x86 CPU 搭配公司 GPU 有数倍的 性能提升,使得公司 CPU 在数据中心的渗透率有望迅速提升。

2)软件端前瞻布局,竞争对手稀少。CUDA 平台是目前最适合深度学习、AI 训练的 GPU 架构。在 2007 年推出后不断改善更新,衍生出各种工具包、软件环境,构筑了完 整的生态,并与众多客户合作构建细分领域加速库与 AI 训练模型,已经积累 300 个加速 库和 400 个 AI 模型。而竞争对手 AMD 的 ROCm 平台在用户生态和性能优化上还存在差距。面向元宇宙的 Omniverse 则是一个不断完善自身、不断扩充用户群体的 AI 平台,其 本身丰富的工具、领先的技术叠加没有竞争对手的先发优势将持续巩固公司在元宇宙以及 数字工业领域的优势。

公司未来的发展机会在于:软硬件结合的平台化布局,以及不同领域快速落地垂直解决方 案的能力。公司以 CPU、GPU、DPU 等芯片硬件为基础,构建 DGX、HGX、EGX 等硬 件系统。从云端到终端不同的硬件平台,都支持统一的 CUDA、CUDA-X 等软件架构。 然后基于硬件系统和软件架构形成 HPC、AI、Ominiverse 等应用平台,最终落地到设计、 金融、游戏、仓储、医疗、高等教育、数据中心、交通运输、公共领域等行业,随着未来 AI 应用范围的深入和拓展,公司将成为平台化布局的最大受益者。

公司正瞄准万亿美元的市场加紧布局全栈解决方案。根据公司的测算,公司远期可触达市 场(TAM)高达 1 万亿美元,其中全球范围内拥有 30 亿游戏玩家和创作者,其中 25%的 人每年会花费超过 100 美金在购买 PC、笔记本、云游戏以及游戏机中的 GPU,从而给 公司游戏业务带来 1000 亿美元的可触达市场。全球范围内每年 5000 万台企业服务器的 软件订阅,带动公司人工智能企业软件 1500 亿美元的可触达市场。全球范围内超过 4500 万的设计师与创作者,以及衍生的订阅服务,带来 Omniverse 企业软件 1500 亿美元的可 触达市场。未来每年 2000 万台服务器的增量,会带来 GPU、CPU、DPU、NIC、交换机 等硬件与系统 3000 亿美元的可触达市场。全球范围内每年为 1 亿辆汽车提供各类硬件以 及为数百万辆汽车提供软件方案,将为公司自动驾驶业务带来 3000 亿美元的可触达市场。

我们测算 2026 年数据中心 GPU 市场规模将达到 224 亿美元,公司作为数据中心 GPU 的龙头有望持续受益。随着 ChatGPT 引爆新一轮人工智能应用的热情,我们看好人工智 能将成为未来无所不在的工具,海内外数据中心、云业务厂商纷纷开始推动 AI 基础设施 建设,AI 服务器出货量在全部服务器中的占比逐渐提高。根据 TrendForce 的数据,2022 年搭载GPGPU的AI服务器年出货量占全部服务器的比重接近1%,2023年在ChatGPT 等人工智能应用加持下,AI 服务器出货量有望同比增长 8%,2022~2026 年出货量 CAGR 有望达 10.8%,以 AI 服务器用 GPU,主要以公司 H100、A100、A800(主要出货中国) 以及 AMD MI250、MI250X 系列为主,而公司与 AMD 的占比约 8:2。

我们测算 2026 年全球数据中心 GPU 市场规模有望达 224 亿美元,22-26 年 CAGR 达 54%,基于以下 假设:1)IDC 预测 2026 年全球服务器出货量 1877 万台;2)AI 服务器的占比逐年提升 1%;3)AI 服务器中 GPU 的搭载数量逐年提升 0.5 个;4)随着 GPU 产品迭代,GPU 单价逐年提升 2000 美元。

二、AI大模型时代,AI芯片、GPU、DPU、CPU硬件全面布局

2.1、AI的iPhone时刻到来,算力需求大幅拉升

ChatGPT 是由 OpenAI 于 2022 年 11 月推出的人工智能聊天机器人,该程序使用基于 GPT-3.5 架构的大型语言模型,并通过人类反馈的监督学习和强化学习进行训练。 ChatGPT 通过问答形式与用户完成交互,可以完成自动生成文本、自动问答、自动摘要 等多种任务。ChatGPT 因其能提供类似人类的响应,迅速成为近期发展最快和关注度最 高的应用之一,上线 5 天用户突破百万,上线两个月活跃用户突破 1 亿,使其成为历史 上用户增长最快的应用程序,它的爆火出圈使得人工智能赛道迅速升温。

人工智能正在由云端走向终端应用场景。2023 年 3 月 21 日,在公司的 2023 年 GTC 大 会上,公司宣布“AI 的 iPhone 即将到来”,并发布了与多个行业重要客户的合作成果,包 括量子计算、计算光刻、数字孪生等,并且推出了新一代的超级计算机 NVIDIA DGX AI, 集成 8 个 H100 GPU 模组,大幅提升了单机算力;同时推出 DGX Cloud 云服务,使得各 行业企业都可以通过简单的网络浏览器访问 AI 超算集群,大幅降低了部署本地算力基础设施的复杂性。

NIDIA DGX Quantum 是全球首个 GPU 加速量子系统,将全球最强大的加速计算平台 (NVIDIA Grace Hopper 超级芯片与 CUDA Quantum 开源模型实现)叠加全球最先进的 量子控制平台 OPX(由以色列公司 Quantum Machines 开发)相结合,可为高性能和低 延迟量子经典计算的研究人员提供革命性的新架构,实现了GPU和量子处理单元(QPU) 之间亚微秒级延迟。CUDA Quantum 是全球首个使用经典计算机编办语言 C++和 Python 所构建的量子算法平台,有助于在量子计算机和经典计算机上运行算法。 在 2023GTC 大会上,公司认为短期内量子计算仍然处于研究阶段,而非量产阶段,但是 借助公司 DGX Quantum,研究人员有望为量子计算的未来开发混合应用程序和关键算法。

在计算光刻领域,公司推出了突破性的光刻计算库 cuLitho,将计算光刻加速 40 倍以上。 计算光刻是提高光刻分辨率、推动芯片制造达到尖端工艺的关键手段。作为芯片制造过程 中最复杂、昂贵、关键的环节之一,光刻成本约占硅片加工成本的 1/3 以上。配合光刻计 算 EDA 工具使用,其可以帮助晶圆厂缩短原型周期时间、提高产量,为 2nm 及以上先进 工艺奠定基础,并使得曲线掩模、High NA EUV、亚原子级光刻胶模型等新技术节点所需的新型解决方案和创新技术成为可能。

目前计算光刻仍然使用 CPU 进行,每年需要消耗数百亿 CPU 小时,而晶圆厂的大型数 据中心因此需要 24*7 全天候运行,以便创建用于光刻系统的掩膜板。这些数据中心是芯 片制造商每年投资近2000亿美元资本支出的一部分。公司H100 GPU需要89块掩膜板, 在 CPU 上运行时处理单个掩膜板需要两周时间,而在 GPU 上运行 cuLitho 只需 8 小时。 通过这项应用,台积电可以把 4 万个用来驱动计算光刻的 CPU 服务器,换成 500 套 DGX H100,能耗将从 35 兆瓦降至 5 兆瓦。此外,使用 cuLitho 的晶圆厂,每天可以生产 3-5 倍多的光掩膜,仅使用当前配置电力的 1/9。

公司推出了第三代OVX计算系统和新一代工作站,为基于 NVIDIA Omniverse Enterprise 的大规模数字孪生提供动力。第三代OVX服务器通过组合双 CPU 平台、BlueField-3 DPU、 L40 GPU、两个 ConnectX-7 SmartNIC 和 NVIDIA Spectrum 以太网平台,提供了突破性 的图形和 AI 性能,可加速大规模数字孪生模拟等应用,进而提高运营效率和预测性规划 功能。公司还宣布了用于构建和操作元宇宙应用的平台 NVIDIA Omniverse 的相关更新, 增加了一系列生成式 AI、模拟仿真相关功能,让开发者能够更轻松地部署工业元宇宙应 用。

AI 大模型时代,算力需求提升明显,并保持指数级增长。 2015 至 2016 年左右,AI 大模 型问世,大模型趋势始于 2015 年底 AlphaGo 的出现并一直延续至今。期间,这些大规 模模型由科技巨擘训练,他们拥有的更多训练预算打破了以往的趋势,大模型由于参数数 量大幅增加,所需要的算力也相较常规模型大幅增长。目前 ChatGPT 的总算力消耗约为 3640PF-days(即假如每秒计算一千万亿次,需要计算 3640 天),需要 7~8 个投资规模 30 亿、算力 500P 的数据中心才能支撑运行。 大模型算力增加呈指数级变化,每 9 至 10 个月翻一番。2015 年推出的 Alpha Go Lee 大 模型所需要的训练量算力超过 10^21 FLOPs,而 2021 年推出的大模型 Megatron-TuringNLG 530B 的训练算力需求已经超过了 10^24 FLOPs,算力提升了 1000 倍左右。

2.2、AI芯片:训练、推理全面布局,公司产品定义行业发展

类比成在学校中学习,AI 模型和大多数人一样——为了完成一项工作,需要接受教育。 具体来说,经过训练(training)的 AI 模型可以将其所学应用于数字世界的任务——例如: 识别图像、口语词、血液疾病,或者向某人推荐她/他接下来可能要购买的鞋子等各种各 样的应用。这种更快更高效的版本的 AI 模型可以基于其训练成果对其所获得的新数据进 行“推导”,在人工智能领域,这个过程被成为“推理(inference)”。

训练所需要精度更高,算力也更高,并且需要有一定的通用性,以便完成各种学习任务。 因此目前 AI 训练芯片的算力一般都采用 16 位浮点数进行标志,另外支持 32 位浮点数计 算,甚至 64 位双精度数据的计算。 推理是借助已经训练好的 AI 模型进行运算,利用输入数据获得所需要输出的结果,对精 度和算力要求较低。因此一般推理都是采用 8 位整型对算力进行标志,计算时也都是进行 整型运算。

人工智能芯片多用传统型芯片,或用昂贵的图形处理器 (GPU),或用现场可编程门阵列 芯片配合中央处理器 (FPGA+CPU)为主, 用以在云端数据中心的深度学习训练和推理,通用/专用型 AI 芯片(ASIC),也就是张量处理器或特定用途集成电路 (ASIC),主要是 针对具体应用场景,三类芯片短期内将共存并在不同应用场景形成互补。

公司于 1999 年发明了全球第一款 GPU(图形处理器),GPU 具有大量运算单元,非常适 合并行运算,能够大幅提高计算效率。借助 GPU 行业的深厚积累,公司在 2006 年推出 CUDA 架构,使科学家和研究人员能够利用 GPU 的并行处理能力来应对最复杂的计算挑 战。凭借 GPU 行业的深厚积累,公司通过去掉传统 GPU 的图像渲染单元,优化计算能 力,先后推出了多款训练、推理 AI 芯片,并且借助 CUDA 构建的丰富生态,在 AI 芯片 行业成为了全球龙头企业。根据 IDC 数据,2022 年公司在全球企业级 GPU 市占率达到 91.4%,同时根据产业链调研,公司在国内 AI 芯片的市占率超过 90%。

AI 芯片重要指标是算力和带宽。算力是一秒钟所能完成的处理的数量,决定了 AI 芯片的 数据计算速度。而带宽决定了AI芯片每秒钟可以访问的数据量。如果AI芯片的算力不足, 对于大量算力需求的模型训练需要耗费更长时间,同时考虑到 AI 芯片板卡之间的互联损 耗,AI 芯片板卡增大到一定数量时,会有类似边际效应的情况发生,算力的增长大幅减 小,因此无法通过无限增加 AI 芯片数量来实现算力提升。而带宽决定了 AI 芯片获得数据 的能力,如果算力非常高的 AI 芯片其带宽极小,访问数据能力不足,则无法让算力完全 发挥,也会限制性能。因此大算力、高带宽是 AI 芯片的发展方向。

训练端公司先后推出了 V100、A100、H100 三款芯片,以及为了满足美国标准,向大陆 销售的 A100 和 H100 的带宽缩减版产品 A800 和 H800。(1)V100 能加快 AI、高性能 计算 (HPC) 和图形技术的发展。其采用 NVIDIA Volta 架构,并带有 16 GB 和 32GB 两 种配置,在单个 GPU 中即可提供高 10 个 CPU 的性能。(2)A100 采用 NVIDIA Ampere 架构,是 NVIDIA 数据中心平台的引擎。A100 的性能比上一代产品提升高达 20 倍,并可 划分为七个 GPU 实例,以根据变化的需求进行动态调整。A100 提供 40GB/80GB 显存 两种版本,A100 80GB 将 GPU 显存增加了一倍,并提供超快速的显存带宽(每秒超过 2 万亿字节 [TB/s]),可处理超大型模型和数据集。

(3)H100 使用 NVIDIA NVLink Switch 系统,可连接多达 256 个 H100 来加速百亿亿级 (Exascale) 工作负载,另外可通过专用 的 Transformer 引擎来处理万亿参数语言模型。与上一代产品相比,H100 的综合技术创 新可以将大型语言模型的速度提高 30 倍,从而提供业界领先的对话式 AI。 公司最新的 H100 算力接近 2000T,采用台积电 5nm 制程,是目前算力最大的 AI 训练芯 片,随着模型参数数量增大,训练所需要算力不断增长,H100 有望进一步巩固公司龙头 地位。

2.3、GPU:独立显卡市场强者恒强,公司龙头地位稳固

GPU(Graphics Processing Unit, 图形处理器)又被称为显示芯片,多用于个人电脑、 工作站、游戏主机以及移动设备(智能手机、平板电脑、VR 设备)上专门运行绘图运算 的微处理器。图形处理器是公司在 1999 年 8 月发表 GeForce 256 绘图处理芯片时首先 提出的概念,在此之前电脑中处理影像输出的显示芯片,通常很少被视为是一个独立的运 算单元。 独立 GPU 一般焊接在显卡的电路板上,位置在显卡的风扇下面。独立 GPU 使用的是专 用的显示存储器,显存带宽决定了 GPU的连接速度。集成 GPU一般与 CPU集成在一起。 集成 GPU 一般只支持电脑日常办公,性能较低,但功耗和成本也低。而独立 GPU 具有 更强大的性能,可以支持大型游戏或图像处理软件运行,但具有更高的功耗和成本。

2022 年全年桌面独立显卡的出货量为 3786 万块,相比 2021 年的 4915 万大幅下降。在 2021 年,桌面独立显卡市场规模为 518 亿美元,显卡平均售价为 1056 美元。由于 2022 年桌面独立显卡的出货量下降明显,整个市场的规模也减少了 241.4 亿 美元,而显卡平均售价为 637 美元。我们预计 2023 年下半年开始,2020 年疫情初期所 购买的电脑将开始陆续进入换机周期,叠加消费电子复苏,有望使得独立显卡出货量及平 均售价重新提升。

虽然市场处于下行周期,公司独立显卡市占率稳步提高。公司独立显卡市占率常年超过 70%。而去年随着公司 GeForce RTX 40 系列显卡推出,凭借优异性能,公司市占率更进 一步。根据 JPR 数据,2022 年 Q3 全球独立显卡市场当中,公司占据 88%,AMD 占 8%, 英特尔为 4%。而根据 JPR 数据,公司 2022 年 Q1 在全球独立显卡的市占率为 78%。 公司在市场下行期间扩大份额,有望在市场复苏时更巩固自身龙头地位。

公司目前在售产品包括 GeForce RTX 16\20\30\40 系列产品,全面覆盖低中高市场。在 高端独立显卡市场中,GeForce RTX 4090 是目前性能最高的独立显卡,较竞争对手更具 优势。同时公司凭借 DLSS 算法,可以通过 AI 技术实现游戏性能的大幅突破,使消费者 体验更为良好。而公司的显卡驱动以及针对各种游戏及应用场景的优化也是市场中最为领 先的,很多游戏厂商或专业图像渲染厂商,因为公司独立显卡的极高市占率,在开发游戏 或图像渲染软件时,会专门针对公司独立显卡进行优化,进一步巩固了公司市场地位。因 此我们认为,独立显卡行业强者恒强,公司未来将继续保持并稳固行业龙头地位。

2.4、DPU:数据中心第三颗主力芯片,助力数据中心迈入AI时代

DPU(数据处理器,Data Processing Unit),是数据中心第三颗主力芯片。2016 年,DPU 首次由美国公司 Fungible 提出,其主要目标是优化和提升数据中心效能。DPU 是由基础 网卡进化而来,是智能网卡发展的下一形态。DPU下游主要对应数据中心/云计算、智能 驾驶、数据通信、网络安全等领域需求。作为算力网络创新技术之一,算力卸载统筹虚拟化、数据安全、 运维管理等领域,是构 建高性能、高可靠云化平台的关键技术。DPU 一方面是实现算力卸载的重要载体,另一 方面也是算网一体的初级形态,定位于数据中心继 CPU、GPU之后的“第三颗主力芯片”, 业界需要重点打造和推动 DPU 技术的发展与成熟。根据华经产业研究院数据,2021年全球DPU市场已达到50.7亿美元规模,并随着 AI、HPC 等大算力高性能应用场景不断落 地,未来市场增速明显,在2025年将达到 245 亿美元的规模。

公司 2020 年推出 BlueField-2 DPU 以来,已经陆续迭代了多款产品,目前已经量产的产 品包括 Bluefield-2 以及 BlueField-3,面向数据安全、网路安全、存储卸载等应用场景。 公司 DPU 芯片采用 Arm 内核,以 SoC 的形态出货。对于更复杂、更广泛的现实用例, 基于 SoC 的 DPU 技术路线提供了更优实施选项,SoC 技术路线具备可编程、高灵活性 等特征,是未来 DPU 发展的一个主流方向。

公司 DPU 产品业界性能领先,BlueField-3 是首款为 AI 和加速计算而设计的 DPU,助力 各企业在任何规模的应用上都能实现业内领先的性能和数据中心的安全性。这款 DPU 针 对多租户、云原生环境进行了优化,提供数据中心级的软件定义和硬件加速的网络、存储、 安全和管理等服务。一个 BlueField-3 DPU 所提供的数据中心服务可相当于多达 300 个 CPU 核才能实现的服务,从而释放宝贵的 CPU 资源来运行关键业务应用。 作为业内首款 400G 以太网和 NDR InfiniBand DPU,BlueField-3 具有出色的网络性能。 相比上一代产品,它具有 10 倍加速计算能力、16 个 Arm A78 CPU 核,和 4 倍的加密速 度。BlueField-3 也是首款支持第五代 PCIe 总线并提供数据中心时间同步加速的 DPU。

2.5、CPU:面向数据中心定制,自研CPU+GPU组合强化平台化优势

公司于 2023 年 GTC 当中宣布推出首款面向 AI 基础设施和高性能计算的基于 Arm Neoverse 的数据中心专属 CPU,其可提供最高的性能,是当今领先服务器芯片内存带宽 和能效的两倍。 NVIDIA Grace CPU 超级芯片由两个 CPU 芯片组成,它们之间通过 NVLink-C2C 互连在 一起。NVLink-C2C 是一种新型的高速、低延迟、芯片到芯片的互连技术。Grace CPU 超级芯片是去年 NVIDIA 发布的首款由 CPU-GPU 集成的“Grace Hopper 超级芯片”的一 部分,它将与基于 NVIDIA Hopper 架构的 GPU 一同应用于大型 HPC 和 AI 应用。这两款 超级芯片采用相同的底层 CPU 架构及 NVLink-C2C 互连。

Grace CPU 与公司 Hopper 架构 GPU 使用,并采用公司 NVLink Switch 连接技术时,相 比传统 x86 架构 CPU 与公司 Hopper 架构 GPU 时,CPU 带宽有了 2 倍左右增长, GPU-CPU 双向带宽有了近 6 倍增长,而 GPU-GPU 双向带宽增长了 8 倍,性能有显著 提高。凭借最高的性能、内存带宽、能效及可配置性,Grace CPU 超级芯片在要求最为严苛的 高性能计算、AI、数据分析、科学计算和超大规模计算应用方面将会脱颖而出。根据公司 测试,使用 Grace Hopper 相比传统 x86+Hopper,在 NLP 自然语言模型的训练中,运算 速度提高了 4 倍,而在高性能计算应用如 ABINIT 中,性能提高了 3.6 倍。

三、完整的软件生态助力英伟达与客户合作共赢

公司目前在 GPU 领域拥有绝对的统治力:受到疫情及产能影响,全球独立 GPU 在 22 年 出货量受到了比较大的影响,22Q2、22Q3GPU 出货量分别为 1800 万、1200 万台,同 比下滑约 20%、50%,但是服务器中的独立 GPU 销量所受到的影响相对小很多,22Q2、 22Q3 服务器独立 GPU 出货量约为 81 万、79 万台,同比增长 83%、50%,仅 22Q3 环 比略有下滑。从份额上看,所有独立 GPU 中,公司最低的份额为 18Q1 的 66.4%,在这 之后公司的份额至 22Q2 一路上升到 83%左右,而 22Q3,全球 GPU 份额公司占据了 88.4%。在服务器独立 GPU 份额上,公司的优势更加明显,自 17Q3 之后,公司份额一 直在 90%之上,22Q3,公司服务器独立 GPU 份额甚至达到了 96%。

为什么是英伟达? 1)之前介绍过的多适用于不同应用领域的高性能 GPU 及服务器、新推出的适配 Grace-Hopper 体系的 Grace CPU 等。2)公司 CUDA 架构是目前最适合深度学习、AI 训练的 GPU 架构。在 2007 年推出后经历了 16 年的不断改善更新,衍生出各种工具包、 软件环境,构筑了完整的生态。3)公司已经与众多客户合作,一同构建细分领域加速库 与 AI 训练模型,目前已经积累 300 个加速库和 400 个 AI 模型。Omniverse 平台与各 AI 平台、GTC 上宣布构建 Nvidia AI Foundations(云 LLM&生成式 AI 平台)与 DGX Cloud (云算力平台)与用户共同成长,合作共赢。4)NVSwitch 与 NVLink 大幅提升了 GPU 显存的物理限制,使得 GPU 之间的数据传输更加迅速,系统内大幅提升 GPU 传输效率, 完美配合公司高性能 GPU。

3.1、CUDA架构帮助公司率先开拓加速计算&深度学习

GPU 在加速计算及深度学习上性能远远高于 CPU:CPU 作为传统的计算处理核心,往 往运用于通用计算中,核心数较少。GPU 则是作为图形计算的核心,通常用于处理图像 信息,核心数较多。如果需要进行大量的并行计算,由于 CPU 的线性流程特点,CPU 只 能根据核心数一次进行对应的并行计算。而 GPU 由于具有多核心的特点,因此在处理并 行计算时,可以多核心同时进行,大幅提高计算效率。举例来说,目前 AMD 第四代 EPYC 服务器 CPU“Genoa”的核心数最高达 96 个,而 Nvidia H100 则有 16896 个 CUDA 核心。 目前来看,GPU 是目前最适合深度学习&AI 训练的硬件。

CUDA 架构帮助公司从所有 GPU 厂商中脱颖而出:过去 GPU 完成并行计算需要先将计算 任务渲染成图形再借助 GPU 图形处理的能力进行计算,而公司在 2006 年推出了 CUDA 架构,通过定义的一套通用计算指令集 (PTX) 和一小部分 C 语言扩展集,让开发者直接运用编程语言与指令对计算任务进行处理,充分利用 GPU 中强大的并行计算能力,大幅 缩短计算时间。随着 CUDA 的不断发展,公司使 CUDA 可以直接支持 OpenCL、Fortran、 Python、.NET 等语言及标准 API,建立起了一套目前最完善的软件体系。

AMD 的 ROCm 系统相比 CUDA 在编程语言和 API 支持上有所不如,且支持的 GPU 类型也相对较少。 公司也在不断更新 CUDA,对加速计算、深度学习提供支持。2022 年 11 月 28 日,公司 推出最新的 CUDA 12.0 大版本,为 Hopper 和 Ada Lovelace 架构提供可编程功能。CUDA 12 提供了更多的张量操作选项,这些选项很多都支持公共 PTX 中间表示法,更方便大模 型通过张量计算训练。

在成熟的 CUDA 底层架构之上,公司还专门为 AI进行了优化,推出了 CUDA-X A 加速库。 CUDA-X AI 是软件加速库的集合,这些库建立在 CUDA 之上,提供对于深度学习、机器 学习和高性能计算必不可少的优化功能。CUDA-X AI 让开发人员能够提高工作效率,同 时从不断提升的应用程序性能中获益。CUDA-X AI 主要组件包括数学库、并行算法库、 图像和视屏库、通信库、深度学习库、合作伙伴库,用户通过使用这些库,实现不断扩展 的算法集的过程将得到大幅优化。CUDA-X AI 库可以部署到多种设备内的 NVIDIA GPU 上,其中包括台式机、工作站、服务器、云计算和物联网设备。

通过与行业合作得到的数 据再经由公司自己的大模型的训练,这些加速库已经充分完成了预训练。未来想要发展行 业端 AI 应用的公司只需调整自身的数据再通过已有加速库进行训练、优化,即可得到高 质量模型。其他涉及服务器 GPU 的公司例如 AMD、公司都没有类似 CUDA 架构及 CUDA-X AI 加速库的生态,公司在软件层面全面领先竞争对手。

公司深度计算&AI 训练生态完整:目前公司生态下 AI 训练的流程为:1)加快完成数据准 备:相较于类似的纯 CPU 配置,企业凭借 Nvidia Rapids 最高可将性能加快 70 倍并将成 本效益提高 20 倍。2)大规模训练:借助 Nvidia Tao 工具套件,无需 AI 专业知识或大型 训练数据集,仅需微调 NVIDIA 预训练模型,即可在数小时内创建自定义的生产就绪型 AI 模型。3)针对推理进行优化:在推理过程中,使用 NVIDIA TensorRT 的应用的执行速度 比纯 CPU 平台的速度快高达 40 倍。TensorRT 可以优化在所有主要框架中训练的神经 网络模型。4)大规模部署:借助 NVIDIA Triton 推理服务器,可简化并优化在生产环境 中大规模部署 AI 模型的流程。

RAPIDS 由一系列开源软件库和 API 组成,用于完全在 GPU 上执行数据科学流程,以 NVIDIA CUDA-X AI 为基础,融合了显卡、机器学习、深度学习、高性能计算等领域多年 来的发展成果。RAPIDS 使用 10TB 大小的常见 API(如 Pandas 和 Dask),相较于最高 的 CPU 基准,其在 GPU 上的运行速度要快 20 倍。RAPIDS 依靠 CUDA 基元进行低级 别计算优化,但通过用户友好型 Python 接口实现了 GPU 并行化和高显存带宽。RAPIDS 支持从数据加载和预处理到机器学习、图形分析和可视化的端到端数据科学工作流程。

NVIDIA TAO 工具套件基于 TensorFlow 和 PyTorch 构建,是 NVIDIA TAO 框架的低代码 版本,通过抽象出 AI/深度学习框架的复杂性来加速模型训练过程。无需具备 AI 专业知 识或大型训练数据集,TAO 工具套件可以通过迁移学习的强大功能和对预训练 NVIDIA 模型进行微调,针对推理进行优化。公司通过已有的数据已经训练了超过 100 个模型, 同时与 Nvidia Riva、Nvidia Metropolis 等 AI 平台连接,构筑了完整且简化的 AI 训练流 程,极大程度降低了 AI 训练的门槛。

TensorRT 以 NVIDIA 的并行编程模型 CUDA 为基础构建而成,利用 CUDA-X 中的库、 开发工具和技术,针对人工智能、自主机器、高性能计算和图形优化所有深度学习框架中 的推理。NVIDIA TensorRT 是用于高性能深度学习推理的 SDK。此 SDK 包含深度学习推 理优化器和运行时环境,可为深度学习推理应用提供低延迟和高吞吐量。软件端的 Tensor SDK 配合早在 2017 年就推出的 Tensor Core 硬件使得公司在保持准确性的同时,大幅缩 短从训练到收敛的时间,从而在 AI 学习上遥遥领先 AMD。

Triton 推理服务器可在任意基于 GPU 或 CPU 的基础设施上部署、运行和扩展任意框架中 经过训练的 AI 模型,进而精简 AI 推理。它还帮助开发者跨云、本地、边缘和嵌入式设备 提供高性能推理。Triton 还可在严格的延迟限制条件下优化实时推理服务,通过支持批量 推理来更大限度地提高 GPU 和 CPU 利用率,并内置对音频和视频流输入的支持。对于 需要使用多个模型来执行端到端推理的用例,Triton 支持模型集成。2023GTC 上公司推 出了新软件 NVIDIA Triton Management Service,可在整个数据中心自动扩展和编排 Triton 推理实例,可提高部署模型的吞吐量和成本效率。

3.2、Omniverse叠加其他AI平台,覆盖多行业助力公司构建完整生态

为什么 Omniverse 重要?不仅仅在于公司向我们展示的已实现的各种应用、正在实现或 者未来即将实现的应用,Omniverse 可以发挥其元宇宙的特性,使成千上万的人进入同一 片空间解决同一个问题,从而大幅提升效率。Omniverse 是一个不断完善自身、不断扩充 用户群体的 AI 平台,从技术到生态来看是目前最好的平台。平台本身丰富的工具、领先 的技术叠加看不见竞争对手的先发优势将持续巩固公司在元宇宙以及数字工业领域的优 势。 建立起 Omniverse 平台及其他 AI 平台后,公司 AI 服务已经覆盖了设计、金融、游戏、 仓储、医疗、高等教育、数据中心、交通运输、公共领域等行业。公司几乎实现了这些在 这些行业上 AI 应用的垄断,随着未来 AI 应用行业拓展、市场规模的不断扩张,公司将成 为软件生态领域的最大受益者。

工业数字化已经成为元宇宙中可实现的实际应用:在公司的 AI 平台中,Omniverse 作为 元宇宙和工业数字化的入口,是构建 AI 生态的关键一环。元宇宙方面,Omniverse 可以 使艺术家垮多个 3D 工具创作内容、开发者在虚拟世界中训练 AI、企业构建工业流程的数 字孪生。对艺术家&工程师来说,Omniverse 带来的实时 3D 场景建模、全面模拟&可视 化、方便的团队合作都为艺术创作或者规划蓝图带来了极大的便利。目前已有近 30 万 名创作者和设计师下载了 Omniverse。GTC2023 上,公司向我们分享了工业数字化目前 的实际应用。公司展示了 BMW 建设新工厂与 Amazon 仓储规划的 Omniverse 运用。精 细的建模可以有效的帮企业解决工厂建设时可能遇到的问题,在动工前节约大量纠错成本。 大量车企已经开始了运用 Omniverse 的数字化,将汽车零部件在虚拟环境中组装成数字 孪生汽车、将空气动力学可视化、测试主动安全系统等。

Omniverse 是基于 USD (Universal Scene Description) 的可扩展平台,可使个人和团队 更快地构建自定义 3D 工作流并模拟大型虚拟世界。USD 不仅仅是一种文件格式,更是 一个开放、可扩展的框架和生态系统,具有可用于在 3D 虚拟世界中合成、编辑、查询、 渲染、协作和仿真的 API。Omniverse 主要包含五个组件:1)Omniverse Nucleus:最 重要的提供共享数据库和协作引擎。2)Omniverse Connect:在客户端应用和 Omniverse 应用之间实现工作流双向的实时同步。3)Omniverse Simulation:采用 NVIDIA 核心物 理模拟技术的可扩展、物理精准的世界仿真。4)Omniverse Kit:用于开发基于简洁且强 大工作流程的应用框架。5)多 GPU 可扩展渲染器,实现高性能光线追踪。

Omniverse 的核心技术包括 MDL、PhysX 与 RTX:MDL(材料定制语言)可在支持的 应用程序之间自由地共享基于物理性质的材质和光线。不同于为特定渲染器生成程序的着 色语言,MDL 材质定义光线的高级特性。不管是基于 OpenGL 的应用程序还是像 Iray 一 样基于物理的渲染器,MDL 都可以通过多种渲染器和工具解释光线特性并创建极佳的图 像。 PhysX 是一种可扩展的多平台物理仿真解决方案,可为智能手机、高端多核 CPU 和 GPU 等各类设备提供支持。

RTX 是 NVIDIA 在计算机图形领域的重要先进技术之一,RTX 技术利用优化的光线追踪 API(如 NVIDIA OptiX、Microsoft DXR 和 Vulkan),将实时电影级渲染效果变为现实。 逼真的视觉效果不仅包括物体呈现的外观,还包括其行为方式。借助强大的 CUDA Core和 API,RTX 技术能够在游戏、虚拟环境以及特效环境中,对真实物体的行为精确建模。 NVIDIA RTX 技术为可视化计算带来了 AI 功能,使开发人员能够创建 AI 增强型应用,为 终端用户带来出色的工作流程加速效果。

目前的 Omniverse 生态中已有的部分应用:这些应用可以帮助用户实现逼真的建模以及 更为深远的数字工业化,并且已经对客户业务产生了深远影响。 1)Omniverse Audio2Face:使用生成式 AI 可以即时从一个音频来源创建面部表情动画。 根据任何配音音轨制作游戏角色、电影角色或实时数字助理 3D 动画。Audio2Face 对 AR/VR、数字人的应用起到了积极作用。在 AR/VR 设备的面部动作捕捉仍未普及 的当下,使用该音频转面部表情(包含情绪,生动的面部动作)的技术,能增强 AR/VR 社交软件和数字人的体验的真实性。

2)Omniverse ACE:实时的 AI 端到端解决方案,用于大规模开发和部署交互式人物模 型和数字人。Omniverse ACE 也包含了公司其他 AI 平台中的 NVIDIA Maxine,提供 了一套 GPU 加速的 AI 软件开发套件和云原生微服务,用于部署 AI 功能,以增强实 时视频通信。Omniverse 也与 NVIDIA Tokkio 嵌入在一起,Nvidia Tokkio 可以赋能交 互式虚拟形象以智能方式查看、感知、交谈并提供推荐,以加强在线和现场(餐馆和 商店等)的客户服务。

3)Nvidia Drive Sim:构建了一个物理精准的仿真平台,能够快速、高效地进行大规模 的自动驾驶汽车测试和验证。Nvidia Drive Sim 中包含了神经重建引擎(NRE),这是 一套 AI 工具,可以将真实世界的数据直接带入仿真中,大大增加真实感并加快生产 速度。NRE 可将驾驶过程中收集的视频数据转换为交互式 3D 测试环境,开发者可 在此环境中修改场景、添加合成对象,并应用随机化技术,使初始场景更具挑战性。 目前大陆集团和 AEye 的长距激光雷达已经和公司合作接入 Drive Sim 平台。

4)Nvidia Isaac Sim:由 Omniverse 提供动力支持,是一款可扩展的机器人模拟应用和 合成数据生成工具,可提供逼真、物理属性准确的虚拟环境,以便开发、测试和管理 基于 AI 的机器人。利用 Isaac Sim 的 Omniverse Replicator,可以生成用于训练 感知模型的合成数据。同时支持机器人在虚拟环境中模拟操作和模拟导航。在 GTC2023 中,公司展示了目前通过 Isaac Sim 实现的工业数字化成果,也宣布了与 BMW、Amazon Robotics、西门子等企业合作,打造智能工厂和自动化仓储物流。

四、盈利预测

我们预测 2023-2025 年公司营收达到 296.98 亿美元、358.19 亿美元、436.79 亿美元, 净利润分别为 0.38 亿美元、0.72 亿美元、1.13 亿美元,GAAP 毛利率为 64.5%、65.0% 和 65.5%,不同业务的营收变动逻辑如下:

数据中心:预测 2023-2025 年营业收入达到 172.56 亿美元、215.70 亿美元、269.62 亿 美元,同比+15%、+25%、+25%。营业收入方面,公司为全球数据中心 GPU 龙头厂商, 2022 年实现营收 150.05 亿美元,同增 41%。根据 TrendForce 数据,AI 训练所用的服 务器 GPU 主要被公司和 AMD 垄断,其中公司市占率约 80%,且产品性能领先 AMD。 同时根据产业链调研,公司在国内 AI 芯片的市占率超过 90%。随着全球人工智能发展超 预期,海内外厂商纷纷投入大模型和 AI 竞赛中,我们测算得大模型训练有望给公司数据 中心业务带来 36.38 亿美元的额外业绩弹性,因此我们给予 23-25 年数据中心业务15%、 25%、25%的营收增速预测。

游戏:预测 2023-2025 年营业收入达到 95.20 亿美元、104.72 亿美元、120.43 亿美元, 同比+5%、+10%、+15%。营业收入方面,2022 年公司游戏业务营收大幅下滑主要是矿 难导致上一代 GPU 显卡库存过高,随着库存逐渐去化,新产品 RTX40 系列的供不应求, 以及公司游戏业务长期基本面优异,我们认为游戏业务营收增速将逐季改善。目前公司独 立 GPU 份额超 80%,根据 JPR 的数据,公司在全球独立显卡市场的市占率从 19Q4 的 73%提高到 22Q3 的 88%,同期最大竞争对手 AMD 的市占率从 27%下降到 8%。

公司全 球范围内用户超 2 亿,RTX40 系列产品在性能与竞争对手之间进一步拉开差距。在软件 方面,公司与微软签署了一份为期 10 年的协议,将 Xbox PC 游戏系列引入 GeForce NOW 云游戏平台,进一步多元化游戏业务营收,以弥补硬件部分受制于个人电脑出货量增速的 放缓。受益于高玩家基数和产品固定升级周期,我们看好游戏业务有望成为现金奶牛。因 此我们给予 23-25 年游戏业务 5%、10%、15%的营收增速预测。

专业可视化:预测 2023-2025 年营业收入达到 11.58 亿美元、13.90 亿美元、16.68 亿美 元,同比-25%、+20%、+20%。Omniverse 作为元宇宙和数字工业化的入口,成为 AI 生态构建的关键环节,其本身丰富的工具、领先的技术叠加看不见竞争对手的先发优势将 持续巩固公司的平台化优势。但目前 Omniverse 仍处于初步导入客户阶段,短期内对于 库存调整而导致的营收下滑改善有限。公司预计库存调整有望在 2023 年上半年结束,短 期内营收会受到库存调整的扰动,但 Omniverse 在各垂直领域的落地有望成为营收成长 核心驱动力。因此我们给予 23-25 年专业可视化业务-25%、20%、20%的营收增速预测。

自动驾驶:预测 2023-2025 年营业收入达到 13.55 亿美元、18.96 亿美元、24.65 亿美元, 同比+50%、+40%、+30%。营业收入方面,我们认为自动驾驶和新能源应是未来 15 年 最大的科技变革。从人驾到类似智能服务器装四轮驱动的自驾的转变将对硬件产业链形成 巨 大 的提 升, 大 幅提 高激 光雷 达 摄像 头毫 米波 雷 达, CV2X 等 感 知 层芯 片 , GPU/CPU/FPGA/AI 芯片等决策层芯片,以及高速以太网接口等执行层芯片的需求。所以 我们之前在 2022 年度策略报告中估计 2035 年全球超过 30%的汽车销量将具备 L3-L5 的 自动驾驶功能,未来 15 年的复合增长率达到 30-35%。

公司在自动驾驶业务上进行了软 硬件一体的产品布局,未来 5 年在手订单超 110 亿美元,产品已覆盖前 30 大乘用车厂商 中的 20 家,前 10 大货车厂商中的 7 家,前 10 大无人驾驶出租车中的 8 家。我们看好公 司自动驾驶业务即将步入收获期,因此我们给予 23-25 年自动驾驶业务 50%、40%、30% 的营收增速预测。

毛利率方面:预测 2023-2025 年公司 GAAP 毛利率为 64.5%、65.0%和 65.5%。毛利率 方面,2022 年四个季度公司 GAAP 毛利率分别为 65.5%、43.5%、53.6%、63.6%。由 于挖矿热潮的消退以及美国限制公司数据中心用高性能 GPU 向中国大陆市场出货,导致 公司在 2022 年第二季度和第三季度增加部分库存准备以及库存减计费用影响公司毛利率。随着公司面向游戏市场推出新产品 RTX40 系列,超越竞争对手的卓越性能使得新品持续 处于供不应求的状态,以及公司面向中国大陆客户推出定制化 GPU产品以解决美国禁令, 过高的库存问题正在逐渐消失。结合公司对 2023 年第一季度 GAAP 毛利率 63.6%-64.6% 的展望,我们看好公司毛利正在逐季改善。因此我们给予 23-25 年公司 GAAP 毛利率 64.5%、65.0%和 65.5%的预测。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有