GPU 进阶笔记(二):华为昇腾 910B GPU 相关(2023) 您所在的位置:网站首页 华为macbook14s什么显卡 GPU 进阶笔记(二):华为昇腾 910B GPU 相关(2023)

GPU 进阶笔记(二):华为昇腾 910B GPU 相关(2023)

2024-06-27 04:53| 来源: 网络整理| 查看: 265

GPU 进阶笔记(二):华为昇腾 910B GPU 相关(2023)

Published at 2023-10-25 | Last Update 2024-03-10

记录一些平时接触到的 GPU 知识。由于是笔记而非教程,因此内容不求连贯,有基础的同学可作查漏补缺之用。

水平有限,文中不免有错误或过时之处,请酌情参考。

GPU 进阶笔记(一):高性能 GPU 服务器硬件拓扑与集群组网(2023) GPU 进阶笔记(二):华为昇腾 910B GPU 相关(2023) GPU 进阶笔记(三):华为 NPU (GPU) 演进(2024) 1 术语 1.1 与 NVIDIA 术语对应关系 1.2 缩写 2 产品与机器 2.1 GPU 产品 2.2 训练机器 底座 CPU 功耗 操作系统 2.3 性能 3 实探:鲲鹏底座 8*910B GPU 主机 3.1 CPU 3.2 网卡和网络 3.3 GPU 信息 3.3.1 GPU 卡间互连:HCCS 3.3.2 GPU/Memory 使用率 3.4 Linux 设备 4 容器相关 参考资料 1 术语 1.1 与 NVIDIA 术语对应关系

大部分人目前还是对 NVIDIA GPU 更熟悉,所以先做一个大致对照,方便快速了解华为 GPU 产品和生态:

NVIDIA HUAWEI 功能 GPU NPU/GPU 通用并行处理器 NVLINK HCCS GPU 卡间高速互连技术 InfiniBand HCCN RDMA 产品/工具 nvidia-smi npu-smi GPU 命令行工具 CUDA CANN GPU 编程库 DCGM DCMI GPU 底层编程库/接口,例如采集监控信息

说明:华为很多地方混用术语 NPU 和 GPU,为简单起见,本文统称为 GPU。

1.2 缩写 NPU: Neural-network Processing Unit HCCS: Huawei Cache Coherence System HCCN: Huawei Cache Coherence Network CANN: Huawei compute Architecture for Neural Networks

DCMI: DaVinci Card Management Interface

参考下 NVIDIA 一张图,看下 DCGM/DCMI 在软件栈中的位置:

NVIDIA nswitch software stack

2 产品与机器 2.1 GPU 产品 训练:昇腾 910B,对标 NVIDIA A100/A800,算力对比; 推理:Atlas 300 系列,对标 NVIDIA T4; 2.2 训练机器 底座 CPU

根据 CPU 不同分为两种:

x86 底座

客户需要适配的工作量小一些;

arm 底座:鲲鹏系列

华为云上一般提供的是这种 功耗低,叠加液冷,可以实现比常规 NVIDIA 服务器更好的“性能/功耗”比; 功耗

16 卡昇腾 910B 训练机器,8U,功耗对比:

X86: 12KW ARM: 4.5KW 操作系统

华为默认是自家的欧拉操作系统 EulerOS(基于 CentOS),

$ cat /etc/os-release EulerOS release 2.0 (SP10) NAME="EulerOS" VERSION="2.0 (SP10)" ID="euleros" VERSION_ID="2.0" PRETTY_NAME="EulerOS 2.0 (SP10)" ANSI_COLOR="0;31" 2.3 性能

一些公开信息:

算力指标基本对齐 NVIDIA A800,卡间互联带宽还有差距; 科大讯飞称和华为联合优化之后,在他们的场景中已经达到 A100 的性能;

910B 的官方公开信息比较少,但上一代 910 是发了 paper 的,想了解内部细节(例如 HCCS)的可参考 [2]。

3 实探:鲲鹏底座 8*910B GPU 主机

8 卡训练机器配置,来自华为云环境:

机型: physical.kat2ne.48xlarge.8.ei.pod101 CPU: Kunpeng 920 (4*[email protected]),ARM 架构,192 核 内存: 24*64GB DDR4 网卡: 2*100G + 8*200G 浸没式液冷 3.1 CPU $ cat /proc/cpuinfo ... processor : 191 BogoMIPS : 200.00 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 atomics fphp asimdhp cpuid asimdrdm jscvt fcma dcpop asimddp asimdfhm ssbs CPU implementer : 0x48 #


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有