行业研究报告哪里找 您所在的位置:网站首页 unity商用版多少钱 行业研究报告哪里找

行业研究报告哪里找

2023-04-10 09:05| 来源: 网络整理| 查看: 265

英特尔:中国公有云和互联网创新实践(2023)(151页).pdf

1云与数据中心基础设施应用篇高效 灵活 可靠 构建云创新基石英特尔中国公有云和互联网创新实践2云与数据中心基础设施应用篇前言综述至强内置 AI 加速,驱动云上智能提升千行百业生产力阿里巴巴采用英特尔多样化硬件,构建开源稀疏模型训练和预测引擎 DeepRec蚂蚁集团基于英特尔 SGX 和英特尔 DL Boost 加速端到端 PPML 解决方案火山引擎基于傲腾 持久内存优化推荐系统存储架构,实现更优投资收益美团基于至强 可扩展平台深度优化 TensorFlow,提升推荐系统性能壹沓科技基于至强 OpenVINO,加速基于 RPA AI 的智能平台创新 搜狐采用至强 可扩展处理器提升 AI 推理性能,加速负载均衡加解密处理58 同城使用英特尔 傲腾 持久内存打造高经济性的 Redis 与云搜系统综述至强 平台加速编解码与加解密,助力互联网行业满足信息消费强需求腾讯云使用至强 可扩展处理器,实现 HTTPS 性能优化,提升安全服务OPPO 基于英特尔 服务器 GPU 打造云游戏平台,全面提升游戏体验赞奇科技采用英特尔 oneAPI 渲染工具包,加速三维视觉计算效率蔚领时代、硅基大陆采用英特尔 CPU GPU,提供高密度、流畅的游戏云服务爱奇艺引入傲腾 SPDK OCF 深度优化 MySQL 性能,提供优质客户体验综述高效、灵活、可靠,英特尔 至强 可扩展平台构建云创新基石腾讯云依托傲腾 持久内存深度优化云硬盘 CBS 产品,打造极速云存储体验百度智能云基于英特尔 IPU 打造全新计算平台,提升云平台管理能力更兼顾成本效益字节跳动采用英特尔 RDT 和英特尔 PRM 缓解底层硬件干扰,提升混布集群性能京东云基于至强 处理器打造冷板液冷参考解决方案,有效降低数据中心能耗京东利用英特尔 MCA MFP 降低内存故障下的宕机率,构建稳定、高效的云服务青云科技采用英特尔软硬件升级新一代 QKCP 企业级容器平台,加速企业云原生落地 金山云基于英特尔 架构构建大数据存算分离解决方案,实现降本增效金山云采用英特尔 Tofino 可编程交换芯片实现高带宽、低延迟的运营商线路网络转发互联科技深度融合英特尔 至强 可扩展平台,实现混合云平台的跨越式升级快手以英特尔 CPU FPGA PMEM 为底座,基于 LaoFe NDP 架构提供多元算力OPPO 基于英特尔 QAT 加速云安全网关 HTTP3-QUIC,显著降低网络时延07131721263035414548525704应用篇云与数据中心基础设施应用篇云上 AI 加速6165697276798488应用篇互联网与媒体应用93971011061101143云与数据中心基础设施应用篇综述 构建面向未来的数据中心第四代英特尔 至强 可扩展处理器 第三代英特尔 至强 可扩展处理器英特尔 深度学习加速(英特尔 DL Boost)技术英特尔 高级矢量扩展 512(英特尔 AVX-512)英特尔 Speed Select 技术(英特尔 SST)英特尔 资源调配技术(英特尔 RDT)英特尔 软件防护扩展(英特尔 SGX)英特尔 数据中心 GPU Flex 系列 英特尔 服务器 GPU英特尔 FPGA 和 SoC FPGA英特尔 傲腾 持久内存 200 系列英特尔 傲腾 固态盘 P5800XPonte Vecchio英特尔 基础设施处理器(IPU)和 SmartNIC英特尔 以太网网络适配器英特尔 oneAPI DPC /C 编译器英特尔 VTune Amplifier英特尔 高速缓存加速软件(英特尔 CAS)英特尔 智能存储加速库(英特尔 ISA-L)存储性能开发套件(SPDK)数据平面开发套件(DPDK)Clear LinuxKata ContainerStarlingXKubernetes英特尔 OneAPI 工具套件英特尔 DAALBigDL英特尔 MKL-DNN面向英特尔 架构优化的深度学习框架OpenVINO 工具套件面向英特尔 架构优化的 Hadoop 和 Spark英特尔 Crypto-NI英特尔 oneVPLSVT121124125126126127127128129130131132134135136137技术篇以数据为中心的硬件产品组合139139140140141141142142143143144144145145146146147147148149技术篇软件与系统级优化目 录Contents4云与数据中心基础设施应用篇前言45云与数据中心基础设施应用篇当今时代,数字技术正作为世界科技革命和产业变革的先导力量,日益融入经济社会发展各领域的全过程,为生产方式、生活方式和社会治理方式带来颠覆性改变。同时,这一轮新的科技革命和产业变革又推动数字技术快速发展,也将见证技术的真正魔力,让五大超级技术力量,也就是无所不在的计算、无处不在的连接、从云到端的基础设施、人工智能,以及传感与感知相互增强和赋能,共同驱动全球从模拟时代向数字时代跨越,让各行各业的生产经营、组织管理模式加速创新。不仅是远程协同、线上服务这样的新模式、新场景变得普及,一系列面向生产与管理效率提升、商业与技术模式创新、用户与服务体验优化的数字化、智能化转型新方案,诸如算网融合、绿色节能、分布式数据库、分布式存储以及未来云数据中心等,也日益成为促进市场再增长、加速千行百业云数智转型的有力抓手。在这一进程中,作为下一代企业 IT 能力的重要“基座”,云服务如何为上述新方案提供大规模、高可用、系统化的基础设施以及端到端的技术能力,从而成为用户关键业务的核心内驱力,也成为各云服务提供商和各企业之间赢得竞争的关键筹码。但这显然需要一系列强劲且可应对多样化负载的计算平台和加速引擎来予以支撑。英特尔的产品与技术,无疑是启动并引领这些引擎的可靠选择。围绕至强 可扩展平台,英特尔所提供的丰富软、硬件产品体系及创新技术实现,不仅涵盖了云服务中面向计算、存储、网络的全量基础设施需求,也贯穿了云、网、边、端的全流程服务体系,为各种云上负载提供了经优化的一致性体验。更为重要的是,通过赋能开放的生态系统,共同地、持续地进行创新,英特尔正在践行“软件优先”战略。这些软、硬件产品及技术实现,既包括跨不同架构的算力和硬件加速设备(如 CPU、GPU、IPU、FPGA、以太网产品及其它),打破封闭式编程模型的限制,也包含加速卓越性能和生产力交付的软件与框架(如英特尔 oneAPI 工具套件、OpenVINO 工具套件、英特尔 Media SDK 及其它)。通过分层的软件栈构建和优化来充分发挥底层硬件技术的威力,兼具多云环境的可靠性、灵活性和安全性,让云服务提供商、开发者以及用户从中获益。本白皮书不仅介绍了英特尔推出的一系列软硬件产品组合,还展示了与阿里云、腾讯云、百度云、火山引擎、京东云、快手、金山云、青云、OPPO 等合作伙伴,面向云数据中心基础设施、人工智能、互联网与媒体服务等应用场景的创新方案与成功案例。通过这些全球领先的技术合作成果,可以了解英特尔与合作伙伴们如何致力于让云服务为企业发展提供更强驱动力。展望未来,英特尔将持续与合作伙伴、开发者和用户一起,共同挖掘蕴含于方寸之间的无穷硅力量,加速云数智变革进程,携手从数字化浪潮中获得更大收益。56云与数据中心基础设施应用篇云与数据中心基础设施应用篇67云与数据中心基础设施应用篇随着数字经济的快速发展,人工智能、大数据、5G 等创新技术的加速应用,以“十四五”规划中的“上云用数赋智”、碳中和/碳达峰、新型数据中心发展三年行动计划等政策统领,并在全面推进“东数西算”,构建新型算力体系等重大工程的驱动下,云作为基础设施已经渗透到了各行各业,基于云的各项应用已成为企业业务创新和数字化转型的澎湃动力。依托于云服务,各种前沿技术落地到了更多的数字化场景。在此进程中,企业多种新需求、新机会也被激发。数据中心与云服务提供商必须更加精准且前瞻性地洞察到当前行业正在发生的改变,并通过基础设施架构优化、技术与服务创新等方式,提供敏捷、灵活、高性能、高可用的解决方案,为用户数字化转型之旅提供基础能力支撑。云原生、分布式、专有云、混合云、云安全、算力服务等成为云计算的 关键词加快数字经济发展与建设已成为国家与行业战略,也进一步促进了数据的海量集聚以及对于云服务需求的快速增长。IDC 发布的中国公有云服务市场(2022 上半年)跟踪报告显示1,2022 上半年中国公有云服务市场整体规模达到 165.8 亿美元,其中 IaaS(Infrastructure as a Service,基础设施即服务)市场同比增长 27.3%,PaaS(Platform as a Service,平台即服务)市场同比增速为 45.4%;同时有报告预测未来 5 年,中国公有云市场会以复合增长率 30.9%继续高速增长,预计到 2026 年,市场规模将达到 1,057.6 亿美元,中国公有云服务市场的全球占比将从 2021 年的 6.7%提升到 9.9%2。高效、灵活、可靠,英特尔 至强 可扩展平台构建云创新基石图 2 中国 TOP5 公有云 IaaS PaaS 厂商市场份额占比(2022H1)41 数据援引自:https:/ 数据援引自:http:/ 3、4数据援引自 https:/ 中国,2022 阿里巴巴 华为 腾讯 中国电信 AWS 其他图 1 中国 TOP5 公有云 IaaS 厂商市场份额占比(2022H1)3来源:IDC 中国,2022 阿里巴巴 华为 中国电信 腾讯 AWS 其他34.5.6.0.3%8.1$.63.5.1.7%9.4%9.0&.3%综述在云计算市场快速发展的同时,云服务也走向细分和深化,整个产业在技术、应用、管理等方面呈现出新的发展特点。比如随着传统行业、政企行业对云需求的高增长,以及更多的企业选择深度用云而不是简单迁移上云,其不仅带来了更多云基础资源和云平台产品的消耗,对安全、性能以及时延等提出了更高要求,也让云原生、分布式存储、专有云、混合云、云安全、算力服务等成为目前备受关注的领域,驱动着云服务厂商加大对云产品性价比、安全、技术优化等的投资,促进云服务进入提质增效新阶段。云上负载日趋动态化、多元化人工智能、低代码、即时数据分析等技术的加速创新意味着云上负载日趋多元化、动态化,用户对于云服务提出的差异化需求也将不断增加。例如,客户新研发的某一工作负载对于内存敏感高,8云与数据中心基础设施应用篇而对于计算性能的敏感度较低,但由于其业务与技术在加速调整之中,所以这一应用可能很快会被淘汰,取而代之的应用可能对于计算性能的敏感度较高,对于内存的需求较低。云服务提供商和企业数据中心需要敏锐地关注到这类新的变化,而为了应对日益复杂的应用需求,云服务产业正驱动数字化基础架构朝着更多元化、更敏捷、更安全的方向发展5。目前,企业数据中心基础架构中的大部分计算都用于开销工作负载,例如移动内存、散列和压缩,这意味着在通用处理器上运行或在专用芯片中加速,只是云中整体计算的一部分。互联网行业及云服务提供商需要正视客户工作负载的改变,对异构算力、内存、存储等进行动态调整,尽可能避免资源过载或者数据中心资源无法得到充分利用。专有云成为市场“新宠”随着政企行业用云走向深化和精细化,以及更多传统行业逐渐开始接受通过购买服务的方式实现轻资产化而加速上云,中国专有云服务正在逐步成为市场“新宠”。据 IDC 在 2022 年 7 月发布的市场分析报告称6,2021 下半年,中国专有云服务市场规模已经达 130 亿元人民币,同比增长 27.2%;显示了私有云作为集中公有云弹性扩展、配置便利以及私有云安全合规、资源独享和数据主权等优势的新的云部署模式,正在快速走向大型传统行业头部企业,及医疗、交通、工业等行业,也促进不论是云厂商,还是运营商阵营,又或是具有其他基因的生态企业都注重为客户提供更加安全、合规、符合行业属性的解决方案7。专有云应用的高速增长,也正驱动混合云与多云需求同步扩展。借由能够实现公有云以及企业自身本地和边缘计算存储资源统一管理的新型服务模式,混合云与多云满足了企业用云灵活性、扩展性和安全性等多方面的需求。混合云/多云快速增长虽然当前公有云已经成为企业实施数字化转型的重要选择,但是受安全性、兼容性、业务合规性等多方面因素的影响,难免尚有企业对于公有云存在疑虑。在此背景下,能够实现公有云以及企业自身本地和边缘计算存储资源统一管理的新型混合云与多云异军突起。通过整合数据中心与云计算资源,混合云与多云能够将商用数据中心、客户数据中心,或者说公有云、私有云及本地IT 基础设施进行混合搭建,来满足企业在新时期的 IT 需求,也成为数字化转型的重要发展方向。据IDC FutureScape:全球云计算2022年预测-中国启示 预测,到 2024 年将会有 50%的组织采用多云数据治理工具,使用统一的数据获取、迁移,安全和保护策略。随着到 2025 年,云计算将在塑造 IT 行业方面发挥越来越大的作用,乃至占主导地位,企业在全面数字化转型的过程中,其业务创新和业务成果越来越依赖于任何时间任何地点尽快地开发和使用创新技术和服务8。分布式与算力服务渐露头角企业数字化转型的持续深化,更多数据分析、互联网应用、精准营销等场景依靠云计算而不断落地,使得云服务成为通用算力,对算力种类数量、有效感知、高效利用等都提出了更高的要求,也让云服务逐渐向算力服务演进。而算力服务就是以算力网络为连接,通过云计算技术将异构算力统一输出,并与大数据、人工智能、区块链等技术交叉融合,将算力、存储、网络等资源统一封装,以服务形式(如 API)进行交付的模式。其实质就是以云服务为基础,构建泛在化、标准化的算力网络,整合异构算力,促进算力服务普惠化9。同时,随着企业希望通过边缘云实现应用近场部署,而将资源消耗较大的主应用和管理平台部署于中心云,来满足大规模计算要求和边缘节点应用和数据采集需求,而让分布式成为云计算发展的一大趋势。云原生推动基础设施全面升级随着云原生技术和能力不断完善,其生态已扩展至底层技术(如服务器无感知技术 Serverless)、编排及管理技术(如基础设施即代码 IaC)、安全技术、监测分析技术(如扩展包过滤器 eBPF)以及场景化应用等众多方面,形成了全生命周期技术链,能够有力支撑企业组织和流程、架构和设计、技术和基础设施等 IT 要素的全面升级。在基础设施管理方面,依托日渐完整的技术生态链,云原生可构建出统一的调度、管理和运行维护能力;而通过统一资源管理和集群调度,即可实现中心云、边缘云和数据中心的统一管理,全面覆盖边缘自治、混合多云、云边一体的典型资源使用场景;通过统一流量治理,可实现东西流量、南北流量的统一治理策略管理,支持打造跨云、跨集群的拓扑监控能力;通过统一运行维护,则可实现多个数据中心、不同集群的全面协同运维,从而将云上监控、日志、审计能力延伸至混合多云架构。也是凭借上述多元优势,云原生架构的价值正随其广泛应用而得以多方位呈现,并被更多的企业接受,使其自身快速走向云计算标准之一,成为基础设施实现创新的关键动力。5 如欲了解更多详情请访问:https:/ 数据援引自:http:/ 如欲了解更多详情请访问:https:/ FutureScape:2022 年中国云计算市场十大预测9 如欲了解更多详情请查阅:中国信通院云计算白皮书(2022 年)9云与数据中心基础设施应用篇基础平台是实现云与数据中心变革的重要依托由云原生、分布式、专有云、混合云、云安全、算力服务等趋势驱动的云市场变革,为云与数据中心发展带来了巨大且全新的挑战:云上系统稳定性、可靠性:云上系统节点分布范围广、数量多,高度依赖网络质量,同时微服务等云原生技术架构的采用,让应用之间存在错综复杂的依赖关系,加之云上系统的故障率会随设备的增加而呈指数级增长,使得单一节点问题可能会被无限放大,给日常运行过程带来不可避免的异常状况。此外,新旧系统的共存和过渡也带来潜在风险,在云迁移过程中如何做好新旧系统共存状态下的稳定性保障成为重要命题,尤其是用户核心业务系统上云用云,往往对运行连续性要求高、并发请求量大,且业务激增随机性强,对云上系统可靠性、稳定性要求随着应用深入而大幅提升;跨多种平台的可扩展性与敏捷性:为了进一步提升敏捷性,用户常常希望应用负载能够跨越多种云平台进行流动、调度与分配,因此实现公有云、私有云、混合云等多种平台的灵活扩展,提供一致的跨云体验就尤为重要。这不仅需要交付具有自动化、自主运行和管理功能的企业级云基础设施,还需要增强计算、存储和网络等基础架构的一致性;满足大规模应用的强大算力:容器等云原生技术应用往往要求在毫秒级乃至更短时间内能够启动,且进行承载的容器、虚拟机等的数量也显著提升,对基础设施的性能提出了严苛的要求。另外,软件定义基础设施(Software Defined Infrastructure,SDI)是开源城市云应用的内在需求,需要在软件定义层面实现性能、服务质量(Quality of Service,QoS)和总拥有成本(Total Cost of Ownership,TCO)的轻松调配,以满足基础设施在可扩展性和敏捷性等方面的需求;支持 AI、数据分析等新型负载:IDC 在中国人工智能与大数据技术现状及趋势分析,2022研究报告中指出10,中国人工智能与大数据市场经过近 10 年的发展,技术在众多的行业实践中不断迭代,服务商正聚焦于数据智能决策、数据智能服务以及 AI 增强等未来的市场趋势,帮助用户构建统一的数据平台,支持智能化应用;10 如欲了解更多详情请访问:https:/ http:/ 11 如欲了解更多详情请访问:https:/ 应对低碳发展带来的挑战:2021 年,碳达峰、碳中和被首次写入中国政府工作报告,而数据中心作为一个高耗能且能耗仍在快速增长的行业,实现低碳化发展至关重要。工信部发布的新型数据中心发展三年行动计划(2021-2023 年)提出坚持绿色发展理念,全面提高新型数据中心能源利用效率;发改委等部门发布深入开展公共机构绿色低碳引领行动促进碳达峰实施方案,更是明确提出新建大型、超大型数据中心能效目标,驱动数据中心行业加速优化算力、存储等关键资源的密度,降低能耗。在此背景下,选择面向未来的云与数据中心设计,构建具备高性能、高扩展性、高安全性等优势的基础平台,实践更多的使用场景和商业模式11,帮助企业管理应用、协作应用等工作负载顺利云化,并为未来应用开发、数据库和数据仓库等平台类工作负载提供高效支撑,已经成为云服务与时俱进打造竞争优势的大势:将芯片解决方案作为跨数据中心基础设施的控制点,变革基础设施功能,提升网络虚拟化、存储虚拟化和安全水平;在数据中心构建新的智能架构,实现大规模分布式异构计算,支持在单个计算实例中进行协同工作,并通过共享内存和存储更高效地运行微服务;在数据中心中集成开放、标准化的编程模型,使用紧密耦合、专用的可编程内核加速和管理基础架构功能,提供全面的基础架构分载。同时,通过可编程加速器和可编程网络适配器卡,加速主机上运行的基础架构应用;部署优化的开源软件框架,采用针对硬件架构和平台进行优化的云平台管理和资源编排软件,并通过软件对常见的工作负载进行预优化;将安全功能集成到基础设计中,确保无论数据驻留在何处,均能够得到更加可靠的保护。英特尔 至强 可扩展平台助力打造下一代云架构,加速基础设施变革英特尔一直走在超大规模云服务前沿,拥有广泛、优化的软件生态,并兼具跨多云环境的可靠性、灵活性和安全性。英特尔与全球领先云服务提供商开展的联合研发及业务合作,已经交付了数代专为云规模打造和优化的定制芯片,帮助实现从边缘到云的更全计算、更多存储、更快传输。10云与数据中心基础设施应用篇图 4 英特尔提供全面的软件和系统级优化图 3 面向云计算的英特尔多样化硬件-多样化硬件英特尔软硬件组合构建基础设施基石计算更全面向云计算的英特尔 技术多云存储更多传输更快公有云混合云私有云第三代英特尔 至强 可扩展平台为基础设施变革带来新动力,具备多项优势,为各种云上负载提供一致的、经优化的性能,包括通过英特尔 深度学习加速(英特尔 DL Boost)、面向英特尔 架构优化的框架等实现的人工智能就绪;通过英特尔 傲腾 持久内存实现的内存计算;通过英特尔 AVX-512、架构与软件等加速的高性能计算;由英特尔 以太网、英特尔 QuickAssist 技术(英特尔 QAT)、英特尔 数据直接 I/O 技术(英特尔 DDIO)等赋能的网络能力;由英特尔 QAT、英特尔 傲腾 固态盘、英特尔 卷管理设备(英特尔 VMD)加速的存储能力等。在此基础上,最新一代的第四代英特尔 至强 可扩展处理器更代表了业界在数据中心平台上的又一大进步,其内置一系列加速器,包括新的指令集架构和集成 IP,能够高效应对人工智能、数据分析、网络、存储和其他高需求的工作负载,可以在不断变化且要求日益增高的数据中心使用中提供可观的计算性能,并对工作负载进行优化。同时,通过全新的英特尔 按需激活模式,客户可以在原始 SKU 的基本配置之外,开启额外的加速器组合,在业务有需求时获得更大的灵活性和更多的选择。软件和系统级优化操作系统和编排层优化基础设施优化英特尔MKL-DNN数据平面开发套件(DPDK)英特尔高速缓存加速软件(英特尔CAS)英特尔智能存储加速库(英特尔ISA-L)存储性能开发套件(SPDK)应用优化AI 框架及软件工具英特尔MediaSDK可扩展视频技术(SVT)英特尔Media ServerStudio媒体服务用软件工具ClearLinuxStarlingXKataContainersKubernetes算力优化英特尔ParallelStudioXE英特尔C 编译器英特尔VTune可视化性能分析(英特尔VTuneAmplifier)存储优化网络优化数据处理与分析用框架及软件工具英特尔oneAPI工具套件英特尔 数据分析加速库(英特尔DAAL)11云与数据中心基础设施应用篇依托英特尔 至强 可扩展平台打造卓越实践英特尔正在与腾讯云、百度智能云、字节跳动、京东云、青云、金山云、互联科技、快手和 OPPO 等伙伴进行合作,依托 英特尔 至强 可扩展平台的显著优势,在公有云、私有云、混合云、多云、云原生、开源云等领域中推动基础设施平台的创新与优化,为最终用户带来高性能、高敏捷性、高经济性、高可扩展性的计算、存储、网络等基础能力,加速其业务数字化转型,助力数字经济发展。性能英特尔通过平台创新,为数据中心现代化构建更新和更全面的架构策略,提供新的产品。采用 Intel 7 制程工艺的第四代英特尔 至强 可扩展处理器,支持 DDR5、PCIe 5.0 和 CXL 1.1,内置全新的集成加速器,是迄今为止英特尔功能最丰富的至强 处理器,增强了其在人工智能、安全性等几大关键数据中心领域的领导地位。与第三代至强 可扩展处理器相比,可以更好地处理数据密集型工作负载,大幅提升广泛工作负载的性能。敏捷性多代虚拟化技术优化和集成库,确保跨云环境的无缝迁移。例如,配合虚拟化系统,英特尔 虚拟化技术(英特尔 VT)可以提供实时迁移功能。ISV 和用于测试、验证和优化英特尔 至强 可扩展处理器的开源项目可提供跨处理器的兼容性和扩展性,针对常见的工作负载进行优化,具备更佳的性能与灵活性表现。安全性英特尔与合作伙伴成立了机密计算联盟,旨在提高在用数据的安全性。英特尔投资打造多层保护,提供经过验证的技术,在不影响性能的情况下尽可能降低风险。例如,英特尔 SGX提供基于硬件的隔离和内存加密,可实现增强型保护。可扩展性大量的英特尔 至强 可扩展处理器已部署在当今的云环境中,广泛兼容当前和未来的工作负载,可以实现出色的性能、可用性和可扩展性。英特尔 至强 可扩展处理器提供经过优化的性能和每核虚拟机密度,是数据中心的重要选择。英特尔 至强 可扩展处理器和英特尔 傲腾 持久内存可帮助提高每核虚拟机密度,降低每核平均时延,打造高效的云和数据中心基础设施服务。腾讯云腾讯云与英特尔一起,以全新的存储引擎设计和英特尔 傲腾 持久内存重构和优化腾讯云的极速型固态盘CBS 产品,并重构数据落盘方案。新方案以更佳的带宽、更低的时延和更高的每秒读写次数,为性能密集型用户业务场景打造了极速云存储体验。百度智能云字节跳动通过搭载大容量、低延迟的英特尔 傲腾 持久内存,百度推出全新一代用户态单机存储引擎,为百度离线与部分在线业务提供高效稳定、低延迟、低成本、可扩展的存储服务,挖掘数据价值。借力英特尔 IPU 平台参考设计,百度智能云自研百度太行 DPU 1.0 产品,有效提升云数据中心管理及虚拟化水平,并通过在裸金属服务器和云主机等场景中的部署应用,被证明可成为其未来智能云服务的可靠技术基座。字节跳动利用英特尔 RDT 和英特尔 Platform Resource Manager,缓解底层硬件资源对其混布集群的干扰问题,减少工作负载混布时底层资源对时延关键型工作负载的不良影响,提高基于英特尔 至强 可扩展平台的混布集群服务器的总利用率。12云与数据中心基础设施应用篇12 如欲了解更多详情,请访问:https:/ 如欲了解更多详情,请访问:https:/ 至强 可扩展处理器,以及通过与英特尔在节点管理与空闲电源优化等方面的技术合作,京东云面向可持续数据中心,推出冷板液冷参考解决方案。实际部署表明,该方案可将数据中心 PUE(Power Usage Effectiveness,电能利用效率)从 1.3 降低到 1.1,每个服务器节点可节电约 4。京东云在英特尔 C5000X-PL上研发了自主的智能网卡,并基于英特尔 至强 可扩展处理器,推出了最新一代裸金属云主机京刚裸金属云主机,在提供了出色性能的同时,具备分钟级一键交付、无缝集成云产品和统一管理等特性,能够出色支撑性能敏感型以及对于数据安全和隐私要求较高的应用。同时通过引入英特尔 MCA Recovery 与 Memory Failure Prediction(MFP)技术,结合京东云的故障恢复系统,降低内存错误对京东云主机稳定性的影响。青云科技携手英特尔,采用英特尔多项技术与产品,推出新一代 QKCP 企业级容器平台。基于全新升级的QKCP,英特尔凭借独特的硬件黑科技助力青云科技打造更高效的企业级云原生容器平台,双方携手搭建测试环境,并通过软硬件调优,在产品的硬件性能得到质的提升的同时,软件层面的性能也得到了极大优化,特别是在用户关心的“安全、网络、性能”三大方面有了大幅提升。基于英特尔 至强 可扩展处理器和英特尔 智能存储加速库(英特尔 ISA-L),金山云打造了大数据存算分离解决方案,优化 KingStorage-BDG 大数据存储网关、KingStorage-OBS 对象存储性能,同时提升了平台可扩展性,降低了运营成本。同时金山云与英特尔合作,在运营商线路网关中使用了基于 P4 可编程技术的英特尔 Tofino 可编程交换芯片来进行硬件加速,代替传统的以 CPU 进行软转发的 X86 服务器,不仅带来了更高的带宽、更低的时延抖动,而且大幅节省了服务器的部署规模需求,显著降低了 TCO。采用第三代英特尔 至强 可扩展处理器和傲腾 持久内存等产品,实施混合云平台全面升级,实现能耗、性能、可靠性以及成本等方面的优化,为后续服务推广和端到端云原生产品及解决方案等的部署提供了数据支持和保障。快手推出 LaoFe NDP 架构,实现异构计算,采用英特尔 至强 可扩展处理器、英特尔 Agilex FPGA 和 英特尔傲腾 持久内存,借助软硬一体化、领域专用加速器设计,为其新架构从网络、存储、计算提供三重加速,打破算力瓶颈。为了解决 QUIC 引入后带来的加解密性能问题,OPPO 采用英特尔 QAT 来进行加速,使得 HTTP3-QUIC 的并发短连接处理能力提升达 3 倍左右,很好地满足了 OPPO 安全网关的运行需求,同时显著改善了成本效益13。13云与数据中心基础设施应用篇在更多企业核心系统“云化”的今天,云存储系统作为业务数据的重要载体,其性能表现正受到越来越多的关注。作为全球领先的云服务提供商之一,腾讯云通过先进的云硬盘 CBS(Cloud Block Storage)产品为众多行业用户提供高效、可靠的持久性块存储服务,并在核心数据库、内容分发网络(Content Delivery Network,CDN)及电商系统等用户场景中获得了广泛的部署和使用。为向用户提供性能更为卓越的企业级云存储服务,腾讯云与深度合作伙伴英特尔一起,以全新的存储引擎设计和英特尔 傲腾 持久内存来重构和优化腾讯云的极速型固态盘 CBS 产品。验证表明,新的产品方案能以更佳的带宽、更低的时延和更高的每秒读写次数(Input/Output Per Second,IOPS),为性能密集型用户业务场景打造极速云存储体验。挑战:快速发展的云服务对云存储性能提出更高要求无论是正兴的互联网、大数据或人工智能等领域,还是传统的金融、医疗和制造等行业,云服务都已逐渐成为企业下一代 IT 基础设施的标准之一;而作为企业未来业务数据的重要载体,包括云硬盘在内的云存储产品与解决方案的性能表现,也成为企业选择云服务的一个重要考量因素。作为全球领先的云服务提供商之一,腾讯云一直以先进的云硬盘 CBS产品为用户提供持久性块存储服务。典型的腾讯云 CBS 产品存储系统架构如图5所示,由CBS接入、MDS控制集群以及CBS存储集群构成。当 CBS 接入收到 CVM 云主机集群的数据读写请求后,会根据 MDS提供的集群路由信息,将读写请求转发至对应的 CBS 存储节点中。腾讯云依托傲腾 持久内存深度优化云硬盘 CBS 产品,打造极速云存储体验图 5 腾讯云 CBS 产品存储系统架构13云与数据中心基础设施应用篇依托于雄厚的技术积累以及持续不断的技术优化与演进,腾讯云 CBS产品性能卓越,可用性、可靠性及可扩展性俱佳:高性能基于英特尔高性能 NVMe 固态盘和腾讯云创新自研存储引擎的有效组合,CBS 产品目前已可为用户业务场景提供单盘最大110W 的随机 IOPS 性能,以及最高 4Gbps 每秒的带宽能力;云主机(CVM)集群MDS 控制集群CBS 存储集群CBS 接入14云与数据中心基础设施应用篇高可用性通过高可用和容灾设计,CBS 产品能有效降低系统不可用概率,并可通过快照(Snapshot)方式备份用户数据,防止因篡改和误删导致数据丢失,保证在业务故障时能快速回退;高可扩展性CBS 产品允许用户根据业务需求自由配置存储容量,按需扩容。目前系统单磁盘容量最大可支持 32TB,单个云主机累计可挂载 640TB,使用户能够从容应对 TB/PB 级的大数据处理场景。高可靠性通过三副本的分布式机制,CBS 产品可为用户提供高达99.9999999%的数据可靠性;而借助优异的数据复制机制,CBS 产品也能在副本出现故障时快速进行数据迁移恢复,保障用户业务不受影响;凭借以上优势,腾讯云 CBS 产品在不同用户业务场景,如高负载 OLTP(On-line Transaction Processing,联机事务处理)的金融交易系统、高吞吐的电商系统、面向人工智能的数据分析系统,以及高并发的 CDN 网络等中都具有不俗表现,并获得了用户的良好反馈。但从 CBS 的产品架构中可以看到,基于分布式构建的存储集群,令来自网络的接入、传输时延等因素会对其整体性能产生影响,从而与本地化存储产生差异。这也是用户在核心数据库、CDN网络等性能敏感场景中对采用CBS产品仍抱有迟疑的原因之一。而随着云服务逐渐成为企业业务系统的核心载体,更多更复杂的核心业务数据读写需求正驱动着腾讯云对极速型 CBS 产品开展进一步深度优化以提升性能,消除用户对 CBS 产品的顾虑。针对 CBS 产品的架构、存储引擎以及硬件基础设施,腾讯云加入了对远程直接数据存取(Remote Direct Memory Access,RDMA)协议的支持,并与英特尔携手,开展了多方位的优化,包括:加入轮询、算法优化、消除竞争以及消除锁等机制,优化CBS 存储引擎;引入由英特尔提供的SPDK(Storage Performance Development Kit)开发套件,优化 NVMe 固态盘的 IOPS 和时延性能。图 6 腾讯云既有极速型 CBS 产品数据落盘过程在进行上述架构、引擎和软件方案的优化后,双方发现固态盘产品本身的时延性能也成为进一步提升CBS产品整体性能的障碍。要应对这一问题,有效方法就是为方案寻找一种更具性能优势的存储介质。为此,腾讯云与英特尔一起,借助英特尔 傲腾 技术这一存储“黑科技”,以英特尔 傲腾 持久内存作为新一代极速型 CBS产品的存储核心,并重构数据落盘方案,来满足性能密集场景在时延上的更高要求。解决方案:借力存储 “黑科技”,为极速型 CBS 产品打造更佳性能在腾讯云既有的极速型固态盘 CBS 产品设计中,数据的落盘过程如图 6 所示,来自计算集群的云主机数据首先通过 HASH找到或分配到对应的块节点(Block Node)中,然后数据会被缓存到不同的 Page。接下来,系统需要执行两次写操作,一次将业务数据写入固态盘对应的数据区;另一次是将元数据(Metadata)以 LOG 方式追加(wAppend)写入固态盘中。可以看到,这一过程需要对固态盘执行两次写操作。基于NAND 闪存构建的固态盘写入时延通常为数十微秒,因此两次写入过程就会带来数十乃至近百微秒的时延。这一数字虽然看起来很小,但在端到端网络时延可达 1 毫秒(1,000 微秒)的 5G时代,其显然还是会制约 CBS 产品的整体性能。同时,NAND 固态盘数据写入需要以块为单位,且写入前需要做擦除操作等特性,一方面会带来写入效率的降低,另一方面也大幅降低了其使用寿命(即所谓的“写入放大”问题)。此外,在 LOG 的回收过程中还存在相应的毛刺问题。DRAM 内存(SPDK)HASH元数据区数据区BlockNodeBlockNodeBlockNodePagePagePage10110011011011001101001011010101110101011101010115云与数据中心基础设施应用篇而基于英特尔 傲腾 技术构建的英特尔 傲腾 持久内存则可以帮助 CBS 产品有效应对以上问题。英特尔 傲腾 技术通过一种全新的无晶体管存储架构,能在三维矩阵中堆叠存储网格,从而在提高存储密度、增强读写性能的同时,提供持久化的存储能力。持久内存可按字节寻址,可以像内存一样精准控制读写的位置和大小。与传统 DRAM 内存相比,由英特尔 傲腾 技术与其它英特尔先进存储控制技术、接口硬件,以及软件增强功能相结合构建的英特尔 傲腾 持久内存具有两大显著优势:首先其存储密度更高、单位存储成本更低,可帮助用户更为经济地扩展云存储能力;其次,App Direct 模式下的英特尔 傲腾 持久内存所具备的持久性特性,使之可以有效充当 CBS 产品的数据持久化存储载体。得益于英特尔 傲腾 持久内存的创新特性,极速型 CBS 产品的数据落盘过程,如图 8 所示得以优化。首先来自计算集群的数据会通过 HASH 分配到对应的块节点并缓存到 Page 中,然后数据就马上会被持久化存储到英特尔 傲腾 持久内存中,同时 Page/Block 的元数据也会原地更新到对应的数据区中。除数据落盘过程实现优化之外,用户还可通过定制化的策略和算法,决定是否将英特尔 傲腾 持久内存中的数据进一步下刷到固态盘中。例如,将需要频繁读写的“热数据”保留在持久内存中,而长时间不需访问的“冷数据”定期被后台转移至固态盘中,以有效降低 CBS 产品的 TCO。图7 英特尔 傲腾 持久内存 200 系列图 8 优化后腾讯云极速型 CBS 产品数据落盘过程在提供先进存储硬件产品的基础上,持久内存开发工具包(Persistent Memory Development Kit,PMDK)为 CBS 产品提供了面向英特尔 傲腾 持久内存的编程模型和环境。以其中的 libpmem 库为例,作为 PMDK 中的底层库,其支持用内存映射方式访问持久内存,这一方式可将持久内存上的文件映射到应用程序的虚拟内存空间进行操作。通过规避内核参与和上下文切换带来的开销,使持久内存的性能可直接为应用程序提供助益。同时,libpmem 库也可以检测处理器的特性而使用最为高效的持久化指令(例如 CLWB、CLFHASHOPT 等)将数据写入到持久内存中。CLWB 指令具有并发能力,同时可在刷新数据后仍然保证处理器缓存有效。除此之外,libpmem 还封装了NTW(Non Temporal Write)指令,该指令能利用写合并方式来绕过处理器缓存(Cache),直接将数据从 Store Buffer 中写入内存控制器的 WPQ 中,从而提高性能。得益于以上特性,libpmem 库不仅能以丰富的接口帮助用户实现对整个写入流程更加细致和准确的控制,也通过使用内存映射(Memory Mapping)的访问方式,并结合 NTW 写入指令提升整个系统基于持久内存访问的写入性能,从而让英特尔 傲腾 持久内存的各项特性在 CBS 新方案设计中发挥效能。效果:创新硬件与优化设计为 CBS产品带来全方位收益与既有方案相比,基于英特尔 傲腾 持久内存设计的 CBS 产品优化方案在落地实施后,带来了巨大的改变及收益,包括:数据读写时延大幅缩短:一方面,相比 NAND 固态盘数十微秒的读写时延,英特尔 傲腾 持久内存的读写时延可控制在 1 微秒以内;另一方面,借助 PMDK 提供的函数库与工具,英特尔 傲腾 持久内存可对整个写入流程实现更加细致和准确的控制,并有效提升系统的写入性能;系统使用寿命有效提升:一方面,英特尔 傲腾 持久内存可按字节寻址的特性有效解决了以往 NAND 固态盘的“写入放大”问题,从而避免因反复擦写造成的设备使用寿命降低;另一方面,英特尔 傲腾 技术独有的存储结构也令英特尔 傲腾 持久内存具有更长的使用期限;增强存储空间使用效率:英特尔 傲腾 技术允许单独访问和更新内存单元,所以英特尔 傲腾 持久内存无需再执行垃圾收集,进而避免了以往 NAND 固态盘面临的回收毛刺问题,提升了存储空间的使用效率。DRAM 内存(SPDK)持久内存HASH元数据区数据区后台 Page 下刷Page 数据区BlockNodeBlockNodeBlockNodePagePagePage10110011011011001101001011010101110101011101010116云与数据中心基础设施应用篇图 9 新方案令 CBS 产品读写时延显著下降为验证新硬件与优化设计对 CBS 产品产生的效果,腾讯云与 英特尔合作开展了多方位的验证测试。测试结果如图 9 所示,采用英特尔 傲腾 持久内存构建的 CBS 产品方案与优化前相比,整体写时延从 120 微秒下降到 60 微秒,整体读时延从130 微秒下降到 40 微秒,同时 IOPS 可高达 200W 以上,性能获得了有效提升14。展望:以先进产品与技术为用户创造更佳云存储体验随着云计算、云存储技术的不断完善,云服务正在企业级业务系统中扮演越来越重要的角色,而用户也势必会对各类云服务的性能提出更多和更高的要求,这些技术与应用场景的互动有力推动着相关产品与技术的持续演进与优化。作为云服务行业的重要参与者和引领者,腾讯云与英特尔基于英特尔 傲腾 持久内存开展的 CBS 产品优化及所取得的收益,正是这一趋势的显著体现。面向未来,腾讯云与英特尔也将基于这一成功实践,在云计算、云存储等领域开展更广泛合作,运用更多先进产品和技术持续优化 CBS 等云服务产品。例如双方计划在基于英特尔 傲腾 持久内存的方案设计中加入 RDMA 协议,从而有效降低处理器和内存开销。同时,第三代英特尔 至强 可扩展处理器不仅能以更多的内核、更优化的架构和更大的内存容量为云服务产品带来更强性能助力,也能与英特尔 傲腾 持久内存 200 系列形成良好的配合,为用户数据打造更佳云存储体验,使 CBS 等云存储产品成为未来企业级业务数据存储的可靠依托。1201306040越低越好越低越好14 如欲了解更多详情,请访问:https:/ IPU打造全新计算平台,提升云平台管理能力更兼顾成本效益挑战:企业创新应用对云数据中心既有能力提出更高需求随着 5G、人工智能、边缘计算等前沿技术在更多行业获得落地应用,企业级云服务也出现了新变化与趋势,包括:更呈分布式的云服务部署:云服务由传统的中心云逐渐向“云边端”协同演进,更多云服务被部署在贴近应用的边缘端;更为广泛的云服务应用场景:云服务正成为更多行业的 IT 基础设施之一,成为各类企业级应用的坚实技术基座;更复杂的工作负载需求:不同场景的工作负载对算力、内存或加速单元等资源的需求不尽相同,如何满足不同工作负载的需求成为企业上云的考量之一。实例多样化以及资源池化驱动向未来数据中心转型部署方案与应用场景的变化,让云数据中心服务器在管理与应用上面临更多挑战。例如,更多虚拟机(Virtual Machine,VM)的部署使管理任务变得更加复杂。同时,其能力输出也逐渐从传统单体式应用向微服务化发展,进一步提高了云数据中心管理的复杂度,更多占用处理器资源。既要对虚拟机、微服务,甚至裸金属服务器等实例开展高效管理,又要对相关的云数据中心的网络、存储等基础设施实现加速,其中的复杂性和资源开销不断增加,传统基础架构何以满足未来数据中心要求就成为现实问题。换句话说,未来数据中心需要什么技术来实现转型?随着微服务模型越来越多地用于云数据中心的应用,可以预测的是,未来数据中心可能具有以下技术特性:云原生应用的出现和快速增长推高了对专用基础设施的需求,并大幅提高云服务的敏捷性以及云数据中心的效率;云服务的微服务化,推动了分布式异构计算环境的发展,而每个微服务都应在更适合的加速节点上运行;微服务模型的广泛采用也催生出数据中心编排系统,使各异构计算服务器之间实现微服务分发的自动化及管理;使用微服务、虚拟机、容器以及容器编排的场景不断增加,让服务网格已经成为云原生堆栈的标准组成部分。18云与数据中心基础设施应用篇同时,由于不同工作负载或者用户不同时段对于资源需求的不同,通过资源池化可以更优配置资源以满足弹性扩容的要求。因此,未来数据中心的架构将更多地面向于服务不同的实例且日益资源池化的方向发展,以便更好利用异构计算带来的加速处理能力。这一异构计算的核心将由传统的处理器平台,以及由英特尔推出的 IPU(Infrastructure Processing Unit)等基础设施处理设备来组成。在基于这种架构的数据中心内,服务器与执行网络、存储等加速的 IPU 设备互联互通,不仅传统的服务器节点处理能力可在专用计算节点的支持下得到增强,同时存储、网络服务,以及云服务管理包括裸金属服务器和微服务也能获得加速。英特尔 IPU 助力数据中心应对变革挑战随着多种实例服务以及资源池化等越来越普遍地用于云数据中心的应用、存储和网络,传统数据中心也在通过不断转型来应对更高的需求和挑战,并由此向未来数据中心演进。在传统数据中心的架构中,通常借助传统的网卡(Network Interface Card,NIC)产品来负责执行物理层与数据链路层的数据流量处理,而更高层的功能则需要处理器等计算资源的参与。而在提供云服务的过程中,这一情况则更为突出。不仅 Open vSwitch(OVS)等虚拟交换技术、RDMA over Converged Ethernet(RoCE)等传输存储协议以及相应的数据安全技术被引入系统架构,同时随裸金属、容器云等多样化的云产品形态与技术的引入,云数据中心的各类数据处理过程也变得更为复杂。这一趋势,伴随着数据规模的不断增大(端口带宽正逐步从25G 向 100G 乃至更高演进),正对云数据中心带来巨大挑战,包括:数据处理的增长速度始终高于算力增长速度,对处理器资源的占用率也越来越大;为保障核心业务的高效执行,数据中心不得不购置更多处理器资源,带来云服务 TCO 的增加;更大的数据规模和处理复杂度,也对数据中心的各项基础设施性能,包括网络I/O、转发、存储、安全以及管理等造成影响。在这一背景下,英特尔通过对数据中心基础设施能力进一步分析与整合,推出了英特尔 IPU(Intel Infrastructure Processing Unit),来全面帮助云数据中心构建新的基础设施能力加速引擎。解决方案:以英特尔 IPU,构建云数据中心加速强引擎IPU 是全新的产品形态。它在涵盖智能网卡功能的同时,更能为未来云数据中心带来更高级别的安全性和控制力。其优势包括:卸载高密集的基础设施应用任务到 IPU 并进行加速,如加密和解密以及数据包处理;在极端情况下,IPU 可以卸载整个虚拟机管理程序,释放处理器所有内核为应用和微服务提供支持,这对于裸金属服务产品来说至关重要;减少了主机侧处理器中虚拟机管理程序和基础设施堆栈的开销,并可以从主机侧处理器中卸载存储堆栈,使更多的处理器资源可用于应用和租户工作负载;使租户应用和基础设施管理解耦,实现更高安全性和可控性;为裸金属和云主机统一云管控创造了可能。如图 10 所示,英特尔 IPU 产品在配置了 FPGA 芯片或者 ASIC中的专有硬件加速器之外,也加入通用处理器来对各类基础设施控制面功能实现卸载。这种将专用可编程硬件与通用处理器相结合的方式,不仅能使云数据中心中各基础设施能力获得预期加速,满足不断增长的网络数据处理需求,也能实现对控制面功能的灵活管理与操控,实现更优的系统级安全、控制和管理能力。(ASIC 和/或 FPGA)高度智能的通用图 10 英特尔 IPU 架构图 11 英特尔 FPGA IPU C5000X-PL以目前英特尔面向市场的 IPU 主力产品英特尔 FPGA IPU C5000X-PL(代号“Big Spring Canyon”)为例,如图 11 所示,其具备 2 个 25G 端口(使用 SFP28 光口),可提供 50G 的网络吞吐能力;核心处理能力则由所搭载的英特尔 Stratix 10 DX FPGA 芯片与英特尔 至强 D 处理器担纲。D19云与数据中心基础设施应用篇其中,英特尔 Stratix 10 DX FPGA 可编程逻辑芯片能充分发挥其硬件可编程特性,通过先进的架构设计、封装技术、相比前一代 FPGA 拥有更多的收发器并支持硬核 PCIe Gen4 接口从而实现更高的带宽,以定制化设计来实现高吞吐和低延时的性能表现,完成 I/O 虚拟化、OVS 转发等任务,实现基础设施管理、网络和存储功能的卸载。英特尔 至强 D 处理器则通过高度集成的设计,不仅能以卓越的单核性能来承载控制面的各项功能,支持 Hypervisor,还能以良好的 x86 兼容性以及与其它基于英特尔 架构的硬件形成的良好生态,帮助用户实现系统代码或应用能力的快速迁移,从而提升卸载效率。卸载基础设施能力与释放算力 借助上述两种芯片,如图12所示,云数据中心能够有效地将网络、存储、安全以及基础设施管理等多种能力从处理器卸载到 IPU,从而实现算力释放,并加速多种基础设施能力。这些能力包括:网络加速:将承载网络 I/O、数据转发等功能的虚拟交换机软件,如 OVS 等从主机侧处理器卸载到 IPU,提升网络吞吐量,减少网络处理时延;存储加速:将 virtio-blk、NVMe-oF 等存储接口、协议栈从主机侧处理器转移到 IPU,提高存储弹性和灵活性,并降低系统复杂性和开销;安全加速:可以从主机侧处理器卸载加密/解密、压缩和其他应用功能;基础设施处理:将云服务管理功能从主机侧处理器卸载到 IPU,使虚拟机、容器或裸金属服务的分配和管理更为高效;此外,英特尔还正以加速开发平台(Acceleration Development Platform,ADP)为抓手,优化生态系统。在规划中,ADP平台将为用户提供通过英特尔 开放式 FPGA 堆栈(英特尔 加速网加速存加速安全性基施理主机IPU用/虚机用/虚机用/虚机用/虚机核心/管理程序vSwitch存加密 安全性主机主机主机IPUIPUIPU用/虚机用/虚机用/虚机用/虚机用/虚机用/虚机用/虚机用/虚机用/虚机用/虚机用/虚机用/虚机核心/管理程序基施服核心/管理程序核心 vSwitchvSwitchvSwitch存存存加密 安全性加密 安全性加密 安全性裸金属云多租云图 12 英特尔 IPU 面向不同基础功能卸载的场景OFS)实现的板卡硬件设计、软件、驱动程序以及技术设计支持,以加速 IPU 相关产品开发。对接英特尔 至强 可扩展处理器,提升云数据中心算力 在英特尔为用户提供的高效能云数据中心生态方案中,不仅可以通过英特尔 IPU 开展能力卸载,对基础设施进行性能加速,也可以引入英特尔 至强 可扩展处理器来进一步加强算力。第三代英特尔 至强 可扩展处理器可为服务器带来的性能增强包括:更多的内核、更优的架构带来算力性能的大幅提升,可有效应对高密度计算所需;支持更多内存,支持PCIe Gen4,可实现更高的每核 I/O带宽;多项内置增强技术,如英特尔 深度学习加速(英特尔 DL Boost)等可在人工智能等场景提供强大加速能力。在算力架构中引入英特尔 至强 可扩展处理器的另一个优势是能够有效提升卸载能力的效率和平滑性。由于主机侧和 IPU 都采用基于英特尔 架构的处理器(英特尔 至强 可扩展处理器和英特尔 至强 D 处理器),这样将原先主机侧运行的应用迁移到 IPU 上就变的非常方便,甚至无需编译即可迁移。例如DPDK、SPDK等软件就可以从主机侧直接迁移到IPU上运行,从而大幅提升开发、部署和测试的效率。这一算力架构正帮助云数据中心形成更高效的能力输出。以裸金属服务器为例,借助英特尔 IPU 提供的云管理能力卸载,可以实现基础设施管理面与租户间的物理隔离,利用 VirtIO 设备热插拔特性支持弹性服务。而第三代英特尔 至强 可扩展处理器的加入,则进一步提升了裸金属中可供调度分配的算力,可以帮助云数据中心为用户关键业务提供更高性能、更安全的服务,并提升算力资源的利用效率,从而提供兼具性能和性价比优势的云服务能力。20云与数据中心基础设施应用篇图 13 百度太行 DPU 发展路径图 14 百度太行 DPU 1.0 产品图表 1 百度太行 DPU 产品功能亮点与配置数据17助力百度智能云打造更高效、更可靠的云服务能力作为领先的云服务提供商,百度智能云在云数据中心建设方向上与英特尔有着同样的理念,即将基础设施能力的相关开销全部从主机侧处理器卸载到专门的基础设施处理单元上并实施性能加速,以便释放算力,优化整体性能,从而打造高效、安全和可编程的未来数据中心。来自百度智能云的实践表明,持续向各个领域延伸,并承载越来越多核心业务能力的云服务,正面临着需要更强算力资源、更大带宽接入和更低网络时延的挑战。以百度智能云独具优势的 AI云服务为例,目前 AI 算力需求比之前已提升数个数量级,元宇宙的算力需求还要再提升 1,000 倍15。因此要贯彻上述理念,需要更为强劲的技术底座予以支持。为此,百度智能云通过自研的百度太行 DPU 系列产品,并融合其在云服务领域的丰富经验以及大量真实需求,来应对算力、网络、存储、安全等一系列挑战。如图 14 和表 1 所示,百度太行 DPU 1.0 产品配备了 2 个 25G带宽的光口,并引入英特尔 FPGA 与英特尔 至强 D 处理器作为算力核心,来实现各项虚拟化功能的卸载,在为用户提供弹性网卡、弹性存储能力之余,还支持1,024个设备的热插拔。同时,通过将云管控平面卸载到百度太行 DPU 1.0 中,也可以实现虚拟云主机和裸金属共池,即裸金属可与虚拟云主机被统一灵活调度。来自百度智能云的测试验证表明,百度太行 DPU 1.0 产品能够为用户提供 1,000 万 PPS 的转发率以及 20 万 IOPS 的存储性能16。15 数据援引自公开媒体报道:https:/ 百度太行 DPU 产品数据来源于百度内部。17百度太行 DPU 产品数据来源于 https:/ 百度太行 DPU VirtIO-Net/VirtIO-Blk 主机 CPU BVS:25G-100G,10MPPS-50MPPS NVME,200k-1M IOPS RDMA:10us BVC 太行 DPU 1.0太行 DPU 2.0数据路径硬件加速太行 DPU 3.0云原生 IO EngineHostHostDPUDPUVMVMVMVM虚机CPUCPUSSDHDD裸金属容器BVS 硬件化NVMeoFHypervisorHypervisorDPU百度太行 DPU 产品功能亮点与配置数据功能亮点:使能弹性裸金属、虚拟机全场景部署 支持网络卸载及加速,实现裸金属和虚拟机物理机型统一 支持存储卸载及加速,让裸金属可以和虚拟机一样实现云盘快速部署和云盘数据盘,以及执行磁盘快照、数据疏散等能力 支持弹性热插拔,为裸金属和虚拟机提供弹性网卡、弹性扩容等关键能力 支持热升级、热恢复、热迁移(虚拟机)百度太行 DPU 1.0:虚拟化功能卸载 弹性网卡,弹性存储,1,024 个设备热插拔 云管控平面卸载到 DPU,虚拟机和裸金属共池 2*25G,10MPPS,200K IOPS现在,百度太行 DPU1.0 产品已在太行弹性裸金属等多种云服务场景中开展应用并获得了用户好评。实践证明,百度自研的百度太行DPU 1.0 可以有效解决云数据中心管理及虚拟化的局限性,帮助百度智能云保持优势。在百度智能云的计划中,这一 DPU产品也将作为其智能云服务的核心组件,助力其构建 IaaS 资源的统一弹性底座,进而为用户依托百度智能云开展各类业务创新、实施产业智能化转型提供更加高效且可靠的性能保障。21云与数据中心基础设施应用篇字节跳动采用英特尔 RDT和英特尔 PRM 缓解底层硬件干扰,提升混布集群性能工作负载混布背景介绍在同一服务器上混布(co-locate)不同优先级的工作负载是一种提高服务器总利用率的新方法。按照传统方式,一台服务器只运行一种时延关键型工作负载,但这种方式通常无法做到 CPU 的全时段充分利用,因此为安排低优先级工作负载将这些 CPU 未用时间利用起来提供了机会,但前提是,不违反时延关键型工作负载的服务级别协议(Service Level Agreement,SLA)。遵守时延关键型工作负载的 SLA 对工作负载混布而言是一个巨大挑战,随着 SLA 定义越来越严格,这一挑战也变得更加严峻。为了提供更好的用户体验,工作负载所有者会将尾时延作为其关键工作负载的 SLA。实现这个目标颇有难度,即使在所有计算资源都指定给一项工作负载的非混布集群中也是如此。当集群中出现违反工作负载 SLA 的情况时,必须排查所有可能造成的影响,从软件代码变更到运行时配置,从上层资源管理到底层资源分配逐一进行,如果一个集群中运行的工作负载达数十种,要耗时冗长逐一分析,才可能确定原因,进而让集群管理员有信心地选用缓解方案。图 15 字节跳动集群管理概览K8sMaster3.2 AM NM NM*1.5 NM 4 CGROUP1.3 3.1 AM Yarn 2.1 POD 1.1 1.6 1.1 1.6 2.1 2.2 3.1 3.3 4 K8s KubeletYarn RMMetric K8s Master(Docker)(Docker)Yarn 1.2 AM(Spark,MR.)2.2 Kublet Docker 1.4 SysProbeQoS 3.3 NM22云与数据中心基础设施应用篇字节跳动混布集群概览字节跳动运营着多个基于机器学习的内容平台,建立了混布集群,并利用观察到的某些工作负载的 CPU 日常使用模式,通过混布机器学习等低优先级任务来利用 CPU 的空闲时间。在字节跳动混布集群内混布的工作负载有两种:在线工作负载和离线工作负载。在线工作负载属于远程过程调用(RPC)服务,有着严格的 SLA 要求。而 Hadoop 任务和视频转码等多数离线工作负载则以吞吐量为导向。要维持在线工作负载的性能,需要将 CPU 资源妥善分配给离线工作负载和在线工作负载:离线工作负载须在在线工作负载发出请求时尽快归还 CPU 时间。这一过程由 cpuset 实施。所有在线工作负载都在一个 cpuset 内运行,离线工作负载在另一个 cpuset 内运行。它们并不共用逻辑 CPU 内核或物理 CPU 内核。资源控制器会根据所有在线工作负载的 CPU 负载持续调整 cpuset 配置。当所有在线工作负载的 CPU 负载增加时,资源控制器会将更多 CPU 分配给在线工作负载的 cpuset。而当 CPU 负载减少时,资源控制器会将 CPU 内核分配给离线工作负载。在一台服务器上运行的在线工作负载可能多达数十种,它们可以在在线工作负载 cpuset 中的任何 CPU 上运行,离线工作负载采用的是同一逻辑。底层性能计数器工作负载性能模型是基于底层性能计数器构建的。性能计数器是平台提供的一种记录特定硬件执行行为的硬件功能。我们从 CPU 角度选择了三种计数器作为工作负载性能的指标:unhalted CPU cycles、retired instructions、cache misses。Cycles per instruction(CPI)指执行每条指令平均所需的 CPU 周期数量。CPI 越高意味着完成指令需要的 CPU 周期越多。当 CPI 高到一定程度时,工作负载的性能可能会受到影响。Cache misses per kilo-instructions(MPKI)指的是工作负载每千条指令的三级缓存缺失数,用来确定 CPI 高于常规值时的根本原因。如果 CPI 和 MPKI 同时高于常规值,则表明工作负载的性能很可能已经受到缓存缺失的影响。只要密切监控一种工作负载在运行时的这些指标,就能知道底层共享资源对性能有哪些干扰(如有)。图 16 英特尔 RDT 功能在本文所述的情况中,尾时延等传统性能指标无法用于性能评估。对字节跳动而言,在线工作负载通过向其他服务发出函数调用来完成一项事务,因此其尾时延既可能受自身性能影响,也可能受其他服务完成函数调用的速度的影响。因此,我们不能用在线工作负载的尾时延来研究混布工作负载的干扰问题。为分析字节跳动混布集群中离线工作负载的性能,我们每 30 秒针对各在线工作负载收集性能计数器、缓存占用大小(cache occupancy)和其他辅助指标(如 CPU 利用率和工作负载强度)。这些指标或用于建立性能模型,或用于验证分析结果。英特尔 资源调配技术英特尔 资源调配技术(英特尔 RDT)把对应用、虚拟机(VM)和容器使用三级缓存(LLC)和内存带宽等共享资源的监测和控制能力提高到了全新水平,能够帮助数据中心在提升效率和灵活性的同时,降低 TCO。随着软件定义基础设施和高级资源感知编排技术在行业中影响力的不断上升,英特尔 RDT 已经成为优化应用性能以及增强使用英特尔 至强 处理器的编排和虚拟化管理服务器系统功能的关键功能集。英特尔 RDT 提供了一个由多个组件功能(包括 CMT、CAT、MBM 和 MBA)组成的框架,用于实现高速缓存和内存带宽监控及分配功能。这些技术可以跟踪和控制平台上同时运行的多个应用、容器或虚拟机正在使用的共享资源,例如三级缓存(LLC)和内存(DRAM)带宽,还可协助开展“吵闹的邻居”检测,并有助于降低性能干扰,从而确保复杂环境中关键工作负载的性能。(CMT)(CAT)(MBM)(MBA)CREDITSLPHPLPHPIMCIMC/(CDP)CPU核?23云与数据中心基础设施应用篇图 17 英特尔 RDT 内核架构图 18 英特尔 RDT 在 resctrl 文件系统中的监测和控制示意图User InterfaceThreadsUser SpaceKernel SpaceAllocationDuring CTX Read Monitored MSRSwitchDataR/WKernel RDT SupporteSetReadBitmask PerCLOS/RMIDEventCLOSfor ThreadCounterHardwareResource ControlFilesystemCache/MBMonitoringCache/MBAllocation/sys/fs/resctrlShared L3 Cache/Memory BWIntel Xeon RDT Support 如图 17 所示,英特尔 RDT 内核架构描述的是英特尔 RDT功能的 Linux 内核框架和实现。核级和线程级 MSR 寄存器操作,如功能枚举、监控和分配配置、CLOS/RMID 与线程关联、读取监控计数器,均纳入文件系统操作。从最终用户的角度来看,英特尔 RDT 的监控和分配功能是通过默认装载在/sys/fs/resctrl 下的资源控制文件系统来实现的。英特尔 RDT 在 resctrl 文件系统中的分层结构类似于控制组(Cgroup)。与 Cgroup 相比,resctrl 文件系统界面有着类似的进程管理生命周期和用户界面。但不同于 Cgroup 的分层结构,resctrl 文件系统界面是单层文件系统结构。资源组在 resctrl 文件系统中表示为目录。默认组为根目录,在文件系统装载后即拥有系统中的全部任务和 CPU,可以充分使用所有资源。info 目录包含已启用的资源的信息。schematacpusCG2CG1mon_groupsmon_datatasksschematacpusmbm_total_bytesmbm_local_bytesllc_occupancy/sys/fs/resctrlinfomon_datatasksM1mon_datatasksM2mon_L3_01mon_L3_00mon_groupsmon_datatasksL3 L3_MONMB启用RDT 控制后,可在根目录中创建用户目录(“CG1”和 “CG2”,见图 18:英特尔 RDT 在 resctrl 文件系统中的分层结构),为每个共享资源指定不同的控制力度。RDT 控制组包含以下文件:“tasks”:读取该文件会显示该群组所有任务的列表。将任务 ID 写入文件会添加任务到群组。“cpus”:读取该文件会显示该群组拥有的逻辑 CPU 的位掩码。将掩码写入文件会添加 CPU 到群组或从群组中移除 CPU。“schemata”:该群组可访问所有资源的列表。启用 RDT 监控功能后,根目录和其他顶层目录会包含“mon_groups”目录,在此目录中可以创建用户目录(“M1”和“M2”,见图 18:英特尔 RDT 在 resctrl 文件系统中的分层结构),以监控任务群组。“Mon_data”目录包含一组按照资源域和 RDT 事件组织的文件。这些目录中,每个目录针对每个事件都有一个文 件(“llc_occupancy”、“mbm_total_bytes”和“mbm_local_bytes”)。这些文件为群组中的所有任务提供了事件当前值的计数器。英特尔 Platform Resource Manager英特尔 Platform Resource Manager(英特尔 PRM)是一套软件包,可帮用户将尽力而为型 (best-efforts)任务和时延关键型任务混布到一个节点或一个集群。这套软件包包含:代理(eris 代理),可监测和控制各节点上的平台资源(CPU 周期、三级缓存、内存带宽等);分析工具(分析工具),可建立平台资源冲突检测模型。24云与数据中心基础设施应用篇图 19 在线工作负载的性能、模型和结果左:CPI 模型(离线工作负载 CPU 利用率低/高)右:MPKI 模型(离线工作负载 CPU 利用率低/高)性能建模回归模型旨在为在线工作负载建立 CPI 和 MPKI 模型。该模型利用混布离线工作负载的周期数和 CPU 总利用率来为 CPI 和 MPKI 建模。CPI=f(CPU_cycles,Offline_workload_utilization)MPKL=f(CPU_cycles,Offline_workload_utilization)其中 f(*,*)表示高斯分布。该模型旨在探讨 CPI/MPKI 与影响属性之间的关系。按性质划分,CPI 和 MPKI 与工作负载强度有关。我们将离线工作负载利用率作为另一属性添加到模型中,以确定它们之间有无任何相关性。如果在同等工作负载强度下,CPI 随着离线工作负载利用率的提高而增加,则工作负载的性能很可能受到了离线工作负载的影响。如果 MPKI 有同样的相关性,则影响很可能来自三级缓存干扰。我们为每项来自相同代码库的在线服务建立一个回归模型。CPI 和 MPKI 模型均基于七天运行时指标建立。我们将指标拆分 20 次以进行模型筛选,最后随机选择 500 个样本建立模型。我们还设计了两个测试集来检验离线工作负载利用率与 CPI/MPKI 之间的相关性。第一个测试集为不同的 CPU 周期组合,离线工作负载利用率较低。离线工作负载低利用率的抽样范围是低于总离线工作负载利用率 10%;另一测试集的样本来自离线工作负载利用率较高的不同的 CPU 周期。离线工作负载高利用率的抽样范围是高于总离线利用率 90%。将两个测试集用于 CPI/MPKI 模型是为了观察 CPI 或 MPKI 是否会随着离线工作负载利用率的提高而增加。我们发现,对于某些在线工作负载,CPI/MPKI 与离线工作负载利用率之间存在相关性。一种在线工作负载的结果见图 19:性能、建模和结果。图中显示,离线工作负载的利用率越高,CPI 和 MPKI 值越大。我们因此得出结论,该工作负载会受缓存干扰,其性能因干扰而受到影响。此外,我们还收集了英特尔 RDT 指标来验证此评估结果。同一工作负载的缓存占用情况显示,强度较高时,工作负载会跨越两个 NUMA 域运行。离线工作负载在其中一个 NUMA 域中高强度运行,与其他在线工作负载争夺该域中的三级缓存,最终占用了三级缓存。基于此分析结果和缓存占用指标,我们可以确定,针对离线工作负载进行缓存管理可以减少混布在线工作负载的缓存干扰。集群层面部署与结果根据分析结果,我们认为缓存干扰对混布集群中的在线工作负载性能造成了影响。为缓解干扰,字节跳动部署了英特尔 RDT来管理离线工作负载的缓存占用情况。下文所述的三种工作负载中有两种实现了性能提升。RDT 配置对于一台同时运行在线和离线两种工作负载的服务器来说,所有离线工作负载会受到限制,只能使用两条缓存通道,而在线工作负载则能够使用全部缓存通道。评估范围拥有超过 9,000 台服务器且服务器均已部署 RDT 配置的混布集群。1.151.104.754.504.251.054.001.003.750.950.903.503.253.00012340512345/CPU MPKI/CPU CPI 01243501243525云与数据中心基础设施应用篇 评估方法在线工作负载第 99 百分位的时延波动用于指示缓存管理配置的影响。工作负载第 99 百分位的时延波动定义为:波动t=|99th_latencyt-99th_latencyt-1|/99th_latencyt在两种场景下对其进行对比:1.工作负载在混布集群中运行(未启用缓存管理配置)与在非混布集群中运行情况的对比。2.工作负载在混布集群中运行(已启用缓存管理配置)与在非混布集群中运行情况的对比。首次收集的工作负载第 99 百分位的时延波动数据来自未启用缓存管理的混布集群和非混布集群。在混布集群中启用缓存管理配置后,再次收集相关指标。我们研究了三种在线工作负载的数据集,每个数据集用时 22 小时。评估结果两种样本工作负载(工作负载 A 和工作负载 B)的结果表现较好,与非混布集群相比,尾时延波动在执行缓存管理配置后得到明显改善。工作负载 A对于工作负载 A,混布集群中有超过 9,000 个实例,非混布集群中有超过 3,000 个实例。在不启用缓存管理的条件下,混布集群中尾时延的波动明显高于非混布集群中的尾时延波动 见图20:工作负载 A(启用前)。若在混布集群中启用缓存管理,则尾时延的波动与非混布集群中的尾时延波动相当。工作负载 B在混布集群中启用缓存管理后,工作负载 B 的结果同样表现较好。工作负载 B 在混布集群中有超过 10,000 个实例,在非混布集群中有超过 5,500 个实例。图 22:工作负载 B(启用前)所示为该工作负载在混布集群中运行(未启用缓存管理)与在非混布集群中运行的尾时延波动情况。可以明显看出,混布集群中的波动明显高于非混布集群中的波动。图23:工作负载 B(启用后)所示为在混布集群中启用缓存管理后的对比。两集群中尾时延波动的差距不再那么明显。14.0106.0018.02 00.0022.002020 07 11 18:44:00 1 Z9 A6.128%2.427.000.000%8.000%4.000%0.0106.0018.002020-07-13 18:38:0020.0022.009 A1 Z1.23%1.030.00.50.00%7.50%0%4.000%3.200%2.400%1.600%0.800%0.0106.0018:0200.00 8.00%6.00%4.00%2.00%0.0104.0018.02 00.0022.00 图 20 工作负载 A(启用前):工作负载 A 在非混布集群和 未启用缓存管理的混布集群中的尾时延波动情况图 21 工作负载 A(启用后):工作负载 A 在非混布集群和 启用缓存管理的混布集群中的尾时延波动情况图 22 工作负载 B(启用前):工作负载 B 在非混布集群和 未启用缓存管理的混布集群中的尾时延波动情况图 23 工作负载 B(启用后):工作负载 B 在非混布集群和 启用缓存管理的混布集群中的尾时延波动情况结论字节跳动利用英特尔 RDT 和英特尔 Platform Resource Manager,来缓解底层硬件资源对混布集群的干扰,验证了英特尔 RDT 和英特尔 PRM 可以减少工作负载混布时底层资源对时延关键型工作负载的干扰,进而提高服务器总利用率。26云与数据中心基础设施应用篇京东云基于至强 处理器打造冷板液冷参考解决方案,有效降低数据中心能耗蓬勃发展的数字化转型使得数据中心的能耗处于持续的增长中,而在数据中心的能源消耗中,加热、通风和空调(HVAC)系统能耗值得关注。以京东云数据中心为例,有超过 70%的数据中心能源由信息技术设备(ITE)消耗,HVAC 系统消耗的能源达到 12%,居第二位18。因此,除了提升数据中心 IT能源效率(ITUE)之外,提升冷却效率也成为建设绿色数据中心的重要选择。提升冷却效率的另外一个重要意义在于,其能够有效降低 IT 设备的工作温度,使得具备动态频率调节能力的 XPU 等关键组件能够以较高频率进行稳定运行,有助于数据中心服务器在高负载下依然保持稳定的高性能输出。此外,由于工作温度的降低,IT 设备的运行寿命得以提升,在冷却方面耗费的成本也得以降低。传统数据中心多采用空气作为冷却介质,但其存在无法在垂直机架阵列的 IT 设备入口处提供均匀温度的空气,冷却系统效率也相对较低等诸多缺陷,让液冷成为可持续数据中心冷却系统的重要选择。液冷成为冷却机房的更有效的方法之一,主要基于以下几个原因:在液冷系统中,热量能够在更靠近其来源的地方与液冷介质进行交换,避免空气湍流和空气混合;水等液体比空气具有更高的热容量和更低的热阻 一般来说,冷却液的导热系数是空气的 6 倍,单位体积的热容是空气的 1,000 倍;与传统的冷却方式相比,冷却液的传热次数更少,容量衰减更小,冷却效率高。目前,液冷系统的技术路线可以分为冷板液冷、浸没液冷和喷雾液冷。其中,冷板液冷主要方法是组建冷却液回路,利用 CDU 分配冷却液。在通过冷板收集计算节点的热量后,冷却液不断流向另一个冷的 CPU,并通过另一个连接器离开服务器冷板管道,实现液冷计算节点的液冷循环。冷板液冷技术目前在行业内相对成熟,在传统数据中心改造、数据中心基础设施复用等方面具备一定优势。但同时,由于液冷与空气冷却系统在设计上有较大的差异,很多技术仍缺乏充分的验证,因此在效率、稳定性、经济性等方面都存在可优化空间。18 数据援引自京东云内部测试结果。英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。2627云与数据中心基础设施应用篇面向 XPU 的冷却系统设计挑战包括 CPU 在内的 XPU 芯片功耗是服务器能效的重要考量因素,在很大程度上决定着数据中心的总功耗。由于人工智能、数据分析、数据库等工作负载对计算能力的需求不断增长,以及半导体工艺的巨大改进,XPU 已经集成了极多的晶体管。尽管单核功耗因工艺技术的改进而不断下降,但芯片整体的热设计功率(TDP)却由于性能大幅增长而在不断增加,这将导致芯片的 TDP 超过空气冷却的能力。图 24 随着性能的不断提升,京东云服务器 CPU 的 TDP 处于持续的上升通道中20图 25 京东云冷板液冷参考解决方案架构Year Xeon Thermal Design Power(TDP)CPU TDP Envelope,WTDP,WLiquid95130Core CountPower/CoreToday6005004003002001000130130145145205205300350Year 以京东云服务器系统为例,其 x86 处理器的典型 TDP 在 2013 年为 105 瓦,而在 2022 年部署时,这个数字将提升到 350 瓦以上19。此外,行业普遍预计,XPU 的 TDP 在接下来的几年中将呈现持续增长的趋势。CPU 功率主要由有功功率和漏电功率组成。一般来说,CPU 漏电功率会随着结温的升高而增加,更高的泄漏功率将占用更多的功率预算,并挤占提供计算能力的动态功率预算。液体冷却带来的功率效率改进可以部分抵消这种增长。首先,通过让处理器在较低温度下运行而降低静态功率;其次,因液冷系统捕获了主要热量,减少了风冷风扇,将热阻显著降低到典型范围 0.30.5C/W 21。如今,处理器制造商允许 XPU 在受控范围内超出其基本(或标称)频率运行。在大多数情况下,处理器在最低频率和基本频率之间的保证范围内运行。只有在热量和功率预算允许的情况下,它们才能在更高的频率运行。由于液冷系统具有非常高的冷却能力,使其能够支持 XPU 运行在较高的频率上,从而提升性能。解决方案:面向可持续数据中心的 京东云冷板液冷参考解决方案京东云冷板液冷解决方案是从数据中心级到系统级的整体解决方案,涵盖了 CDU、机架、服务器等不同层级的产品与技术,在 CDU、工作液、歧管、服务器等方面进行了针对性的设计。19、20、21数据援引自京东云内部测试结果。英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。Liquid Cooling Solution-Open LoopData CenterCDUHeat ExchangerPumpTube/PipeWorking FluidLeakageServerCold PlateLeakageTube/PipeCompatibilityRackManifoldTube/PipeReliability Testing28云与数据中心基础设施应用篇服务器服务器液冷方案主要由冷板、管路、快速接头和检漏线组成。其中,数据中心单相冷板供液温度范围为 4045C,工作液兼容乙二醇溶液(去离子水)。为了防范液体泄露风险,京东云采用检漏线将液冷系统包裹起来,特别是在冷板和管路接头处,确保在漏液的情况下可及时报告给运维人员,并启动漏液应急措施。图 26 京东云服务器液冷方案组成表 2 京东云数据中心空气冷却与冷板液体冷却的冷却效果对比23基于第三代英特尔 至强 可扩展处理器的京东云服务器液冷设计第三代英特尔 至强 可扩展处理器提供了 8 个插槽配置的多插槽内核计数密度,与第二代英特尔 至强 可扩展处理器相比,性能、吞吐量和 CPU 频率显著提高。该处理器内置 AI 加速功能,可提供无缝性能基础,有助于加快多云、智能边缘和后端等数据的变革性影响,帮助京东云进一步提升性能。京东云已于 2021 年第二季度在其数据中心部署了冷板液冷解决方案,方案采用了定制型第三代英特尔 至强 可扩展处理器,调整了核心数、基础和 Turbo 频率、TDP、RAS 特性、T 机箱等主要参数。方案部署后,在相同服务器节点配置下,京东云对比了空气冷却与冷板液体冷却在 25C 和 35C 环境温度下的冷却效果,数据如表 2 所示。在 25C 和 35C 环境温度下,对比空气冷却,采用冷板液体冷却的服务器节点的风扇功率显著降低 18%和 44%。服务器节点出口温度降低 11-16C,噪音降低 1.0 到 7.0 dBA,对维护人员非常友好22。22、23、24 数据援引自京东云内部测试结果。英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。此外,京东云液冷定制处理器的可靠性、先进的 RAS(可靠性、可用性、可维护性)特性以及内存故障预测已经得到验证。与传统服务器相比,该服务器计算节点主机的宕机率降低了 40%,保证了云主机服务 99.99%的可用性 SLA24。CDU在整体液冷解决方案中,CDU 作为服务器侧二级回路和数据中心侧一级回路的关键传热路径,必须具有泵、热交换器、过滤器、补水系统、变频器、监视器功能(如温度和压力传感器)和其他组件。工作液在液体冷却系统的一次回路侧,选择去离子水 乙二醇作为工作流体。去离子水具有低电阻特性,乙二醇则确保了流体在低环境温度下冻结而导致管道破裂的低风险,二次回路选择使用纯去离子水来提高热性能。歧管安装在机架上的歧管将冷流体分配到每个服务器节点。在歧管顶部的快速连接器可方便机架部署。歧管底端设计了手动排污口,方便系统排水维护。Quick ConnectorLeakage SensorTubeCold Plate 25C 35C CPU 27C 27C 5D 16 1.0dBA 7.0dBA “-”CPU 64mm 17mm 1.2.3.29云与数据中心基础设施应用篇表 3 京东云数据中心冷板液冷与空气冷却节能减排效果对比 2725、26、27数据援引自京东云内部测试结果。英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。收益:数据中心 PUE 从 1.3 降低到 1.1 25基于京东云的实际工程部署结果,液冷已被证明是可持续数据中心设计的最佳散热解决方案之一,展现出多项优势:液体冷却的传热比空气冷却的传热系数高数百倍,冷却能力更高,其设备所需空间更小,还可以显著提高系统功率密度;高性能的处理器通常会具备高频和多核特性,解决最高性能处理器的散热问题,就意味着服务器生产力的提升;通过冷却高性能的处理器和增加服务器机架功率密度来实现性能最大化;采用冷板液冷解决方案,可以将数据中心 50%的散热转移到外部冷却塔,减少冷却塔的使用,最终降低 PUE 和碳排放;液体冷却提高了云主机服务等级协议,以及处理器、服务器系统和数据中心的可靠性;冷板液冷是一种将传统风冷数据中心改造成液冷的循环经济可持续解决方案。通过应用面向可持续数据中心的冷板液冷参考解决方案,京东云 数据中心的 PUE 从 1.3 降低到 1.1,每个 14KW 机柜可节电 31,031 度,碳减排 24.4 吨。在服务器系统方面,每个服务器节点可以节省大约 4%的电量26。14kWPUE -21722/310312436024.410.960.8130.8131.1111.321,72224,36031,03130云与数据中心基础设施应用篇京东利用英特尔 MCA MFP降低内存故障下的宕机率,构建稳定、高效的云服务京东云是京东科技集团旗下领先的云计算品牌,依托于京东科技集团在人工智能、大数据、云计算、物联网领域的前沿科技能力,提供包含公有云、专有云、混合云在内的多云、安全、可信赖的基础云服务,为全球互联网、金融、城市、交通、能源等客户提供领先的云计算服务与行业解决方案。2016 年 4 月京东云正式商用,进军中国云计算市场;2017 年 6 月,京东业务全部上云;2021 年4 月,京东云 IaaS 市场占有率升至中国第五,跻身国内云计算第一梯队28。作为全球容器化最彻底的云平台之一,京东云拥有全球最大规模的 Docker 集群、全球最大规模的 Kubernetes 集群,支撑万亿级电商交易,实现京东 618购物节订单 100%云上完成、以及京东物流、京东健康全量上云。历经京东618、11.11、春晚等万亿级流量洪峰考验,京东云服务多个视频、媒体、在线教育、游戏等客户,服务最高可用性保证达 99.995)。业务激增对京东云稳定与可靠性提出更高要求如今京东云覆盖各个行业领域超过 2,500 家的合作伙伴,随着用户规模不断增大,特定行业与云原生类用户对应用开发和运营模式提出许多新的要求,传统用户也正在将更多复杂业务迁移上云,这些持续变化的技术需求对京东云服务提出新的挑战。作为云服务的核心资源云主机,它的可靠性、可用性、可维护性直接决定了云服务的质量和水平。如今硬件故障的发生是造成主机宕机的重要因素。传统方式下,一组服务停止工作只会影响到自己的业务和用户,但是在云环境下,服务终止将会导致云服务提供商违反 SLA 并造成巨大的经济损失。在众多的硬件故障中,内存错误是当今数据中心中所面对的最严重的故障之一。目前京东云数据中心内存错误在整体硬件故障中的占比达到 37%,为此京东云建立了完善的云主机故障预测和恢复系统,希望通过对内存错误的发现与预测,通过在线快速迁移恢复技术,减少内存错误对云主机造成的影响。28、29 如欲了解更多详情,请访问:https:/ 27 京东云硬件故障分布3031云与数据中心基础设施应用篇但由于目前云主机中各软硬件系统兼容性的影响,恢复系统仍然无法对许多内存故障引起的宕机,进行快速恢复。例如恢复系统无法对存储优化型云主机进行热迁移;恢复系统在日常巡检时及时发现内存错误,在热迁移过程中出现系统宕机等问题,增加了云主机的故障率。如果能建立一套实时洞察云主机内存状况、预测潜在的内存故障并对内存错误进行有效恢复的解决方案,对提高京东云服务的稳定性与可靠性,提高终端用户的 SLA,降低京东云数据中心的TCO 都有极大的帮助。英特尔 MCA Recovery MFP,助力京东云提供高效稳定的服务京东云与英特尔在云计算领域一直保持着紧密而广泛的合作,为终端用户提供专业且高性价比的云服务是双方合作的初衷。为了解决内存错误的困扰,双方再次携手,通过引入英特尔 MCA Recovery 与 Memory Failure Prediction(MFP)技术,结合京东云的故障恢复系统,用来降低内存错误对京东云主机稳定性的影响。内存错误图 28 内存错误分类 1表 4 内存错误分类 2Fatal ErrorRecoverable ErrorCorrected ErrorUncorrected Error目前主机出现的内存错误主要分为可纠正错误(Corrected Error,简称 CE)和不可纠正错误(Uncorrected Error,简称UE)。可纠正错误目前最为普遍的解决方案是通过纠错码(ECC)克服双列直插式内存模块(DIMM)的一些可纠正错误。不可纠正错误(UE)通常会造成比较严重的灾难性后果,如主机操作系统挂起,系统崩溃、宕机。UE 错误也可以分为 Fatal Error、SRAR、SRAO 以及 UCNA。Fatal Error:非常严重的 UE 错误。此类错误系统无法对其修复,该错误会导致处理器内部处于混乱或者不稳定的状态,只能通过复位系统进行恢复。出现这种 UE 错误目前暂无好的恢复手段;RAR(Software Recoverable Action Required):发生这种错误后,操作系统/应用程序需要执行某种操作(例如隔离/终止失败线程)来恢复此无法纠正的错误。此类错误是恢复技术可以重点恢复的错误类型;SRA(Software Recoverable Action Optional):出现这种错误后,操作系统/应用程序根据用户设定的策略选择执行某种操作(例如隔离/终止失败线程),用以恢复此类错误;UCNA(Uncorrectable Error No Action Required):出现的错误不是位于关键路径上,该错误没有触发 MCE,通常不需要采取任何操作。基于内存错误的分析和了解,可以判断出,制定一套针对 SRAR与 SRAO 两种 UE 错误的预测 恢复的技术解决方案,可以有效降低内存故障对主机的影响。在经过双方技术专家的反复测试与权衡,最终选择英特尔 MCA Recovery 与 MFP 技术解决此类问题。1MCERRSystem CrashVal IDMci_STATUSMCG_STATUSErroredThreadOtherThreadsAR(Action Required)ADDRVADDR in Kernel SpaceSW Action1MCERR1MCERRKerne Panic1MCERR1ay Kernel Panic1ptional for Recovery Action1CMCILog the Error and Optional for Recovery ActionUncorrected ErrorsSRAR-InstructionSRAR-InstructionSRAR-Data LoadSRAR-Data LoadSRAOUCNACE111111111111000111111111111111111100000NOYESNOYES00111001101111111010000000CMCILog the Error and No Corrective Action RequiredMCERRMCERRUCPCCServiceMISCVRIPVRIPVEIPVEIPVSignalingMO32云与数据中心基础设施应用篇 英特尔 MFP英特尔 MFP30是一种通过主动内存故障管理提高主机可靠性的数据驱动技术。它通过对历史故障数据的学习,可以自主地对主机内存故障做出预测,并在发生灾难性结果前通知系统管理员。英特尔 MFP 通过对成千上万的 EDAC 日志对内存微观层面故障数据进行学习和数据挖掘,以此训练和建立 DIMM 健康评估模型(DHAM)。MFP 部署后,会实时监控主机内存运行状况,分析主机不同层面的内存错误,包括 DIMM、rank、bank、column、row 和 cell 等,将主机内存状况与 DIMM 健康评估模型进行对比,以预测发生内存故障的可能。MCA RecoveryMCA Recovery31是“英特尔高级 RAS”功能,利用 CPU 的MCA 架构体系,结合固件(比如 UEFI 固件)对发现的不可纠正的硬件错误(UE)进行隔离,从而使系统从这类错误中恢复出来的一种技术。图 29 英特尔 MFP 工作流程图图 30 MCA Recovery 技术原理图Operating System SoftwareEMCA2:3.Enhanced Error LogsEMCA2:1.MSMI for MCE signaling2.CSMI for CMCI signalingBIOS FW(SMM)Error SignalingMSR/CSRaccessOS Boot SelectionAccess to PlatformOS BootEFI PrcoCallsSCIMCE/CMCIMSIArchitected MSR AccessMSMICSMIMem AccessProcessor Pcode/uCodeProcessor(HW)Enhanced MCA Gen2(EMCA2)based FW First Model of Error Handling in Intel Xeon Processor E5/E7 FamilyPlatform HW SW Components(Memory,QPI,PCH ME,PCIe Devices,VR,Thermal/Cooling,BMC)ACPIDSMEFI30 如欲了解更多详情,请访问:Intel Memory Failure Prediction:https:/ 如欲了解更多详情,请访问:https:/partneruniversity- Actions.Not part of MFP ToolUsage1:Move critical workloads before any memory failure occur.Avoid unexpected server crash for critical apps.Usage2:Proactive DIMM replacement policy.Reduce DC TCD.Usage3:Proactively isolate wear-out memory page in OS kernel.Reduce potential server failure.micro-level memory RAS telemetryModel Training&GenerationDIMM Health Assessment Model(DHAM)IA memory RAS telemetryapply trained model foronline prediction HW(CPU,Memory,GPU,SSD,etc.)Running in OSor BMC FWIntel MFPMFP Model TrainingMFP PredictionDHAMProcessorMemoryControllerChip?Chip?DRAM module?Channelreal-time memory error logpredictive failure alertCSP?Dual-Inline Memory Module(DIMM)DRAM RankColumnRow?ankColumnCellfaultfailureDRAM Chip?Row?ankCSPs64BankBank88ChipChip07.apply trained model for online prediction33云与数据中心基础设施应用篇使用 MCA Recovery 技术进行恢复有几个先决条件需要满足:内存 UE 是非致命错误;内存故障地址不在内核空间中;访问错误地址的应用或进程可以被 kill。图 31 MCA 内存错误恢复流程图图 32 MCA Recovery 在京东云故障恢复系统中的架构表 5 BIOS 的 System Memory Poison 选项User Spacemcelog dameonFirmwareVMVMQEMU-KVMQEMU-KVMLinux KernelSoft Odo_machine_checkthreshold_interruptAPEI/GHESmcelogtriggerUCEUCECEKVMedactimertriggercecMCEEMCA2Legacy MCACMCIUCE:Uncorrected ErrorCE:Corrected ErrorNMI/SCISMISIG BUSHardware Platform(*Error*)CE page thresholdmemory如图 31 所示,当一个内存错误发生后,CPU 会通过 MSMI 通知BIOS,同时CPU会进入SMM Mode模式(错误处理模式);BIOS 接到指令后,会对错误的数据进行收集整理并把它存入API TABLE 或者 BMC 中,同时发送指令给 OS,告知发生的错误及错误类别;当 OS 接收到指令后,会把发生错误的内存地址进行隔离,同时把仍然使用错误地址数据的应用删掉,从而保证主机不会发生宕机,实现错误恢复。故障采集vmDiskMemorymcarCPUhostDiskMemorymcarCPUhostvmvmvmvm故障分析livemigrationUEHealthy 部署经验部署 MCA Recovery 要打开 CPU Data Poisoning 功能。CPU Data Poisoning 的作用是,一旦出现内存错误,CPU 会对这种错误进行标签处理,为后续的操作提供一个标识。其打开的方式有两种:通过 BIOS 的 System Memory Poison选项或在 OS 里设置 MSR 寄存器 0 178 bit0 设置为 1。(178h)MSR_MCG_CONTAINMachine Check Containment Mode Register.This register is usedarchitecture of the processor.Before attempting to access this register,the SW must test the Software Error Recovery Support 24 in the IA32 MCG_CAP register(MSR 179h).If the Software Error Recovery Support Bit is not set to 1,a#GP exception may be raised on access to this register.POISON_ENABLE-Enable Poison Mode.When set to 1,Enables Poison.Mode-Erroneous data coming from memory will be Poisoned.Errors may be reported in several places.When set to 0(default),indicates Legacy Mode-No poisoning available.Core0hRWMCA Recovery 与 MFP 的部署,配合京东云的故障恢复系统,大幅降低京东云主机因内存故障造成的系统崩溃。当某一个节点出现潜在 UE 可能时,京东云可用性分析系统,通过英特尔 MFP 技术可以实时 UE 错误预警,从而触发第一层系统保护基于内存故障预测的热迁移,避免潜在内存故障导致的云主机宕机。如果 UE 故障发生在 MFP 预测范围外,触发第二层系统保护通过 MCA Recovery 进行恢复,故障恢复系统在 MCA Recovery 的帮助下隔离受影响的内存页,防止页面被其它应用/进程再次使用,如果内核能够成功执行恢复,只要没有故障,系统就可以保持在线。同时数据中心维护将收集故障日志以确定哪个 DIMM 发生故障,将出现 UE 的内存页面所在的云主机在线迁移到一个健康的节点,并将故障节点上报给服务器管理系统进行内存更换。34云与数据中心基础设施应用篇操作系统支持:主机内核需要加上英特尔 MCA Recovery 相关 patch。并在内核配置上检查如下的配置:CONFIG_X86_MCE=yCONFIG_ACPI_APEI=yCONFIG_ACPI_APEI_GHES=yCONFIG_ACPI_APEI_MEMORY_FAILURE=yCOFIG_ARCH_SUPPORTS_MEMORY_FAILURE=yCONFIG_MEMORY_FAILURE=yCONFIG_X86_MCE_INTEL=mCONFIG_ACPI_APEI_EINJ=mCONFIG_HWPOISON_INJECT=m在部署过程中发现,部分机型的 BIOS 设置项目找不到或者隐藏CPU Data Poisoning,只能通过操作系统对 MSR 进行设置。性能验证实际部署前,京东云通过Ras-Tools模拟不同类型的内存故障,对部署了 MCA MFP 的服务器进行了压力测试,测试环境以及机器配置如下:在整个测试过程中,使用 Ras-Tools 工具模拟注入 Ue Single、Ue Double、Ue THP、Ue Store、Ue Instr、Ue Patrol、Ue Llc、Ue Mlock、Cmcistorm 等九种类型的故障。整个测试过程中,CE 与 UE 错误都可以被正常巡检出来,并触发恢复流程,故障降级与内存页隔离,保证主机的稳定。测试主机的宕机频率由部署前 UE 注入 1020 次,部署后主机UE 注入 1,5006,800 次后才产生宕机,稳定性、可靠性大幅提升。CPU内存Intel Xeon Gold 614832G DDR4*12centos 7.4 Intel patch表 6 机器配置CPU内存操作系统结论MCA Recovery MFP 的成功部署,使得京东云数据服务中心可以实时监控各节点云主机的内存使用状况,及时发现出现主机出现的内存故障并加以恢复,使得计算节点主机的宕机率减少 40%,内存故障条件下的热迁移成功率提高了502。极大改善了由于内存故障造成主机宕机的稳定性,为保证云主机 99.975%的可用性提供了强有力的技术支撑。新技术的运用,有效提升了云主机 SLA,提高了终端用户的服务质量,降低了京东云数据中心的 TCO,在激烈的云市场竞争中,占据了技术优势。在未来,京东云仍将与英特尔开展广泛的技术合作,无论是开发和运维的平台级优化,还是云计算趋势性产品的研发,英特尔与京东云的合作必将为中国云计算产业的发展提供助力。32 如欲了解更多详情,请访问:https:/ 33 中国数字化进入深水区33 备注:本文涉及的相关测试数据及青云 KubeSphere 相关数据,来自青云科技;本文涉及的英特尔相关数据,来自英特尔。如欲了解更多详情,请访问:https:/ 如欲了解更多详情,请访问:https:/ QKCP 企业级容器平台,加速企业云原生落地33数字经济快速发展,传统行业迅速走过数字化冲击的朦胧期、初具活力的反应期以及部分经营环节实现数字化的进展期,并来到如今的“数字化转型深水区”,面临着前所未有的挑战。IDC 的相关报告显示,打造数字化优先的竞争优势成为所有企业未来发展的战略目标,未来企业渴求将数字技术与核心业务有机融合,实现商业变革与信息流变现。而在 Gartner 发布的 2022 年顶级战略技术报告中提及,在当前能够帮助企业完成数字化转型与信息流变现的技术趋势中,云原生平台首当其冲。34中国数字化转型支出情况600,000550,000500,000450,000400,000350,000300,000250,000200,000150,000100,0002019 2020 2021 2022 2023 2024 2025572,10212.8.5.6.6.2 .0.0.0.0.0.0%8.0%6.0%4.0%2.0%0.0.8%3,176中国数字化转型支出规模(US$M)增长率中国企业数字化成熟度情况单点实验孕育启动数字化使能扩大数字化美国中国全球协调复制数字化来源:IDC,2020集成管理数字化实现规模数字化优化创新局部推广扩展复制运营管理5.0%6.2%8.97.16.16.77.6A.45.6.3.2.9%5.1%4.1%3.96云与数据中心基础设施应用篇从市场应用的普及度来看,云原生和混合云的概念已深入人心,各行各业的用户对云原生投来关切的目光,部署及应用云原生平台已成为一种新的改革浪潮。在 IDC 对云原生的发展预测中35,预期到 2024 年,新增的生产级云原生应用在新应用的占比将从2020 年的 10%增加到 60%,当前 93%的企业正在采用多云策略,而多云中部署混合云的比例高达 87%。在这种发展趋势下,云原生成为数字基建必需品,同时推动了混合云容器化。但是现状却是,即使对作为云原生基石的 Kubernetes 之应用,也并不是所有企业都能一步到位、自行完成技术路径的转型,而是需要技术厂商一个可构建的、具有弹性及敏捷性的新应用程序架构,以及能根据其所处行业特性、数字初始化复杂程度,所灵活定制的专属解决方案,来助其推进多云环境下的云部署与运用。云原生进化论:青云 QKCP 为企业提供专属解决方案 应对挑战,为用户打造“云原生专属模板”作为源于 KubeSphere 开源社区的企业级容器平台 QKCP,正是在企业用户的这种强烈需求下诞生的。回顾发展历程,其实青云很早便上线了 Kubernetes 服务,以公有云的方式向用户交付容器服务。随着行业的发展和技术的变革,企业数字化转型进入深水区之后,对于那些被动挟裹抑或是主动寻求转型的传统行业用户而言,开源自助的容器平台产品在实际应用方面有着相对较高的实施门槛,这类用户亟需一套从产品端到服务端的一揽子解决方案来满足需求。正是基于对企业用户的需求洞察,青云科技从最初发展KubeSphere 社区的同时,就伴生开发了 QKCP 企业级容器平台,并基于对社区用户大量真实案例的研究,从解决用户真正痛点入手,为企业用户提供量身定制的专属方案。图 34 量身为企业用户打造云原生专属模板图 35 QKCP 企业级容器平台 v3.2 版本-架构与应用场景35 如欲了解更多详情,请访问:https:/ By QingCloud Tech.建设第一朵云DevSecOps多数据中心微服务 公有云还是 私有云?虚拟机还是纯容器?还是混合模式?人员赋能如何做?该如何运营?成本和收益能否透明化?灾备如何做?如何确保安全?如何建立企业的 DevSecOps 文化和能力?如何系统性规划和选择适合自己的DevSecOps 工具链?如何设计指标,驱动 DevSecOps 落地?N 朵云该如何管理?业务该如何跨云分发?同城灾备如何做?异地容灾如何做?多 region、跨 zone 如何设计和规划?数据如何在数据中心之间同步?如何将 DevOps 和微服务结合来?微服务框架该如何选型?选择合适的业务及方式去进行微服务拆分 微服务之间的边界在哪里?QKCP 完整复刻 KubeSphere 全部能力,还在多云 Kubernetes集群管理、DevOps、服务网格、Spring Cloud 微服务、应用管理等多个云原生核心业务场景有更多功能延伸。同时,QKCP结合青云其他产品线、合作伙伴产品和技术能力,形成针对不同场景、不同行业客户所需的专属能力和解决方案。在 对 整 体 容 器 产 品 家 族 进 行 规 划 时,除 了 相 伴 相 生 的KubeSphere 和 QKCP 两大容器平台之外,容器引擎 QKE(QingCloud Kubernetes Engine,简称 QKE),基于 Qing-Cloud 云平台构建,也是青云容器产品家族的重要成员,三大产品互为补充,形成一套完善的云原生产品组合,全面满足不同行业特性、不同云原生应用场景下的用户需求。在落地过程中,QKCP 提供的不仅仅是封装好的 Kubernetes产品,而是手把手地帮助企业用户分阶段落地云原生应用,让庞杂的 DevOps 工具和方法论触手可及,更简单地推进业务的微服务化改造,支持 Serverless、函数计算、低代码、云原生数据库等新兴应用,QKCP 的技术服务团队还会针对企业身处的行业特性,提供专属的云原生实践规划,以保姆式的全方位技术支持和服务辅助企业完成自身的云原生进化之路。迭代进化,QKCP 向云原生核心场景不断触达早在 KubeSphere3.1 及之前的版本中,青云科技就帮助用户实现了 DevOps、微服务治理、应用的管理。3.1 版本更是帮助客户触及到云边协同等业务场景,不但支持边缘节点管理,还支持计量计费,给大型企业用户的运营需求提供得以实现的技术平台。也正是从 3.1 版本开始,KubeSphere 从传统意义上的功能运维平台变成上层运营平台,且从 2018 年至今,KubeSphere不断完成自身进化,从单一产品已经衍生到完善的产品家族,从单核变成多核。不久前,基于 KubeSphere 开源容器平台打造的 QKCP v3.2 版本已正式发布。基础设施业务基础设施业务微服务 服务治理 灰度发布 焙断 限流 智能路由KubernetesPrivate CloudPublic CloudVMBare MetalEdgeCI/CD 镜像仓库管理 镜像迁移 Source to image 安全扫描 流水线应用管理 应用发布 应用部署 版本控制 应用仓库管理 应用商店可观察性 集群与应用监控 集群与应用日志 告警通知 审计日志 事件查询 计量计费安全 用户管理 角色管理 sso 第三方登录认证 密钥管理网络Calico/Flannel/QingCloud CNI/OpenELB多集群支持标准Kubernetes 集群纳管多租户支持跨集群资源编排/多级组织机构管理边缘节点纳管支持边缘节点添加、日志和监控数据采集存储青云存储QingCloud-csi/Ceph-csi数据库MySQL/PostgreSQL/ClickHouse/Redis/Memcached37云与数据中心基础设施应用篇图 36 基于 KubeSphere 的 DevOps 最佳实践参考图 37 青云科技云原生产品家族图谱QKCP v3.2 的升级,延伸出针对 AI 和大数据视角的解决方案,提供了 GPU 资源类型的管理,如监控、日志、业务应用的管理等。特别是在 DevOps 整体设计方面,做了全新的优化升级。未来,正在规划中的 KubeSphere 4.0 还将主要从以下三个功能上在新的场景中进行突破:1、从框架层面做了最大限度的调整,支持前后端可插拔:KubeSphere 4.0 计划把前后端整个框架开源开放,同时梳理开发框架给用户和合作伙伴,使其业务可以无缝迁移到KubeSphere 管理控制平面,提高应用和二次开发的效率,从而彻底解决企业用户应用第三方应用时所遭遇的流程痛点;2、增强的 Serverless FaaS 场景应用能力:青云科技近期新开源的 OpenFunction 函数计算平台,作为一个独立运作项目,综合了 Knative 及 Dapr 的优点,针对独立部署私有化场景,提供基于云原生基础设施的跨平台的 FaaS 框架,为企业用户提供更全面的 FaaS 能力;3、虚拟化场景下提供容器和虚拟机的混合管理部署能力:近年来,传统企业用户在转型过程中,经常苦恼于如何把容器化、云原生化的应用和传统应用进行统一管理和使用,这就对厂商软件解决方案的虚拟化场景的部署能力提出了新的要求,而KubeSphere 4.0 版本将为企业用户提供强大的容器和虚拟机的混合管理部署能力。云原生实践:携手英特尔赋能企业向云进化 生态联合,加速企业云原生落地把握云原生发展趋势,青云科技与长期战略合作伙伴英特尔深知,企业用户的云原生转型无法依托某一单一的技术来完成,而是需要融入到整个云原生生态中,去寻求适合企业自身的解决方案。凭借 All in 云原生”的战略眼光以及强大的技术研发实力,深耕云原生领域多年的青云科技,依托以 KubeSphere 容器平台为核心的云原生产品家族,涵盖敏捷基础设施、云原生核心功能组件、数据库及中间件、应用及服务等方面,为企业用户提供端到端、灵活定制的云原生转型及进阶的各类解决方案。同时,青云科技还广泛联合云原生生态体系各层面合作伙伴,打造开放共生的云原生生态圈,并将硬件层面的合作作为极为重要的部分。全球 ICT 领域的领导品牌英特尔始终走在超大规模云服务的前沿领域,为行业用户提供敏捷、灵活、高性能、高可用的解决方案。面对云原生时代,英特尔具备丰富的云原生解决方案,涵盖计算加速、存储优化、网络编排等方面,全面赋能云原生架构,以前瞻的技术研发实力以及强大的落地实施方案,支持合作伙伴云原生产品战略实施,把计算、网络、存储、加速器、资源管理带到云原生项目中,赋能云计算产业发展的创新实践。众所周知,在云原生领域,Kubernetes 已成为云原生容器编排的重要技术标准,英特尔前瞻性地布局了包括计算、网络、存储、安全在内的全部产品线的适应性开发和优化,使英特尔的全线产品能够在 Kubernetes 平台快速集成和稳定使用。譬如,以CRI-RM(Container Runtime Interface-Resource Manager)为例,通过在节点上动态划分系统资源,配合 Kubernetes 调度器,实现节点层面上的任务编排优化,英特尔平台的特性就能完美适配到 Kubernetes 集群环境里面。应用及服务KubeSphere Cloud 云原生应用服务平台OpenFunction FaaS 开源框架可观测性微服务治理多集群管理DevOps 落地计算网格存储云原生数据库(MySQL、Redis、ClickHousePostgreSQL、MongoDB、等)Kafka 服务ELK 服务负载均衡云边协同AI 应用KubeSphere容器平台OKCP 企业级容器平台Harbor&Docker Hub 镜像仓库容器一体机QCI 弹性容器实例QKE 容器引擎KSV 虚拟化平台企业级云原生备份容灾服务KubeKey 插件化部署工具云原生安全KubeEye 集群健康&安全巡检KubeOcean 轻量化集群管理数据库及中间件敏捷基础设施云原生核心功能组件38云与数据中心基础设施应用篇图 38 英特尔云原生战略图 39 一键选择 Kata图 40 统一运行时的管理页面具体来讲,在产品层面,在基于 Kubernetes 特性的架构平台层面,英特尔通过硬件、软件两个层面的多项优化来完成对用户云原生应用场景的可靠支持;而在整个云原生生态层面,英特尔基于长期的技术趋势探索对各项云原生项目进行生态赋能,并与长期合作伙伴青云科技一起,帮助企业用户完成不同技术现状的云原生实践落地。英特尔优化版 QKCP,实测成效“1 12”基于全新升级的 QKCP,英特尔凭借独特的硬件黑科技助力 青云科技打造更高效的企业级云原生容器平台,双方携手搭建测试环境,并通过软硬件调优,在产品的硬件性能得到质的提升的同时,软件层面的性能也得到了极大优化,特别是在用户关心的“安全、网络、性能”三大方面有了大幅提升:1、支持全新的安全容器架构,告别传统技术架构带来的安全危险传统的容器基于 NameSpace 和 Cgroup 进行隔离,在带来轻量简洁的同时,也带来了安全的隐患。事实上,容器虽然能提供一个与系统中其它进程资源相隔离的执行环境,但是与宿主机系统是共享内核的,一旦容器里的应用逃逸到内核,后果不堪设想,尤其是在多租户的场景下。Kata 在这样的背景下应运而生,作为符合 OCI 标准的轻量级 VM,Kata 运行的应用负载具备独立内核,同时借助英特尔 VT,具备其他轻量级 VM 所不具备的优异性能。2、更强大、更多元的网络管理与扩展能力,不再受制于单一的网络解决方案由于 Kubernetes 缺乏支持多个网络接口的能力,而对网络管理和扩展有更高需求的企业用户往往不能满足于单一的网络解决方案,毕竟单靠一种 CNI 网络插件很难灵活动态地满足一个企业内不同业务团队的诉求。为了解决这一需求,英特尔开发并开源了 Multus 的 CNI 插件,提供将多个接口添加到 Pod 的功能。这允许 Pod 通过不同的接口连接到多个网络,并且每个接口都将使用自己的 CNI 插件。这样,网络功能就能使用多个网络接口分离控制,管理和控制用户及数据的网络平面,并且用于支持不同的协议,满足不同的调整和配置要求,实现了更强大、更多元的网络管理与扩展能力,这恰恰是很多传统企业以及对网络安全有更高要求的客户最为看重的功能点之一。因此,以 Kubernetes 为技术标准的用户,不但能够在英特尔平台上获得超出预期的性能和体验,还能通过英特尔全线产品的云原生技术,集成各种设备插件、资源管理技术,从而获得更多的功能加速和容器业务的优化。值得一提的是,在与云原生生态圈的各个层面的技术合作商展开联合研发及业务合作的过程中,英特尔除了提供云计算基础设施硬件产品和技术外,还在软件研发、技术创新方面持续投入大量资源来进行云原生技术的研发、创新和相关应用场景落地。亮点:QKCP 安全加固QKCP 深度集成 Kata 运行时,用户可通过进行“创建相关资源”这一步骤一键选择“安全运行”。同时,不仅限于 Kata,QKCP也默认提供了“运行时类”的管理,用户可以在创建符合自身业务需求的运行时,通过 QKCP 的管理页面进行统一管理。39云与数据中心基础设施应用篇图 41 多网卡管理图 42 应用负载选择多网卡图 43 测试结果 “Node Feature Discovery 启用成功”图 44 QKCP CPU Manager 测试架构图3、更细致的硬件监控数据,更加了解企业用户的硬件 QKCP节点管理增强。英特尔为检测 Kubernetes Cluster 中每个 Node 的特性能力,投入研发资源开发 Node Feature Discovery(NFD),QKCP深度集成 NFD,通过把节点更详细的 Label 发送到 QKCP Master Scheduler 之上,使得应用负载获得更精准的调度,充分利用硬件资源。经由测试,QKCP 节点管理得到增强。4、QKCP 提升应用性能通常情况下,容器的调度一般是 Complete Fair Schedule(CFS),是一个完全公平的调度算法,最终实现 CPU 的时间片,在不同的 Core 之间运行,如果是两路服务器,会产生跨NUMA 节点访问,像对内存敏感的应用比如 Redis,跨 NUMA节点访问会带来较大的延迟,导致性能下降。CPU Manager 简单说,通过对应用绑核,所有内存访问都是本地内存,避免跨NUMA 节点访问,可以提升性能。亮点:QKCP 实现性能优化通过内置 CPU Manager,并进行大量调优测试,QKCP 平台相对于传统架构性能提升约 96,此处以测试 Redis 性能为例,测试架构示意图如下:36 如欲了解更多详情,请访问:https:/ 网络功能增强基于企业用户对多网卡、多网络的需求,青云和英特尔团队携手进行深度合作与研发,在 QKCP 中整合优化了英特尔 Multus解决方案,支持用户在创建应用负载时自定义选择多块网卡,同时支持网卡资源池管理,通过 QKCP 控制台便捷管理用户的网卡资源。40云与数据中心基础设施应用篇通过在测试部署不同的 Redis pod 时,开启 CPU Manager 后的 Redis 的读写性能与开启前的读写性能的对比,可以明显的看到,开启 CPU Manager 后,Redis 性能最高提升超过 97。另外,当测试部署 20 个 Redis pod 时,在运行测试的指定时间内,开启CPU Manager后,发现节点的CPU使用率有较大提升,且一直稳定在较高水平,CPU 得到充分利用。同时,通过比较不同 Redis pod 中每个 pod 的读写总和,得出了在启用 CPU Manager 后,CPU 的性能更加稳定的结论。除了上述提到的软件层面的调试与研发,在硬件层面的联合性能开发上,脱胎于青云科技 QKCP KF3000 的新一代 QKCP KF3000 Plus 一体机的硬件性能有了质的飞跃,在软件安全、性能、可扩展性都有了极大的提升,并且在性价比上也极具优势,深受用户青睐。图 45 性能测试图3837、38 如欲了解更多详情,请访问:https:/ CompareWith CPU ManagerWithout CPU Manager性能提升2 4 6 8 10 12 14 16 18 20 22 24-0.620%6.727%5.489%6.118%3.830%3.038%2.892%5.316%1.203%9.231%Ops/sec3000000 2500000 20000001500000 1000000 500000 010.000%8.000%6.000%4.000%2.000%0.000%-2.000%4.478%5.651A云与数据中心基础设施应用篇金山云基于英特尔 架构构 建大数据存算分离解决方案,实现降本增效为了从海量数据中挖掘数据价值,大数据系统已经成为企业推进数字化转型的重要支撑,随之而来的是大数据系统存储、管理数据的快速增长。IDC MarketScape:中国大数据管理平台厂商评估,202039报告显示:大数据平台的数据存储量在 20192024 年以 26%的年复合增长率(CAGR)高速增长。在这些新增数据中,半结构化数据、非结构化数据的增长尤为明显,这加大了企业在数据存储和计算上进行更大规模投资的压力。作为由 Apache 基金会开发的分布式系统基础架构,Hadoop 是大部分大数据平台构建的基础。在 Hadoop 的早期版本,为了降低数据在计算节点、存储节点之间迁移所带来的网络带宽消耗,提高单机吞吐量,同时降低集群设计的复杂度,Hadoop 采用了存储和计算一体化的处理方式。这种方式在相当一段时间内满足了用户在大数据系统构建方面的迫切需求,但是随着数据的爆炸式增长,以及大数据集群规模的快速增长,存储与计算融合的方式遭遇了挑战。这一挑战首先体现在大数据基础设施建设所带来的成本压力。为了高效存储、处理业务系统中不断产生的数据,企业需要在大数据集群扩展方面进行大量的投资。在存储与计算一体化的大数据架构中,单服务器节点所提供的计算资源、存储资源的比例是相对固定的,节点扩容会带来计算与存储资源的同比例增长,这对于想要更敏捷地进行资源分配的企业来说,可能会带来资源的浪费,从而使得大数据系统的TCO压力骤升。另一方面,随着大数据平台承载的业务类型越来越丰富,以及人工智能/物联网等新兴业务的引入,Hadoop 平台需要支持多种类型的存储接口,这些都增加了大数据技术栈的复杂度。需要跨业务、跨集群进行共享的资源越来越多,存储与计算一体化的架构可能影响各集群的资源融合能力,从而导致资源无法被充分利用。另外,存储与计算一体化架构在规模化扩展之后,管理效率提升受限,运维成本也会升高。在此背景下,存储与计算分离的架构获得了企业的普遍关注。Hadoop在后续版本中逐步实现了存储与计算解耦,用户可以根据实际应用的特点与需求,自由对存储或计算资源进行扩充,从而增强了大数据平台的敏捷性与经济性。例如,在计算能力不足时,企业可以单独扩展计算节点;在存储空间不足时,企业可以单独扩展存储容量。此外,通过构建以数据为中心的大数据战略,并强化在跨应用、跨集群数据共享方面的创新,企业将能够增强资源的利用率,并大幅降低成本投入。39 数据援引自IDCMarketScape:中国大数据管理平台厂商评估,202042云与数据中心基础设施应用篇作为大数据中的分布式文件系统,HDFS(Hadoop Distributed File System)除了面临存算一体化所带来的挑战之外,还面临着如下问题:性能不足:NameNode 内存占用大,致使启动慢,且 RPC时延高;采用粒度较粗的全局锁机制,容易产生性能瓶颈;适合存储大文件,而对小文件处理效率低且存储空间占用大;扩展性较差:仅能支持有限个数的文件 Block,超过之后需要深度优化或者采用联邦模式;单集群支持的节点数有限,弹性扩展能力不足;采用联邦 Federation 模式扩展,管理多个NameNode 增加运维复杂度;不支持标准的POSIX 语义,无法有效对接 AI/ML 类应用;成本高:采用三副本存储机制,资源利用率低,且采用 EC的效率低;存算一体化的架构导致采购、扩容、运维成本较高;数据在70%时需要提前做扩容准备,并做数据的重平衡,且冷热数据分层存储能力弱。上述挑战增强了企业部署新型大数据解决方案的动力,且出于敏捷性、成本、隐私、合规性等多方面的考量,不同企业可能需要在大数据系统构建方案中,在公有云、私有云等基础平台中做出选择,以满足业务需求。解决方案:基于英特尔 架构,金山云推出大数据存算分离解决方案金山云大数据存算分离解决方案包括金山云 KingStorage-BDG大数据存储网关、金山云 KingStorage-OBS 对象存储。其中,金山云 KingStorage-BDG 大数据存储网关兼容 Hadoop 生态应用,基于全局缓存和统一命名空间提供高性能的数据处理,用于替换 HDFS 系统,提供弹性伸缩的数据存储能力。HDFS ArchitectureMetadata opsDatanodesReadRack 1Rack 2WriteReplicationDatanodesBlock opsNamenodeMetadata(Name,replicas,.):/home/foo/data,3,.BlocksClientClient图 46 HDFS 系统架构图 47 KingStorage-BDG 大数据存储网关抽象分层hdfs apihdfs apiS3api元数据加速KingStorage-OBSKingStorage-BDG数据本地化提升hdfs apiKingStorage-BDG 大数据存储网关主要居于对象存储和Hadoop 计算框架的中间层,对于计算应用,KingStorage-BDG 大数据存储网关可以提供很好的数据本地化或就近加速数据 I/O 性能,相比原生 s3a 方案,效率明显提升,同时节约节点带宽;对于底层存储系统,KingStorage-BDG 大数据存储网关通过统一命名空间融合了多种底层存储系统,对计算框架的使用可以做到透明。KingStorage-BDG 大数据存储网关包括元数据节点 ManagerNode、缓存节点 CacheNode,以及接入代理 client。其中,ManagerNode 支持 HA 方式运行,主 ManagerNode 提供文件元数据操作及 Journal 记录,从 ManagerNode 主要提供一些异步任务调度;CacheNode 主要服务 Client 发过来的数据读写请求和执行 ManagerNode 指派的异步任务;Client 则通过多种SDK 形式将大数据、机器学习等场景接入到BDG 系统中。金山云对象存储则基于多年商业验证的 EB 级分布式存储基础架构,输出云原生对象存储服务能力,旨在为用户提供弹性扩展、随需而用、低成本的海量非结构化数据存储解决方案。系统设计采用分层模型、并发模型、缓冲技术、NoSQL 存储等关键技术,使得产品具有大吞吐和高并发的特点。另外,其还支持弹性扩容,兼容标准的S3对象存储协议,还能够部署在标准的X86服务器,有效降低用户的首次采购成本、后期扩容存储和存储系统的日常维护成本。金山云大数据存算分离解决方案具备如下优势:以数据为核心,以存储为基石:实现存储和计算的分离,计算和存储互不依赖,能够灵活地实现独立扩容。该方案提供统一命名空间(Namespace)能力,可以融合多种不同的底层存储系统的访问语义,为用户提供一个统一的数据管理交互,从而支持便捷的数据共享,实现全局可用,避免数据孤岛;43云与数据中心基础设施应用篇图 48 KingStorage-BDG 大数据存储网关整体架构图 49 测试组网 支持多种类型的数据存储和应用类型:金山云大数据存算分离解决方案支持多种类型的结构化数据、非结构化数据,能够实现统一数据资源的管理,支持上层的大数据类应用、云原生应用和 AI/ML 应用;降低大数据存储的 TCO:受益于存算分离,用户可以更加灵 活地调整计算与存储资源的占比,从而减少资源的浪费。同时,该方案通过全局缓存加速、统一命名空间、多样化元数据同步等方式,能够充分利用现有的基础设施与数据资源,减少采购、运维、系统变更带来的成本投入;充分发挥商用存储内置的丰富功能特性:金山云大数据存算分离解决方案可发挥对象追加写、配额管理、存储生命周期管理、富媒体服务、多 AZ 和远程复制、多样化加密等丰富的功能特性,进一步提升数据价值。基于英特尔 平台的性能优化与验证金山云大数据存算分离解决方案在英特尔 平台上得到了充分的优化与验证,金山云推荐采用基于英特尔 至强 可扩展处理器的存储服务器,也实现了性能的更优化。英特尔 至强 可扩展处理器专为数据中心现代化革新而设计,能够提高各种基础设施、企业应用及新型计算应用的运行效率,进而改善 TCO,提升用户生产力。它拥有更高的每核性能,能够在计算、存储和网络应用中,为计算密集型工作负载提供 高性能和可扩展性。得益于英特尔 超级通道互联(英特尔UPI)、英特尔 Infrastructure Management 技术(英特尔IMT)、英特尔 高级矢量扩展 512(英特尔 AVX-512)等领先功能,可满足严苛的 I/O 密集型工作负载的需求,能够帮助企业打造出性能更强的敏捷服务和突破性功能。在软件层面,金山云大数据存算分离解决方案采用了全局缓存加速模式,支持透写、全缓存、异步写等多种缓存模式,统一缓存加速池能够优先从就近的节点缓存中获取数据,结合多种性能加速策略,能够提供近乎无损的性能表现。为了验证该解决方案的性能表现,金山云进行了测试,测试组网如图 49 所示。测试工具选择了 TPC-DS。TPC-DS 测试基准是 TPC 组织推出的、用于替代 TPC-H 的下一代决策支持系统测试基准,测试集包含对大数据集的统计、报表生成、联机查询、数据挖掘等复杂应用。TPC-DS 是与真实场景非常接近的一个测试集,也是难度较大的一个测试集。TPC-DS 的这个特点跟大数据的分析挖掘应用非常类似。esystem sdk Raft 算 OBS KS3 HDFS 存加速 持久化存 ManagerNode Metadata RPC ManagerNode Metadata ManagerNode Metadata 内存/NVMe SSD CacheNode CacheNode CacheNode CacheNode Hadoop Yarn 集群 BDG 大数据集群hdfs/OBS跳板机25Gb25Gbbond4bond4bond444云与数据中心基础设施应用篇收益:助力用户充分挖掘大数据应用价值基于英特尔 架构的金山云大数据存算分离解决方案能够代替大数据平台中的 HDFS,通过存算分离帮助用户提升平台扩展的敏捷性,更好地保护投资。此外,该方案还能够用于 ML/AI平台数据存储,通过海量文件和小文件存储支持、百亿级文件处理能力、高性能的元数据管理等特性,来提供坚实的存储能力支撑。内部测算显示,金山云大数据存算分离解决方案基于存算分离模式,并在存储层采用纠删码替代多副本的数据冗余方案,在确保可靠性和性能的基础上,将存储资源利用率提升 100%,采购成本降低约 35%,每年的运维成本降低约 25C。该解决方案能够以私有云的方式进行交付。按照客户需求,其支持纯软件交付、一体机交付、定制化交付等不同的交付模式,用户在小规模的基础上,可以按照容量和性能要求,分别增加对象存储节点数和 BDG 大数据存储网关节点数量。目前,该解决方案已经在金融、互联网、制造、公共服务等行业得到了广泛应用。以某金融企业为例,金山云助力该金融企业构建了大数据平台 分布式存储系统,实现非结构化数据和归档数据的集中管理。测试结果显示:BDG 与 Hadoop 各组件有效兼容,产品功能、性能、可靠性和可管理性符合金融用户对存储的要求。测试数据如图 50 所示,在 TPC-DS 测试场景下,在 90%的测试项中,KingStorage-BDG 大数据存储网关的性能都要优于HDFS40。图 51 HDFS 和 BDG 基于 Hibench 测试的性能对比曲线(值越小越好)41图 50 HDFS 和 BDG 在 TPC-DS 的性能对比曲线(值越小越好)随后,金山云还进行了 Hibench 性能测试。Hibench 是 Hadoop压力测试较具代表性的工具之一,提供测试 Hadoop HDFS 文件系统的读写性能测试,测试用例包括简单读写、排序统计、机器学习等,且包括自定义测试用例。测试结果如图 51 所示,所有测试项的性能结果相近,偏离度不大。40、41 数据援引自金山云于 2022 年 3 月开展的测试。测试配置:双路英特尔 至强 金牌 6240 处理器,192GBDDR4 内存,NVMe 固态盘,KingStorageOBSV5.0.0 分布式对象存储软件,KingStorageBDGV0.1.0 大数据网关加速软件,HDP3.1.5Hadoop 测试版软件。英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。42、43 数据援引自金山云内部测试结果。英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。此外,金山云还采用英特尔 Intelligent Storage Acceleration Library(英特尔 ISA-L),以及英特尔 AVX-512 指令集优化金山云 KingStorage-OBS 对象存储 CRC 校验和 EC 纠删码的处理效率,全面提升对象存储系统的 I/O 访问性能。测试数据显示,在采用英特尔 ISA-L 之后,金山云 CRC 校验和 EC 纠删码的性能提升了 5 倍左右42。query04.sqlquery11.sqlquery15.sqlquery19.sqlquery21.sqlquery25.sqlquery27.sqlquery29.sqlquery34.sqlquery37.sqlquery40.sqlquery46.sqlquery49.sqlquery52.sqlquery55.sqlquery59.sqlquery63.sqlquery66.sqlquery68.sqlquery72.sqlquery74.sqlquery76.sqlquery80.sqlquery86.sqlquery89.sqlquery93.sqlquery98.sqlhdfs(s)BDG(s)hdfs(s)BDG(s)HadoopTerasortScalaSparkTerasortScalaSparkWordcountScalaRepartitionScalaSparkAggregationScalaSparkJoinScalaSparkScanScalaSparkBayesLogisticRegressionALSHadoopWordcountHadoopAggregationHadoopJoinHadoopScan45云与数据中心基础设施应用篇金山云采用英特尔 Tofino 可编程交换芯片实现高带宽、低延迟的运营商线路网络转发挑战:运营商线路网络转发带来巨大性能压力企业将业务与数据迁移到公有云、混合云等云上平台的努力凸显了运营商线路网络构建的必要性。一方面,企业希望通过云化来提高基础设施的敏捷性和可扩展性;另一方面,仍有大量的业务与数据由于数据安全顾虑、基础设施架构不同、迁移过程的复杂性等问题,需要在私有云或是本地数据中心进行处理。而这两者之间如果要实现高速、稳定、可控、可信的通信,往往需要通过运营商线路服务来实现网络数据的高速转发。在典型的运营商线路网络部署中,本地数据中心的网关设备与云网中的专有网络将会增加一个运营商线路网络处理通道。在该通道中,运营商线路服务将会通过转发服务器/网关来高速实现运营商线路网络数据的处理、转发,实现更加安全可靠、速度更快、延迟更低的连接,支持本地数据中心访问云网的全部资源,包括云服务器、容器、负载均衡和云数据库等。为了满足企业客户运营商线路网络服务的需求,金山云推出了运营商线路网络服务方案,该方案能够帮助企业在本地数据中心/私有云与公有云之间建立高速、稳定、安全的通信通道。通过该方案,用户能够将在安全方面要求严苛的关键应用部署于本地数据中心/私有云中,将高弹性的业务部署于金山云公有云平台上,云上云下通过运营商线路实现高速数据传输,打造更加安全、弹性、可扩展性兼顾的 IT 基础设施。虽然运营商线路网络服务能够有效解决云上云下的数据转发问题,但这也给带宽处理能力带来了严峻挑战。传统方案采用的是 x86 服务器,并通过服务器的 CPU 进行软转发,在这一过程中,金山云使用了 DPDK(Data Plane Development Kit)进行转发加速。相比原生 Linux 系统的数据处理加速机制,DPDK 能够为高效的数据包处理提供库函数和驱动的支持,从而大幅提升网络转发性能,可以让用户在迁移包处理应用时,获得更好的性能和成本优势。但是,即使使用 DPDK,仍然无法从根本上解决运营商线路网络服务的性能与 TCO 问题。这是因为,该方案的转发性能依赖于 CPU 性能的提升,在性能提升幅度方面有着明显的上限,以此为基础的运营商线路网络方案几乎耗尽了软转发的潜能。而要继续提升性能,就只能依靠增加集群中服务器节点的数量来实现,但这显然会带来巨大的成本压力。随着数字化转型进程的加速,大量企业希望能够在本地数据中心与云网络之间建立运营商线路网络,通过运营商线路转发实现高速的数据传输,以构建跨架构的融合网络,为 IT 基础设施提供高性能、高敏捷、高安全性的网络能力支撑。与此同时,混合云战略的实施也推动了运营商线路网络服务的发展,运营商线路带宽持续快速增长,对运营商线路网络服务提供商的带宽处理能力带来了严峻挑战,转发服务器承载着巨大的性能压力。为了更好地帮助用户实现在本地数据中心与云平台之间构建高速、低成本的运营商线路网络,全球高品质云服务专家金山云与英特尔合作,在运营商线路网 关中使用了基于 P4 可编程技术的英特尔 Tofino 可编程交换芯片来进行硬件加速,代替传统的以 CPU 进行软转发的 x86 服务器,不仅带来了更高的带宽、更低的时延抖动,而且大幅节省了服务器的部署规模需求,显著降低了 TCO。46云与数据中心基础设施应用篇特别是近年来,企业数字化业务的发展导致云上云下需要转发的流量快速增长,运营商线路带宽需求不断上涨,给运营商线路网络服务基础资源带来了巨大压力。金山云亟需构建创新的运营商线路网络服务架构,以便为用户提供高性能、低延迟、低成本的运营商线路网络服务。解决方案:基于英特尔 Tofino 可编程交换芯片的 TGW-P4 方案在对运营商线路网络的服务特点进行分析之后,金山云发现,通过将运营商线路转发负载卸载到专用的芯片上,有利于降低CPU 负载,从而显著提升单节点的性能表现。为此,金山云与英特尔合作,采用了基于英特尔 Tofino 可编程交换芯片的TGW-P4,代替传统方案中的 x86 服务器,以加速运营商线路网络流量的转发。英特尔 Tofino 可编程交换芯片使用开源的 P4 编程语言针对数据平面进行编程,可通过软件来适配网络中新的需求,或针对P4 支持的新协议进行调整。这一芯片具备高带宽、低时延、数据转发能力强大、高稳定性、协议中立等特性,性能和可编程能力旨在满足超大规模数据中心、云和服务提供商网络的需求,而且方便集成开发环境,开发效率极高。在实际的运营商线路网络流量转发业务中,金山云通过基于 英特尔 Tofino 可编程交换芯片的 P4-switch,构建 TGW-P4,从数据平面与控制平面进行了对应的设计。其中,数据平面使用英特尔 Tofino 可编程交换芯片和 P4 编程,构建现有 TGW对应的转发平面行为,并设计了包含主机路由表、网段路由表、ecmp 组、报文重写等表项在流量处理表,处理绝大部分现有流量,并将诸如虚拟机热迁移等少量特殊流量旁路至现有 x86集群处理。在控制平面上,Neutron-agent 和 tgwadm 运行在P4 switch 上,接收控制台下发的邻居、路由配置。同时,P4 switch 还对原有的 tgwctl 和 tgwmon 进行适配,兼容 DPDK和 P4 转发面,P4 switch 转发面则由内核驱动,借助内核协议栈配合,提供路由 APP 运行环境。在实际部署中,金山云使用两台 P4 switch 单独建立一套运营商线路集群,和现有 TGW 集群一样,部署于数据中心内。TGW-P4 集群发布 P4-TVIP,将运营商线路流量引到本集群,并运行 neutron agent,具有运营商线路相关的全部路由、邻居配置。在 P4 转发面的处理逻辑中,对流量匹配邻居表、路由表等决策转发逻辑,大部分流量由 P4 交换机硬件转发处理。对少量特殊流量,P4 switch 修改外层 DIP 为 TVIP,发送到现有的TGW-x86 集群,由 TGW-x86 来完成后续的转发处理,最终所有的运营商线路流量都先经过 TGW-P4 处理,TGW-x86 集群仅仅承载特殊流量。收益:数十倍的吞吐量提升,时延显著降低 44通过采用基于英特尔 Tofino 可编程交换芯片的 TGW-P4 方案,金山云能够有效降低运营商线路网络系统在处理运营商线路网络转发流量时的性能压力,提升网络吞吐量并降低延时,帮助用户在云下数据中心与云上网络间建立高速、稳定、安全的专网通信。具体来说,该解决方案实现了如下效果:更高的带宽,更低的延迟基于英特尔 Tofino 可编程交换芯片的 TGW-P4 几乎全量承载现有 TGW 的流量,能够显著降低 CPU 负载,有效提升带宽,并降低延迟。测试数据显示,对比传统软转发的 x86 服务器方案,P4 switch 方案能够将单节点的吞吐量从 100Gb 提升到 3.2Tb,提升幅度超过 30 倍,时延则从 20-40 微秒(us)降低到 1us45。图 53 TGW-P4 部署方案架构表 7 测试数据 46图 52 TGW-P4 软件方案架构PCIENeutron-agentTgw-admTGWCTL-P4TGWMON-P4PALLow-level Driver路由 APPhostifbf_knet.kobf_kpkt.koTGW-P4TGW-P4TGW-X86TGW-X86ROUTERROUTER44、45、46 数据援引自金山云内部测试结果。TGW-DPDKTGW-P4Gbps10032*10020-40us1us47云与数据中心基础设施应用篇 TCO 显著降低由于在运营商线路网络转发中,吞吐量实现了超过 30 倍的提升,因此现在的单台 TGW-P4 就可以代替之前的数十台服务器,金山云能够在部署规模更低的 TGW 集群的基础上,实现特定的性能指标,从而节约成本。在线热升级提升系统可用性基于英特尔 Tofino 可编程交换芯片的 P4 switch 实现了热重启机制,底层数据面升级过程中能够满足电信级可用性要求,数据流量、协议流量可实现正常处理,这一过程中的流量中断小于 50ms47,提升了业务持续运营能力。具备长期演进能力金山云当前部署的 TGW-P4 硬件规格大大超出线上运行环境的表项条目,能够支撑更大规模的转发请求。而且通过采用流水线折叠、芯片升级,硬件规格还有 2-3 倍的扩展空间48。通过结合TGW 的分集群方案,能够彻底解决硬件规格问题。展望:Tofino应用生态加速网络能力提升基于英特尔 Tofino 可编程交换芯片的金山云运营商线路网络方案证明,该芯片有助于显著提升网关对于网络转发等负载的处理能力,提高吞吐量并降低延迟,同时显著降低运营商线路服务商在运营商线路集群建设方面的投入,帮助用户通过高速、高质量、安全的运营商线路网络实现云上云下的互联。例如,用户可以通过该方案,将本地数据中心和数据与部署于金山云上的业务进行互通,充分发挥云上云下基础设施的不同优势。目前,金山云已经在负载均衡、运营商线路网络等业务中,不断推动英特尔 Tofino 可编程交换芯片的创新应用实践,发挥其在加速网络能力方面的优势。未来,双方还计划在扩充连接表项等资源的存储能力、生产环境排障工具等方面进行进一步创新,协同构建更加成熟的 Tofino 应用生态,帮助企业加速数字化转型。47、48 数据援引自金山云内部测试结果。48云与数据中心基础设施应用篇互联科技深度融合英特尔 至强 可扩展平台,实现混合云平台的跨越式升级挑战:运营商线路网络转发带来巨大性能压力新兴技术在为企业带来全新的可能性的同时,也带来了利用企业数字化转型达到更好成果的不断调整。在这一进程中,如何帮助企业用好云、管好云并释放云的技术红利是云服务商面临的重要挑战。世纪互联业务在高速增长的同时,其互联科技混合云架构在支撑整个集团业务发展的过程中,也面临以下几个挑战:第一,能耗问题。世纪互联集团致力于打造低碳高效的商用 IDC 环境,互联科技混合云平台希望在不同的业务负载情况下,能有更智能和动态的模式来保持性能要求并相对节约能耗;第二,性能问题。随着混合云业务的增加,比如云原生、对于平台性能的要求越来越高,平台时常出现性能瓶颈,不能对多样的业务需求提供有力支持;第三,成本问题。集团业务的增加,需要实现虚拟机的大量部署,从而造成了集群的内存一直处在高负载状态,且单纯扩充 DRAM 会造成成本高昂,对整个平台运营成本带来大的挑战;第四,可靠性问题。互联科技多数业务基于 VMware 底层对外提供服务,2021 年上半年统计角度来看有比较高的几率出现内存 CE 错误、内存 UCE 错误,更严重者可能会出现 Esxi 宿主机出现紫屏宕机的情况,严重影响云平台对外提供服务底层的稳定性及可靠性。第三代英特尔 至强 可扩展处理器(Ice Lake) 傲腾 持久内存200系列 助力互联科技高性能计算多样化方案互联科技长期以来与英特尔在新技术引入和使用方面有着深度和全面的合作。面对混合云平台面临的痛点,互联科技通过和英特尔携手,采用第三代英特尔 至强 可扩展处理器产品和加扩傲腾 持久内存等产品和解决方案,并根据不同的业务应用场景进行试验和测试,实现了整个平台的能耗、性能、可靠性以及成本等方面的优化,为后续推广和部署提供了数据支持和保证。时速云原本是一家专业的云原生应用及数据平台服务提供商,在 2021 年被 互联科技全资收购,目前产品主要通过英特尔底层硬件链接上层自然容器平台打造。随着业务增长,时速云 TCE(TenxCloud Container Enterprise)容器产品面临的性能瓶颈愈加凸显,互联科技需要为时速云引入有更高计算能力、作为承载千行百业数字化转型的 IDC 厂商,世纪互联服务了超 6,000 家客户,秉持“让数字化简单易得”的理念,携手合作伙伴,持续深耕一体化数据中心的建设与布局,助力全国一体化大数据中心协同创新体系的构建,帮助各行各业加速实现数字化转型。4849云与数据中心基础设施应用篇更多核心线程数的高密度 CPU,来提升集群整体性能及业务能力。第三代英特尔 至强 可扩展处理器云优化系列 CPU 针对云使用场景进行了硬件级别的优化。本次互联科技选定英特尔 至强 铂金 8352V 处理器进行了验证,选择的原因主要是在价格最优的情况下,英特尔 至强 铂金 8352V 处理器可以提供更多的核心数和线程数,提供更强大的资源能力,更适用于云环境的 TCO 标准。互联科技通过测试 CPU 计算能力和并行能力展示了这款 CPU 在容器场景下的测试验证效果。测试一:以容器方式跑 sysbench,测试 CPU 计算能力(越大越好)测试二:采用 LoadRunner 模拟操作用户对应用发起并发测试(越大越好)经测试对比,8352V 高性能机型比标准机型在单位时间计算能力有 50p%提升。在目前使用较多的 4 Threads 和 8 Threads 场景下,性能的增长满足业务要求,且 TCO 的增加差异在客户可接受范围内,互联科技已经将 8352V 推荐在客户的高性能计算业务场景使用。在整机 TCO 提升 24%的情况下,内存容量得到 9 倍提升,读性能提升 1.5 倍左右。受 BPS 带宽较低(相较 DRAM)影响,写性能降低到 80%之间,尚在可接受范围内。核心数列表价2 Threads4 Threads8 Threads16 Threads8352V36$3,450$96 7971,7763,3465,9885318Y24$1,273$53 5321,0632,1234,0241810789%机型8352V机型8353V机型8354V机型LoadRunnerLoadRunnerLoadRunnerLoadRunnerLoadRunnerLoadRunner100200400100200400TPS1,1502,2944,1901,5703,3804,889CPU平均使用率57s06U%经对比测试,8352V 机型与标准机型做同样并发数压力测试,8352V 机型有较多 CPU 空闲率,且 TPS 有将近 50%的提高。尤其是在高并发数 400 的测试下,5318Y 已经达到瓶颈,而 8352V 凭借着更多资源调度能力,CPU 并未跑满,还可以继续提供更多服务。互联科技验证了 8352V 机型凭借更多的资源、更强的性能可满足高性能密集型业务需求,相比标准机型,对关键业务性能有显著提升。在互联科技完成收购时速云后,8352V 机型也能够满足时速云产品提供更高性能且高竞争力的产品的需求,可为客户侧新基建提供行业领先的云原生产品、专业成熟的解决方案和服务能力,为客户数字化转型的全生命周期提供强大动能。傲腾 持久内存助力互联科技打造低成本多样化方案互联科技目前 Level DB 集群 CPU 平均尚有约 25%的空闲,但内存基本处于持续满载状态,扩容需求很紧急。面对现有内存瓶颈,互联科技尝试了采用傲腾 持久内存 200 系列(Barlow Pass)产品进行扩容,实现了性能和 TCO 的平衡。整机价格内存容量overwritereadseqreadreverseoverwritereadseqreadreverseOptane PMEM$22,307 2.25TB85.84.946.752.1862.3379.7975.943.854.1773.4388$17,967 0.25TB106.26.952.459.1516270126849.663.1526.32431240q71wt70MTransactions(MB/S)0.1BTransactions(MB/s)越大越好50云与数据中心基础设施应用篇MEMORYSTORAGEDRAMCAPACITY10s GB100s GB1s TB10s TB10s TB0.1 microsecondsIMPROVINGCapacity and PersistenceIMPROVINGSSD StorageIMPROVING1 microsecond10 microseconds100 microseconds page thresholdthreshold_interruptCMCICEHardware Platform(*Error*)MSMI CSMICMCIMCEedacEMCA2timerCDCLegacy MCAcecVMKVMQEMU-KVMVMQEMU-KVMOE over threshold16%8%6%4%2%0%Q1-Q2 季度末Q3-Q4 季度末越小越好49、50 如欲了解更多详情请访问:https:/ CPU FPGA PMEM 为底座,基于 LaoFe NDP 架构提供多元算力随着人工智能、大数据分析等数字化应用不断创新落地,各行各业对于算力的需求呈现出爆发式增长的趋势。赛迪顾问的先进计算产业发展白皮书显示51,随着数字技术向经济社会各领域全面持续渗透,全社会对算力需求预计每年仍将以 20%以上的速度快速增长。英特尔预计,全球的算力需求预计到 2025 年将提升 1,000 倍,四年内增加 1,000 倍,相当于摩尔定律的 5次方。但与此同时,算力供给的增长却无法跟上算力需求的脚步,导致算力瓶颈的出现52。要化解算力瓶颈,异构计算是一种重要的选项。异构计算主要是指使用不同类型指令集和体系架构的计算单元组成系统的计算方式,旨在针对不同的任务选择最优的计算架构,从而充分发挥各种计算架构的优势,协同完成复杂的工作任务。作为超 3 亿日活、日均千万级短视频上传、强调社区普惠的短视频 APP,快手推荐系统面临着巨大的性能挑战。目前快手推荐系统采用的是计算与存储分离的架构模式(如图 59 所示),推荐系统中的存储型服务主要是用来存储和实时更新上亿规模的用户画像、数十亿规模的短视频特征、以及千亿规模的排序模型参数。其中,参数服务器是一个容量和带宽受限的系统,需要支撑每秒数亿次的 KV 请求;计算型服务主要进行的是视频召回检索、推荐模型预估和推荐策略计算。KVS 加速 Prediction ServiceRetrieval ServiceParameter Server分布式索引 Index ServerRecommendationService图 59 快手推荐系统采用计算与存储分离的架构模式由于快手参数服务器的 KV 请求高达每秒数亿次,大规模查表会消耗大量CPU 资源,成为其性能的主要瓶颈,这也为快手通过异构计算来解决此类问题带来了契机:通过将负载卸载到专门优化的芯片上,将有助于消除性能瓶颈,在吞吐量与延时方面实现显著的改善。51、52 如欲了解更多详情,请访问:https:/ 60 快手 LaoFe NDP 异构计算架构图 61 加速后的方案图 62 KV 引擎结构近数据处理(NDP)方案在 Server 机器上安装一个或多个FPGA 加速卡,基于流水线的方式实现三重加速:网络加速、存储加速、计算加速。通过将各个关键操作卸载到FPGA实现后,使得 CPU 只负责一些维护和设备状态管理,工作负荷减轻;进而可将 CPU 剩余算力用作其他业务场景(更适合 CPU 做的场景,例如网页服务、流媒体服务等),或用低端的 CPU 去做管理和维护,降低 CPU 的采购成本。网络加速模块将 CPU 处理的网络收发请求卸载到 FPGA 端运行;网络请求可能是一个查表请求,可能是一个计算请求,也可能是先查表后计算的请求。解决方案:LaoFe NDP异构计算架构在英特尔平台上得到最优执行为了满足内容生产、内容理解、内容分发、内容消费、用户互动等过程中的多元算力需求,快手打造了可提供异构加速选项的LaoFe NDP 架构。LaoFe NDP 通过计算体系结构创新、软硬一体化、领域专用加速器设计,通过网络、存储、计算三重加速来提供低延迟、高并发、高吞吐、低 TCO 的基础资源。网络加速将 CPU 收发网络数据操作,卸载到 FPGA 上。Client 发送的请求包直接发送给 FPGA。相比 gRPC 基于 TCP/IP(网络协议栈),功能过于复杂,性能和延时方案无法保证。基于 FPGA 实现了一套 SD-RDMA 协议(Software defined Remote Direct Memory Access),通过应用层添加字段的方式,保证了类似 gRPC 的可靠性传输,同时请求延时大幅降低。Req 包:存储加速将 CPU 存储操作卸载到 FPGA 上,基于通用 KV 存储场景定制了一套易于 FPGA 访问的 KV(Key-Value)引擎,可以最大程度发挥 FPGA 的能力,KV 查表的吞吐相比 CPU 方案提升 5倍以上53。FPGA 通过 PCIe 访问 KV 数据,通过 Hash 查表完成数据索引,得到对应的 val 数据。53 如欲了解更多详情,请访问:https:/ Key2 keyNUDP SD-RDMA sumpoolingSD-RDMA Ethernet_HeaderpayloadUDP/IP0 x1111Op_codeKV1KV2 KVNUDP sumpoolingsort Resp 包:Distributed Hash-based KV EngineSupport Storage HierarchyHW Accelerated AccessPut/Get SeperationDomain CustomizationHigh Performance ProgrammableAgility with DSLLow Latency and JitterHigh bandwidth100G x2Light-weight network stackReliable transmissionIntegration friendlySD-RDMA protocolGraphComputingMachineLearningmlpASRreductionDeepLearningDSA CompilerDDRSSDOptane PMemLaoFe NDPIn Network and Near Storage ComputingHardware/Software Co-designStorageComputationNetworkClientREQClient集群Client集群REQREQServer集群Server集群FPGA近存储网络卸载存储卸载计算卸载gRPC请求CPU OnlyCPU存储计算现有方案NDP加速方案DSA代替CPU做计算管理、维护等远端算力充足,后续计算下放到存储端;减少数据搬移,节省网络带宽自研SDRDMA协议传输简单高效FPGA硬件KV引擎加速存储操作RESPRESP后续计算SDRDMA存储(KV)后续计算计 算Hash TableHash TableHash TableValue TableValueAddr8BytesRingBufferOffset BOffset AOffset CNUMA0PClePCleNUMA1CPU0CPU1DDRDDR/AEP/SSDVal TableFPGA0Offload LookUPOffload LookUPFPGA1Val TableDDR/AEP/SSDDDRHash OffsetHash functionVal Addr.BKey AValue AKey BValue BKey CValue CVal Addr.AVal Addr.C存储加速模块在网络模块的下级,负责查表操作。计算加速模块在存储加速模块的下级,负责计算(具体的计算类型在请求包里面定义)加速。54云与数据中心基础设施应用篇 计算加速领域专用处理器(DSA)是一类针对特定领域量身定制的处理器,它针对特定领域可编程,同时在特定领域问题处理上能带来显著性能和效率提升。典型的领域专用处理器包括 GP 和 DSP(Digital Signal Processor),各类面向深度神经网络加速设计的硬件基本也属于领域专用处理器,比如 Google 的 TPU 等。通过 DSA 的方式将计算操作卸载到 FPGA 上,实现了一个领域专用处理器。相比通用处理器,领域专用处理器能获得更高性能和效能:更为有效的并行处理方法、更高 效的内存层次结构、定制化的执行单元,且具备软件可编程特性,在确保性能和效率的同时也兼顾了灵活性,对常用的计算操作都可以很好支持。对于用户而言,可以使用领域专用语言(Domain Specific Language,DSL)进行编程,典型 DSL 包括针对 DNN 的TensorFlow等,可通过DSL去定义某个具体的计算过程(例如:TOPK、点积计算、余弦距离、卷积等)。近存储计算通过计算加速使得 Server 端算力大幅提升,Client 端请求涉及的计算操作均可以在 Server 端完成(例如,TOPK 计算,受限Server 负载过重,将该计算放到 Client 端来做),后续计算过程可放到 Server 中,Client 端直接获取计算后的结果。由于不用再传输中间数据,极大降低了网络带宽。快手LaoFe NDP架构如图63所示,其打造了支持SSD/英特尔 傲腾 持久内存/DRAM 内存、基于 hash 的 Key-Value 存储引擎,能够有效加速存储性能;在计算端,快手 LaoFe NDP 可支持面向机器学习/深度学习和大数据场景等领域的专用异构处理器,实现更有效的并行处理、更高效的内存层次结构与定制化的执行单元;在网络端,快手 LaoFe NDP 通过自研的 SD-RDMA 远程直接内存访问来实现可靠的网络传输,以及流量控制、拥塞控制功能,提供了 100G 高速网络支持。图 63 快手 LaoFe NDP 架构图快手 LaoFe NDP 架构通过在 Key-Value 存储引擎支持英特尔 傲腾 持久内存,能够提供更具性价比的存储选项。英特尔 傲腾 持久内存是一种颠覆传统的持久内存,集高速、高性价比、大容量、持久数据保护和高级加密等优势于一体,并提供了内存模式(Memory Mode)和应用直接访问模式(App Direct Mode)两种模式。在内存模式中,它提供有 128GB、256GB和 512GB 容量,与普通的易失性系统存储器完全一样,但成本更低,能在稳定的系统预算中实现更高容量。在内存模式下,英特尔 傲腾 持久内存可作为经济高效的DRAM 替代品。CPU 内存控制器会把持久内存视作易失性的系统内存,表现与 DRAM 类似,同时 CPU 内存控制器会将DRAM 内存用作持久内存的高速缓存。该模式能够提供更大的内存容量,但在这种模式下,数据访问请求会先在 DRAM 内存上检查是否命中,如果命中缓存,数据直接从内存中获取,延时与DRAM相同;如果没有命中缓存,会再到持久内存上进行访问,这会带来更多的 I/O 开销并增加延时,总延时是 DRAM 内存和英特尔 傲腾 持久内存的总和。在快手 Key-Value 存储引擎中,快手针对英特尔 傲腾 持久内存的特性,对分布式索引和参数服务器中的 KV 存储进行了重新设计。基于异构存储的索引系统几乎达到纯 DRAM 的索引系统相同的性能指标,但成本降低 30%。同时异构存储的索引系统能够提供分钟级的故障恢复速度,比之前小时级的恢复提升了百倍速度54。在计算端,快手 LaoFe NDP 架构能够充分发挥英特尔 至强 可扩展处理器、英特尔 FPGA 以及 GPU、ASIC 等异构芯片的处理能力。其中,英特尔 FPGA 提供了富于弹性的可编程硬件能力,特点在于延时低且可精确控制,单位算力功耗低、片上内存大,较适合于延时要求高、批处理(Batch)比较小、并发性和重复性强的应用场景。54 如欲了解更多详情,请访问:https:/ ComputingMachine Learning DeepLearningOthersMLP LSTMReductionCompressionEncryptionDecryptionStorageLaoFe insideNetworkKV EngineLaoFe RuntimeTool chainDRAMDSAAcceleratorManagerDDRSSDOptanePMemCPUMemory55云与数据中心基础设施应用篇图 64 英特尔 傲腾 技术创新 两级内存/存储图 65 FPGA based KVS 方案架构实践:LaoFe NDP架构在大规模推荐场景的应用实例如上文所述,快手推荐系统面对存储和实时更新上亿规模的用户画像、数十亿规模的短视频特征,以及千亿规模的排序模型参数,性能压力极大。通过研究快手发现,查表等过程所带来的网络包处理、KV 请求通常会导致 CPU 负载过高,成为关键的性能瓶颈,而此类的场景属于典型的并发性、重复性强的应用场景,将此类负载卸载到 FPGA 上处理,将有助于提升性能。因此,快手在推荐场景的参数服务器中使用了 LaoFe NDP 架构来加速英特尔 Stratix 10 FPGA,构建了 FPGA based KVS(Key-Value Store)方案,支撑推荐参数服务数以亿计次的KV 请求。KVS 解决方案是基于 Hash 的内存 KV 引擎,通过软硬件结合的设计和实现,相比传统 CPU 方案有数倍的 KV 吞吐性能提升,同时请求延时大幅改善。Cluster&ServiceManagerRECO InferenceEmbedingServerKV PUTServerClusterShard 0KV GetServerClusterShard 1ServerClusterShard 2ServerClusterShard.ServerClusterShard KServicediscoverClient ClusterDDR NUNA0LOOKUP ENGINESD_RDMA ENGINESD_RDMA ENGINELOOKUP ENGINEValue TableCPU0 CPU1NICNICKEY-FPGA_NICmappingSDRDMAlibraryGPUNICNICMEMKVkv putkey reqkey reqval respval resp100G100Gkv putHash TabeValue TableValue TableDDR NUNA11-M112233MN1-NServiceregisterPCleIDCNetworkPCleKuaiShouKESSServiceTrainingServer ClusterDataShardingMessageQueue ServiceTRAININGHOSTFPGA S10FPGA S1056云与数据中心基础设施应用篇此外,快手还进行了针对性优化:在网络层面,快手采用自研的SD-RDMA 协议,进行了 UDP 传输封装,加入特定的字段提升传输的可靠性,并通过拥塞控制等技术,使得延迟比 CPU 方案降低 70%-80U;查表设计则是基于哈希的 KV 引擎,并通过 PCI-E 直接访问内存中的数据,进一步提升吞吐量。实际测试证明,这一解决方案实现了如下优势:系统吞吐显著提升、延时显著降低:通过将负载从 CPU 卸载到 FPGA 中,并采用 Hash 表查找优化、随机访存、读写分离等方式,快手将单节点参数服务器的吞吐性能提升了5-6倍,整体请求延时则降低了 70%-80V,这也有助于提升上层应用的实时性,提供更佳的用户交互体验;更好地控制 TCO 的增长:由于 FPGA based KVS 方案能够在单节点服务器中提供远超传统方案的吞吐性能,因此快手仅需要部署少量的服务器就能够满足特定的性能指标要求(替代比可达 1:5),从而降低参数服务器的 TCO;降低性能抖动:基于 CPU 的软件方案常常需要进行高频率更新,在进行查表时往往会有性能抖动。而通过 FPGA 来处理该负载,能够有效地降低性能抖动。图 66 吞吐性能对比(越高越好)与延迟对比(越低越好)5755、56、57 性能数据援引自快手内部测试结果。测试配置:双路英特尔 至强 金牌 5218R 处理器 2.10GHz,512G 总内存(8*64G DDR4 2933MHz),1*480GB 2.5SATA 固态硬盘,1*2TB 3.5SATA 机械硬盘,1*25Gb 双端口,英特尔 FPGA PAC D5005。01236CPUFPGA以CPU45CPUFPGA以CPU00.20.40.60.811.2CPUCPUCPUCPUFPGAFPGA57云与数据中心基础设施应用篇图 67 新一代传输层协议 QUIC图 68 采用 HTTP/3 的网站比例58 数据援引自:https:/ 基于英特尔 QAT 加速云安全网关 HTTP3-QUIC,显著降低网络时延现有互联网技术基于 TCP/HTTP 机制,在移动互联网业务快速的发展下面临诸多挑战,例如对交互式通信的低延迟支持、用户数据的安全和隐私,以及新传输机制的开发和部署。因此,QUIC 应运而生。QUIC 是一种新的传输协议,结合了类似于 TCP 的拥塞控制和丢失恢复特性,同时提供了更丰富的信令能力。此外,QUIC 通过为连接设置提供更少的 RTT(Round-Trip Time)来减少网络延迟。QUIC结合了 TLS 1.3 的密钥协商功能,要求对所有连接进行加密。强制加密不仅是为了确保用户数据的安全性和隐私性,也是为了防止中间盒篡改数据包信息。HTTP/3 是针对 QUIC 而设计的,所以它可以利用QUIC 协议所带来的所有优势。由于 QUIC 协议提供了许多改进,提升了网络传输的性能,在连接延迟、可靠性、用户空间堵塞控制等方面都有着强大的优势,因此,越来越多的 Web 应用开始从 TLS 迁移到 QUIC,驱动基于 QUIC 的HTTP/3 使用量的不断增长。根据 W3Techs 的统计,截止到 2022年 5 月 13 日,已经有 24.9%的网站使用了 HTTP/358。25201510501 May21Usage of HTTP/3 for websites,13 May 2022,W3T1 Jun1 JuI1 Aug1 Sep1 Oct1 Nov1 Dec1 Jan221 Feb1 Mar1 Apr1 MayHTTP/2HTTP over QUICMultistreamingTLS1.3 key negotiationflow controlcongestion controlQUICTLSTCPUDPIPuserspaceuserspacekernelspacekernelspaceBoringSSLis a fork of OpenSSL58云与数据中心基础设施应用篇对于希望将 Web 应用迁移到 QUIC 的用户而言,QUIC 在带来了诸多优势的同时,也意味着在可移植性、易集成性、兼容性、性能等方面的诸多挑战。以性能挑战为例,QUIC 和 TLS 相似,在连接建立阶段的密钥协商会消耗大量的 CPU 资源。在连接建立阶段,服务器和客户端会建立会话密钥,但是这一握手消息通常会采用非对称密钥来进行加密,因此需要更多的计算能力。由于数据加解密消耗了大量的 CPU 资源,为了确保 Web 应用的 QoS 不受影响,互联网服务提供商常会被迫加大在服务器资源方面的投入,但是这种方式显然会带来巨大的成本压力。为应对这一挑战,OPPO 数智工程系统安全与隐私团队另辟蹊径,与英特尔合作采用英特尔 Quick Assist Technology(英特尔 QAT),在硬件层面实施加解密计算的软件卸载,提升 HTTP3-QUIC 的并发短连接处理能力,提高运营效益。解决方案:OPPO 基于英特尔 QAT加速 HTTP3-QUIC为了充分利用 QUIC 技术带来的业务优势,OPPO 数智工程系统安全与隐私团队在统一接入层的前端构建了基于 nginx 定制化的安全网关,增加了配置管理能力和 WAF 能力,优化了 TLS卸载能力,也支持了 QUIC 协议。为了解决 QUIC 引入后带来的加解密性能问题,OPPO 使用了英特尔 QAT 来进行加速。如图 69 所示,OPPO 的统一接入层包含了四层网络负载均衡和七层应用负载均衡(安全网关)。四层网络负载均衡对 TCP或 UDP 数据包进行调度;七层应用负载均衡作为接入业务后端服务的最后一道网关,接收客户端请求(作为服务端)并且保障网络安全。在传统的 HTTP1/2 业务处理中,安全网关中的TLS 握手卸载基于 OpenSSL 实现,建连阶段的 TLS 握手使用RSA 非对称加密算法。传统方案通常采用同步操作模式来进行处理,这一模式会强制单个 API 调用处于阻塞状态,直到请求完成。当并行处理实体是执行流的一部分时,有时处理器处于闲置状态,这将导致资源的浪费。当在此 API 下使用单独的加速器时,应用程序可以在等待来自加速器的响应时执行繁忙循环,或者使用类似于pthreads 的执行模型进行上下文切换,以允许在等待时完成其他有用的工作。然而,这两种解决方案都会消耗较多的资源。为解决上述问题,英特尔在 nginx 中引入了异步 HTTPS 连接异步卸载机制,显著提升了系统并发连接处理能力。基于 async-mode-nginx 参考设计,OPPO 在安全网关中使用英特尔 QAT加速卡卸载 RSA 非对称加密负载,提升服务器的整体性能。英特尔 QAT 是英特尔针对网络安全和数据存储推出的硬件加速技术,专注数据安全和压缩加速,助力应用程序和平台的性能提升。在网络安全应用方面,英特尔 QAT 支持多种对称数据加密(如 AES)、非对称公钥加密(如 RSA、椭圆曲线等)和数据完整性(SHA1/2/3 等)算法,加速数据的加解密和数字签名等操作。此外,英特尔 QAT 加速卡针对 nginx 进行了适配,使其可以用异步的方式调用加速卡。nginx 是一个高性能的 HTTP 和反向代理Web服务器,同时也提供了IMAP/POP3/SMTP服务。通过启用异步模式,nginx 能够通过并行处理减少等待,使得消耗更少的系统资源就能达到所需的性能,缩短应用响应时间。英特尔 QAT 还具备强大的压缩加速能力,提供了由英特尔 QAT 加速的同步压缩 API,支持无状态并发压缩/解压模式、基于英特尔 QAT 异步 API 的流水线处理模式、线程安全压缩API 以及零拷贝模式,能够将多个小数据压缩/解压请求整合到一个英特尔 QAT 硬件请求中,以达到降低 CPU 使用率和提高吞吐量的目的。OPPO 安全网关基于 nginx 进行了自研定制化,继承了 nginx的异步设计特性。但是主流 QUIC 协议的加解密引擎基于BoringSSL 开发,当安全网关支持 QUIC 后,加解密运算库切换到 BoringSSL,传统的基于 OpenSSL 的英特尔 QAT 加速方案不再适用。图 69 OPPO 统一接入层架构nginxNetWork Load BalanceUsersDPVSDockerApplication Load Balance nginxDPVSSecure Gatewaybackend service59云与数据中心基础设施应用篇图 71 OPPO 安全网关使用英特尔 QAT 进行加速图 72 TCP(HTTP2,TLS1.3)在 CPU 和英特尔 QAT 上的性能比较61 图 70 英特尔 QAT 能够有效地加速多种协议的加解密负载针对该问题,英特尔提出了新的解决方案,采取了加解密库的英特尔 QAT 加速适配,以及 QUIC 协议栈和英特尔 QAT 引擎的异步化等一系列措施。通过这些优化,OPPO 能够在一台Web 服务器中并发进行 TLS12/TLS13/QUIC 加速,在统一的英特尔 QAT 引擎库中实现对 OpenSSL、BoringSSL 多种SSL 库的支持,从而很好地满足了 OPPO 安全网关的加速需求。由于英特尔 QAT 提升了单服务器节点的性能,OPPO 得以在不增加服务器集群、不对现有系统环境进行颠覆式更新的前提下,满足更多 Web 业务对于加解密性能的要求,数据中心基础设施的 TCO 也得到了有效控制。OpenSSL libcrypto EVP API OpenSSL libssl Engine API Intel QuickAssist Technology Firmware QAT FW Host Interface QAT Driver User Space Kernel Space App,e.g.nginx SSL API Intel QuickAssist Technology User Space Library Intel QAT API QAT Engine BoringSSL libcrypto EVP API BoringSSL libssl App,e.g.nginx-quic SSL API Private Key Method 0200040006000800010000120001400016000180001C2T2W2C4T4W3C6T6W4C8T8WTCP(HTTP2,TLS1.3CPU QAT 59 如欲了解更多详情请访问:https:/ 60、61、62 测试数据援引自 OPPO 于 2022 年 6 月开展的测试。测试配置:双路英特尔 至强 金牌 6330 处理器,512 GB 总内存(16*32G DDR4),480GB SATA 固态硬盘,6.4TB 英特尔 固态盘 P4610,25G 网卡,CentOS Linux release 7.6,Linux3.10.0-1160.31.1.el7.x86_64 x86_64,QAT1.7.L.4.14.0-00031,GCC 7.5.0,QAT_Engine v0.6.6 BSSL support。英特尔井不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。验证:实现 3-4 倍左右的提升59 为了验证英特尔 QAT 所带来的 QUIC 性能提升,OPPO 进行了测试,数据如图 72 和图 73 所示。测试数据显示,在不同代际的英特尔 至强 可扩展平台上,英特尔 QAT都表现出了相对于软件加速方案的巨大性能优势,TLS 性能提升可达 4.05 倍,QUIC 性能提升可达 3.01 倍60。020004000600080001000012000140001C2T2W2C4T4W3C6T6W4C8T8WCPU QAT QUIC(HTTP3,QUIC-TLS图 73 QUIC(HTTP3,QUIC-TLS)在 CPU 和英特尔 QAT 上的性能比较62这一方案还具备另一优势,那就是具备长期演进能力,将会支持全系列英特尔 QAT 加速器和 CPU 中的 Crypto-NI 技术,来满足 TLS12/TLS13/QUIC 后续版本在不同硬件平台上的性能优化需求。此外,在 OPPO 其他的加解密场景中,英特尔 QAT也有助于进一步提升性能与经济性等方面的表现。而这一成功实践,也将推动英特尔与 OPPO 等伙伴进行更加紧密的合作,实现相关技术堆栈的优化,促进 HTTP3-QUIC 生态的繁荣。IntelQuickAssistTechnologyIntelQuickAssistTechnologyAPI gatewayCacheLoad balanceWAFTLS HTTP1/2nginx-quicQUIC HTTP360应用篇云上AI加速云上 AI 加速应用篇6061应用篇云上AI加速伴随全球数字化进程的加快,人工智能已成为引领未来世界发展的关键技术,政府部门、科研教育机构、科技企业及专家学者纷纷加入到推动人工智能产业发展的进程中,也驱动着人工智能技术与产业融合程度不断加深,为社会经济高质量发展提供强劲的新动能。IDC 发布的 2022 年 V2 版全球人工智能支出指南显示,2021 年全球人工智能 IT 总投资规模为 929.5 亿美元,2026 年预计增至 3,014.3 亿美元,五年复合增长率(CAGR)约为 26.5%;其中,至 2026 年中国AI 投资规模有望达到 266.9 亿美元,全球占比约为 8.9%,位列全球单体国家第二63。在中国,政策激励是加速人工智能应用落地的关键因素之一。在过去几年里,政府部门陆续推出了近 20 项政策,从人才培养、技术创新、标准监管、行业融合和产品落地等多个方面推动人工智能发展,这些政策为人工智能的发展创造了巨大的空间;“十四五”规划纲要更是把人工智能纳入前瞻性、战略性的国家重大科技项目,把培育壮大人工智能作为加快推动数字产业化以及产业数字化转型的重要支撑,实施“上云用数赋智”行动,以及工业互联网平台赋能数字化转型提升试点等项目,驱动智能交通、智慧物流、智慧能源、智慧医疗、智能制造等产业应用场景的快速构建,并让人工智能发展除了重视技术创新以外,还更加关注工程实践和可信安全,牵引人工智能产业迈向新的阶段64。场景化应用加速,并注重工程实践近年来,AI 发展的一大显著特征是,越来越多的 AI 应用不再局限于技术创新,而是更多地落地于实际行业之中。有分析指出,推进新基建,发展数字经济等持续利好政策,正推动企业把智能化转型作为未来几年的工作重点,继续加深在智能决策、MLOps/AIops、对话式 AI、RPA AI、边缘智能、超大预训练至强内置 AI 加速,驱动云上智能提升千行百业生产力图 74 中国人工智能市场支出预测模型等方面的尝试,加快 AI 技术在具体业务场景中实现落地,推进更多创新型应用实践。与此契合,中国信通院人工智能白皮书(2022 年)在谈到未来人工智能将更加注重工程实践这一主题时明确指出,随着人工智能与云计算、大数据等支撑技术的深入融合,围绕着数据处理、模型训练、部署运营和安全监测等各环节的工具链不断丰富,以 MLOps 为代表的自动运维技术受到越来越多的关注,并且随着工程实践能力的不断提升,人工智能落地应用和产品交付也将会更加便捷、高效65。从行业应用看,人工智能技术赋能已经呈现广泛分布之势。据在第六届世界智能大会发布的中国新一代人工智能科技产业发展报告(2022)显示,作为通用目的技术,AI 赋能广泛分布在19个应用领域,至2021年排名前六的领域分别是企业智能管理、智慧城市、智能营销与新零售、智能制造、智能网联汽车和智能金融,占比超过 50f。预计到 2025 年,超过 60%的中国企业将通过人工智能、机器学习、自然语言处理(Natural Language Processing,NLP)和模式识别等技术,实施智能预测与决策,提升员工工作效率和企业生产力67。例如,人工智能与相关技术结合,可优化制造业各流程环节的效率,通过工业物联网采集各种生产资料,再借助深度学习算法处理后提供建议甚至自主优化;金融业与 AI 的结合在创新智能金融产品、提升金融服务效率、加强风险防控能力等多个方面已有较成熟的应用路径和方法,并普遍应用于智能身份验证、智能反欺诈等领域。63 数据援引自:https:/ 中国信通院,人工智能白皮书(2022 年)65如欲了解更多详情请访问:http:/ 数据援引自:https:/ 数据援引自:https:/ 2022 2023 2024 2025 2026中国人工智能(AI)市场规模YoY单位:百万美元62应用篇云上AI加速云边端需求凸显,AI 上云进程提速随着人工智能与各个行业的深度融合,人工智能边缘端和终端设备正在得到越来越广泛的应用,以便实现算力、敏捷性、成本等方面的平衡。其中,作为 AI 基础技术领域里的集大成者,云平台可以对算法中庞大的数据处理进行速度上的优化,可以让框架搭载在其之上实现互通等平台之外难以实现的操作。大型企业搭建平台便于自己业务的拓展,而中小型企业则可以利用这些平台省去研发和硬件上的巨额开销。部署于边缘端的 AI 应用则能够就近提供网络、计算、存储和应用,将 AI 工作流的推理部分从云或数据中心转移到就近部署的边缘计算终端,从而降低延迟,节约网络带宽,同时满足隐私性和安全性等方面的要求。随着AI/ML 等技术快速发展,更多的技术创新和模式创新将围绕边缘场景进行迭代优化,边缘计算也将成为驱动全球企业级基础架构市场增长的重要力量68。此外,为应对日益复杂的 AI 任务,神经网络模型体量暴增,对服务器的储存和算力要求也水涨船高,同时带来了高成本、低效率等问题。而轻量化人工智能(Tiny AI)正以低内存和低计算量需求等优势,推进人工智能在端、边等资源受限场景下的应用。伴随 AI 在边、端应用的扩展,无论是应用开发还是管理与运维也将遭遇新挑战,例如边端设备繁杂不易适配,带来的运维管理难度增加,需要平台通过模型压缩、自适应模型生成等技术,实现边端设备的模型适配和部署,以及通过对编译优化、中间表示等的设计和配置,实现云边端设备的协同管理和运维。AI 应用持续演进,需要基础设施实现多维度突破人工智能的创新与应用主要依赖于三个因素:算法、算力与数据。其中,算力是AI应用得以高效运行的基础能力。AI框架、算法模型、深度学习模型训练、深度学习推理等无不依赖于高性能、高敏捷性、高可扩展性的AI基础设施。目前,AI应用规模不仅快速扩张,AI 模型的复杂度、参数量也在不断提升。2020 年,OpenAI 推出了具有 1,750 亿参数的自回归语言模型 GPT-3,这个数字比以往任何非稀疏语言模型都多 10 倍69;距 GPT-3 问世不到一年,更大更复杂的语言模型,即超过一万亿参数的语言模型 Switch Transformer 也已问世。AI 模型规模与复杂度的上升,无疑意味着对算力的更高要求,而承载AI的新型算力基础设施的供给水平,将直接影响 AI 创新迭代及产业 AI 应用落地,持续提升单点算力、算力定制化与多元化成为基础算力发展的重要趋势。在此背景下,强化 AI 基础设施建设、提升 AI 算力,已经成为政府和产业界的重要共识。2020 年,中国国家发展和改革委员会首次明确“新基建”范围,将智能计算中心作为算力基础设施的典型代表纳入信息基础设施范畴。2021 年,国家发改委又提出实施全国一体化大数据中心建设重大工程,构建新型算力网络体系。2022年2月,国家发改委等部委联合,正式启动“东数西算”工程,全面构建数据中心、云计算、大数据一体化的新型算力网络体系。有研究指出,人工智能产业的发展正在从算法走向算力70,也让能够更好地汇聚和共享算力、数据、算法资源的算力网络,成为推动人工智能技术发展和深化应用的新范式。在此进程中,除了 AI 应用所需要获得的算力提升之外,边缘端的 AI 算力需求也清晰呈现,其支撑着边缘 AI 推理等重要的应用负载,提供了轻量级、灵活度高、时延低的 AI 算力选项,对于产业智能化的作用也不容小觑。但是,优化 AI 基础设施之路并非一帆风顺,需要从计算、内存、存储、网络等多个方面入手,化解一系列重要挑战:从 AI 计算的架构选择来看,虽然 GPU 是进行 AI 训练、推理等任务的重要选择,但并非唯一选择。与 GPU 相比,CPU 在采购成本、获取难度等方面有着重要优势,而且 GPU 通用性有限,仅能用于定制的 AI 运算,平时难以进行利用。使用 CPU 服务器可有效利用空置资源,通过Kubernetes 等弹性资源调度分配给其它应用。另外,AI 算法有较强的批处理属性,人为交互少,可以允许损失一部分处理时间而不影响用户体验;从内存与存储系统来看,AI 依赖于对于海量的结构化和非结构化数据的处理,不仅需要海量的内存池与存储空间,还对于吞吐量、时延有着较高的要求,特别是在超大实时动态图分片等场景中,内存与存储的容量、性能可能成为较大的瓶颈。此外,随着面向 AI 开发与应用的内存与存储规模的增长,企业也需要寻求 TCO 更低、经济性更佳的内存与存储系统建设选项。除了基础设施之外,AI 算法开发与部署也会带来挑战。AI 系统将会承载越来越多的复杂 AI 负载,甚至需要将多种不同类型的AI 算法组合在一起。在此趋势下,单一的 AI 架构已经难以满足需求,跨多个架构的 AI 应用将会成为常态。同时,越来越多的企业需要实现 AI 应用的跨硬件架构开发、部署与运行,以实现更高的敏捷性与灵活性。68 数据援引自:https:/ 数据援引自:http:/ 数据援引自:https:/ 另外,人工智能服务的革新依赖收集海量数据以促使算法升级,而数据使用、储存的安全和隐私保护未来将成为制约人工智能产业发展的瓶颈之一。在此背景下,通过联邦学习等方式来提升 AI应用的数据安全性也成为重要发展方向。英特尔 至强 可扩展平台为 AI 基础设施优化提供可靠支持英特尔 至强 可扩展平台是面向 AI 开发与应用的卓越平台,涵盖英特尔 至强 可扩展处理器、英特尔 傲腾 持久内存、英特尔 傲腾 固态盘、英特尔 以太网,以及 OpenVINO 工具套件等软硬件技术组合,不仅能够提供 AI 系统中不可或缺的通用计算能力,同时也是 AI 推理与部分 AI 训练任务的理想基础平台。提供面向 AI 优化的强大算力在通用算力方面,英特尔 至强 可扩展处理器一直基于针对众多工作负载类型和性能等级而优化的平衡架构,以内置的人工智能加速和高级安全功能等,在全球软件领先企业和解决方案提供商密切合作和深度集成的支持下,为数据中心基础设施的演进提供持续动力。第三代英特尔 至强 可扩展处理器加入了增强版英特尔 DL Boost,同时支持 16 位 Brain Floating Point(BF16)和矢量神经网络指令(VNNI),可有效加速人工智能推理和训练性能。其中 BF16 适用于特定型号的第三代英特尔 至强 可扩展处理器,在视觉、NLP 和强化学习(RL)等需要兼顾吞吐量和准确率的 AI 应用场景,可以提供更有效的训练与推理加速能力;而矢量神经网络指令能够充分提高计算资源的利用率,减少带宽瓶颈,从而加速推理工作负载71。结合 OpenVINO工具套件等经过英特尔 oneAPI 工具套件优化的软件,能够更大幅度提升推理性能,且精度损失在可接受范围内。图 75 英特尔 人工智能技术支持从边缘到云的人工智能图 76 英特尔 傲腾 持久内存释放数据潜能同时,最新的第四代英特尔 至强 可扩展处理器可提供更加卓越的整体性能,其内置的全新 AI 加速器英特尔 高级矩阵扩展(英特尔 AMX),能够帮助用户通过扩展通用至强 服务器平台,覆盖包括训练和微调在内的更多深度学习使用场景。AMX 是一个专用的矩阵乘法引擎,并已经过优化,基于行业标准框架,可提供相较于上一代深度学习训练模型多倍的性能。内置英特尔 AMX 的第四代至强 可扩展处理器在多个行业标准框架中为用户提供即时可用的性能,并集成了端到端的数据科学工具,以及来自生态伙伴广泛的智能解决方案。开发者仅需使用TensorFlow和PyTorch框架的最新版本,即可充分释放其性能。现阶段,英特尔 至强 可扩展处理器已经可以运行并处理全部AI 工作负载,能够更好地为云、数据中心、网络和智能边缘中广泛落地的 AI 应用提供强劲支撑。高性能、低 TCO 的内存与存储扩展选项如上文所述,AI 算法开发与部署会给内存与存储的容量、性能、成本等带来全方位的挑战。英特尔 傲腾 持久内存的价值在于,可以提供类似于 DDR 内存(DRAM)的性能,并且可以像SSD 那样持久地存储数据,同时比 DRAM 容量更大,价格也更为便宜,能够为 AI 应用提供高性能、低 TCO 的内存与存储扩展选项。英特尔 傲腾 持久内存 200 系列带来了更加优秀的性能表现,平均带宽提升了 32%,每路总内存可高达 6 TB72。71数据援引自:https:/ 更快 持久性 就地写入 内存 Intel 3D NAND?n?e?e?e?e?仅 CPU针对主流人工智能用例CPU GPU当计算以人工智能、高性能计算、图形和/或实时媒体为主时CPU 专用当计算以深度学习(DL)为主时64应用篇云上AI加速 降低 AI 创新门槛并提供更高的灵活性英特尔 至强 可扩展平台可支持用户在基于同一架构的平台或基础设施上完成数据预处理、分析到 AI 应用的全流程。用户可以使用 OpenVINO工具套件等经过英特尔 oneAPI 优化的软件,实现“一次编写、任意部署”的目标,并降低 AI 应用的开发门槛,缩短 AI 应用的上市时间。同时,源自英特尔此前对软件定义基础设施和云计算技术的大力投入,生态系统和客户的基础设施或云计算平台可以对其提供的计算、存储和网络资源进行高度自动化的管理,以及高度灵活的调配及扩展。经过实践验证的卓越 AI 应用表现目前,英特尔 至强 可扩展平台已经广泛应用于阿里巴巴、蚂蚁集团、火山引擎、美团、壹沓科技、搜狐、58 同城等企业的 AI 应用实践中,在加速行业的数字化变革方面扮演了重要角色。图 77 英特尔 AI 无处不在阿里巴巴火山引擎壹沓科技58同城美团搜狐蚂蚁集团英特尔与阿里巴巴 PAI 团队紧密合作,将英特尔人工智能技术应用到开源推荐引擎 DeepRec,针对算子、子图、runtime、框架层和模型等多个层面进行优化,充分发挥了英特尔软硬件优势,助力阿里巴巴加速内外部 AI 业务性能。蚂蚁集团携手英特尔,通过引入英特尔 SGX、英特尔 DL Boost 等先进技术和产品,在内存安全多进程用户态操作系统 Occlum 的基础上,合作搭建了隐私保护机器学习平台(PPML),新平台的推理流水线吞吐量得到了大幅提升,且安全性和数据效用性十分突出。火山引擎将英特尔 傲腾 持久内存引入推荐系统,为异构存储架构在推荐系统中的构建和运用进行了有意 义的探索,使用英特尔 傲腾 持久内存搭配英特尔 至强 可扩展处理器后,能够大幅提升其推荐系统IndexService 的存储性能,并且可以实现可观的存储投资收益。基于英特尔 至强 可扩展处理器,利用英特尔 AVX-512 及英特尔推荐的技术优化方案,美团从大规模稀疏参数支持、训练模式、分布式通信优化、流水线优化、算子优化融合等多维度,对推荐系统进行深度优化,使其分布式扩展性大幅提升。为帮助 Cube 系列产品采用 AI 加速创新,壹沓科技与英特尔、百度合作,采用百度飞桨(PaddlePaddle)与OpenVINO 工具套件,开发和优化推理模型,缩短研发流程,提升方案效能,不仅加快了产品上市速度,还充分发挥了硬件潜能,节约了 TCO。搜狐与英特尔合作,采用第三代英特尔 至强 可扩展处理器,结合 OpenVINO 工具套件等软件工具,显著优化其业务推荐系统的性能;并在 Nginx 服务器使用英特尔 硬件加密指令,提升了加解密负载性能能力,化解 HTTPs 在提升安全性的同时带来的巨大性能与 TCO 压力,并保证足够的敏捷性与扩展性。为了满足 Redis 与云搜系统对于内存的强劲需求,同时提升经济性,58 同城使用了基于英特尔 至强 可扩展处理器和英特尔 傲腾 持久内存的服务器,提供了低成本、大容量的内存业务场景解决方案,在满足 Redis 与云搜应用对于延迟等关键性能指标要求的前提下,显著降低了 TCO。英特尔AI无处不在TechnologyToolsSolutionsIntel Solutions MarketplaceXGBoostScikit-LearnPandasNumPy/SciPy&MoreStorageMemoryConnectivityGPUFPGAASICCPU加速AI性能在20 典型AI负载下提供卓越性能表现加速AI应用构建150 容器镜像帮助用户快速构建端到端AI数据应用加速AI落地200 一站式AI方案可选助力应用快速落地TechnologyToolsSolutionsIntel Solutions MarketplaceXGBoostScikit-LearnPandasNumPy/SciPy&MoreStorageMemoryConnectivityGPUFPGAASICCPUMulti-PurposeAI FoundationAI,TechnicalComputing,Media&GraphicsEdge DL InferenceData CenterDL Training(Gaudi)CPUGPUDedicatedW O R K L O A D B R E A D T HA I S P E C I F I C65应用篇云上AI加速阿里巴巴采用英特尔多样化硬件,构建开源稀疏模型训练和预测引擎DeepRecDeepRec 主要优势当前主流的开源引擎对超大规模稀疏训练场景的支持尚有一定局限,其中,性能难以达到业务需求的问题尤为明显。为解决问题,DeepRec基于 TensorFlow1.15 针对稀疏模型场景进行了深度定制优化,主要措施包含以下三类:模型效果:主要通过增加 EmbeddingVariable(EV)动态弹性特征功能以及改进 Adagrad Optimizer 来实现优化。EV 功能解决了原生 Variable size 大小难以预估、特征冲突等问题,并提供了丰富的特征准入和淘汰策略等进阶功能;同时,针对特征出现频次进行冷热自动配置特征维度问题,增加了高频特征表达力,缓解了过拟合,能够明显提高稀疏模型效果;训练和推理性能:针对稀疏场景,DeepRec 在分布式、子图、算子、Runtime 等方面进行了深度性能优化,包括分布式策略优化、自动流水线 SmartStage、自动图融合、Embedding 和 Attention 等图优化、常见稀疏算子优化、内存管理优化,大幅降低了内存使用量,显著加速了端到端的训练和推理性能;部署及 Serving:DeepRec 支持增量模型导出和加载,实现了 10TB 级别的超大模型分钟级别的在线训练和更新上线,满足了业务对时效 性的高要求;针对稀疏模型中特征存在冷热倾斜的特性,DeepRec 提 供了多级混合存储(可达四级混合存储,即 HBM DRAM PMem SSD)的能力,可在提升大模型性能的同时降低成本。英特尔技术助力 DeepRec 实现高性能英特尔与阿里巴巴 PAI 团队的紧密合作在实现以上三个独特优势中都发挥了重要作用,DeepRec三大优势也充分体现了英特尔技术的巨大价值:在性能优化方面,英特尔超大规模云软件团队与阿里巴巴紧密合作,针对CPU平台,从算子、子图、框架、runtime等多个级别进行优化,充分利用英特尔 至强 可扩展处理器的各种新特征,更大程度发挥硬件优势;为了提升 DeepRec 在 CPU 平台的易用性,还搭建了 modelzoo 来支持绝大部分主流推荐模型,并将 DeepRec 的独特 EV 功能应用到这些模型中,实现了开箱即用的用户体验。同时,针对超大规模稀疏训练模型EV对存储和KV查找操作的特殊需求,英特尔傲腾创新中心团队提供基于英特尔 傲腾 持久内存(简称“PMem”)的内存管理和存储方案,支持和配合 DeepRec 多级混合存DeepRec(PAI-TF)是阿里巴巴集团统一的开源推荐引擎(https:/ DeepRec 已支持淘宝搜索、推荐、广告等场景,并广泛应用于淘宝、天猫、阿里妈妈、高德等业务。英特尔自 2019 年以来就与阿里巴巴 PAI团队紧密合作,将英特尔人工智能技术应用到 DeepRec 中,针对算子、子图、runtime、框架层和模型等多个层面进行优化,以充分发挥英特尔软硬件优势,助力阿里巴巴加速内外部 AI 业务性能。66应用篇云上AI加速储方案,满足了大内存和低成本需求;可编程解决方案事业部团队使用 FPGA 实现对 Embedding 的 KV 查找功能,大幅提升了 Embedding 查询能力,同时可释放更多的 CPU 资源。结合 CPU、PMem 和 FPGA 的不同硬件特点,从系统角度出发,针对不同需求更加充分地发挥英特尔软硬件优势,可加速DeepRec 在阿里巴巴 AI 业务中的落地,并为整个稀疏场景的业务生态提供更优的解决方案。英特尔 DL Boost 为 DeepRec 提供关键性能加速英特尔 DL Boost 对 DeepRec 的优化,主要体现在框架优化、算子优化、子图优化和模型优化四个层面。英特尔 x86 平台 AI 能力演进-英特尔 DL Boost第二代英特尔 至强 可扩展处理器中引入了 DL Boost_VNNI,大幅提升了 INT8 乘加计算性能;第三代英特尔 至强 可扩展处理器之后,英特尔推出支持 BFloat16(BF16)数据类型的指令集,来进一步提高深度学习训练和推理性能。随着硬件技术的不断创新和发展,英特尔将在下一代至强 可扩展处理器推出新的 AI 处理技术,进一步提高 VNNI 和 BF16 从 1 维-向量到 2 维-矩阵的能力。框架优化DeepRec 集成了英特尔开源的跨平台深度学习性能加速库oneDNN(oneAPI Deep Neural Network Library),并 且 将oneDNN 原有的线程池修改,统一成 DeepRec 的 Eigen 线程池,减少了线程池切换开销,避免了不同线程池之间竞争而导致的性能下降问题。oneDNN 已经针对大量主流算子实现了性能优化,包括 MatMul、BiasAdd、LeakyReLU 等在稀疏场景中的常见算子,能够为搜广推模型提供强有力的性能支撑,并且oneDNN 中的算子也支持 BF16 数据类型,与搭载 BF16 指令集的第三代英特尔 至强 可扩展处理器同时使用,可显著提升模型训练和推理性能。在DeepRec编译选项中,只需加入“-config=mkl_threadpool”,便可轻松开启 oneDNN 优化。算子优化oneDNN 虽可用来大幅提升计算密集型算子的性能,但搜索广告推荐模型中存在着大量稀疏算子,这些算子的原生实现大部分存在一定的访存优化空间,对此可采用针对性方案实现额外优化。该优化调用 AVX-512 指令,只需在编译命令中加入“-copt=-march=skylake-avx512”即可开启。以下为其中两个优化案例。案例一:Select 算子实现原理是依据条件来做元素的选择,此时可采用英特尔 AVX-512 的 mask load 方式,如图 78左图所示,以减少原先由 if 条件带来大量判断所导致的时间开销,然后再通过批量选择提升数据读写效率,最终线上测试表明,性能提升显著;案例二:同样,可以使用英特尔 AVX-512 的 unpack 和shuffle 指令对 transpose 算子进行优化,即通过小 Block的方式对矩阵进行转置,如图 78 右图所示,最终经线上测试表明,性能提升同样十分显著。子图优化 图优化是当前 AI 性能优化的主要有效手段之一。同样的,当 DeepRec 应用在大规模稀疏场景下时,通常存在着以embedding 特征为主的大量特征信息处理,并且 embedding中包含了大量小型算子;为了实现通用的性能提升,优化措施在 DeepRec 中 加 入 了 fused_embedding_lookup 功 能,对embedding 子图进行融合,减少了大量冗余操作,同时配合以英特尔 AVX-512 指令加速计算,最终 embedding 子图性能提升显著。通 过 在 tf.feature_column.embedding_column(.,do_fusion=True)API 将 do_fusion 设置为 True,即可开启 embedding子图优化功能。图 78 Select 算子优化案例 True,False,0.1,0.2,0.1,0.2,Input MatrixBlock Matrix in regsAVX-512Output Matrix 0.1,0.2,selecttransposeStock TF:Broadcast Elementwise SelectOriginal DeepRec:Only Optimized Batch SelectOur Optimized Solution:Mask load w/AVX-51267应用篇云上AI加速 模型优化基 于 CPU 平 台,英 特 尔 在 DeepRec 构 建 了 涵 盖 WDL、DeepFM、DLRM、DIEN、DIN、DSSM、BST、MMoE、DBMTL、ESMM 等多个主流模型的独有推荐模型集合,涉及召回、排序、多目标等多种常见的场景;并针对硬件平台进行性能优化,相较于其他框架,为这些模型基于 Criteo 等开源数据集在 CPU 平台上带来极大的性能提升。其中表现最突出的当属混合精度的 BF16 和 Float32 的优化实现。通过在 DeepRec 中增加自定义控制 DNN 层数据类型的功能,来满足稀疏场景高性能和高精度的需求;开启优化的方式如图 79 所示,通过 keep_weights 保留当前 variable 的数据类型为 Float32,用于防止梯度累加导致的精度下降,而后再采用两个 cast 操作将 DNN 操作转换成 BF16 进行运算,依托第三代英特尔 至强 可扩展处理器所具备的 BF16 硬件运算单元,极大地提升 DNN 运算性能,同时通过图融合 cast 操作进一步提升性能。为了能够展示 BF16 对模型精度 AUC(Area Under Curve)和性能 Gsteps/s 的影响,针对现有 modelzoo 的模型都应用以上混合精度优化方式。阿里巴巴 PAI 团队使用 DeepRec 在阿里云平台的评测表明73,基于 Criteo 数据集,使用 BF16 优化后,模型 WDL 精度或 AUC 可以逼近 FP32,并且 BF16 模型的训练性能提升达 1.4 倍,效果显著。未来,为了更大程度地发挥 CPU 平台硬件优势,尤其是将新硬件特征的效果最大化,DeepRec 将从不同角度进一步实施优化,包括优化器算子、attention 子图、添加多目标模型等,以便为稀疏场景打造更高性能的 CPU 解决方案。使用 PMem 实现 Embedding 存储对于超大规模稀疏模型训练和预测引擎(千亿特征、万亿样本、模型 10TB 级别),若全部采用动态随机存取存储器(Dynamic Random Access Memory,DRAM)来 存 储,会 大 幅 提 升TCO,同时给企业的 IT 运维和管理带来巨大压力,让 AI 解决方案的落地遭遇挑战。图 79 混合精度优化开启方式PMem 具有更高存储密度和数据持久化优势,I/O 性能接近 DRAM,成本更为经济实惠,可充分满足超大规模稀疏训练和预测在高性能和大容量两方面的需求。PMem 支持两种操作模式,即内存模式(Memory Mode)和应用直接访问模式(App Direct Mode)。在内存模式中,它与普通的易失性(非持久性)系统存储器完全一样,但成本更低,能在保持系统预算的同时实现更高容量,并在单台服务器中提供 TB 级别的内存总容量;相比于内存模式,应用直接访问模式则可以利用 PMem 的持久化特性。在应用直接访问模式下,PMem 和与其相邻的 DRAM 内存都会被识别为可按字节寻址的内存,操作系统可以将 PMem 硬件作为两种不同的设备来使用,一种是 FSDAX 模式,PMem 被配置成块设备,用户可以将其格式化成一个文件系统来使用;另一种是 DEVDAX 模式,PMem 被驱动为单个字符设备,依赖内核(5.1 以上)提供的 KMEM DAX 特性,把 PMem 作为易失性内存使用,接入内存管理系统,作为一个和 DRAM 类似的、较慢较大的内存NUMA 节点,应用可透明访问。在超大规模特征训练中,Embedding 变量存储占用 90%以上的内存,内存容量会成为其瓶颈之一。将 EV 存到 PMem 可以打破这一瓶颈,创造多项价值,例如提高大规模分布式训练的内存存储能力、支持更大模型的训练和预测、减少多台机器之间的通信、提升模型训练性能,同时降低 TCO。在 Embedding 多级混合存储中,PMem 同样是打破 DRAM瓶颈的极佳选择。目前将 EV 存到 PMem 已具备三种方式,且在如下这三种方式下运行 micro-benchmark、WDL 模型和WDL-proxy 模型,性能非常接近于将 EV 存到 DRAM,这无疑使得其 TCO 获得了很大优势:将 PMem 配置成内存模式来保存 EV;将 PMem 配置成应用直接访问 FSDAX 模式,并采用基于Libpmem 库的分配器来保存 EV;将 PMem 配置成 NUMA 节点并采用基于 Memkind 库的分配器来保存 EV。阿里巴巴 PAI 团队在阿里云内存增强型实例 ecs.re7p.16xlarge上采用 3 种保存 EV 的方式进行了 Modelzoo 中的 WDL 单机模型对比测试74,这 3 种方式分别是将 EV 存到 DRAM,采用基于 Libpmem 库的分配器来保存 EV 和采用基于 Memkind 库的分配器来保存 EV,测试结果表明将 EV 存到 PMem 与将 EV存到 DRAM 的性能非常接近。73 如欲了解更多性能测试详情,请访问 https:/ https:/ 80 引入英特尔 AgilexTM I 系列 FPGA 实施优化由此,下一步优化计划将采用 PMem 保存模型,把稀疏模型checkpoint 文件存到持久内存中,来实现多个数量级的性能提升,摆脱目前用 SSD 保存恢复超大模型需要较长时间,且期间训练预测会中断的窘境。FPGA 加速 Embedding Lookup大规模稀疏训练及预测涵盖多种场景,例如分布式训练、单机和分布式预测以及异构计算训练等。它们与传统卷积神经网络(Convolutional Neural Network,CNN)或 循 环 神 经 网 络(Recurrent Neural Networks,RNN)相比有一个关键的不同,那就是 embedding table 的处理,而这些场景中的 embedding table 处理需求面临新的挑战:巨大的存储容量要求(可达 10TB 或更多);相对低的计算密度;不规则的 memory 访问模式。DeepRec 通过 PS-worker 架构来支持超大规模任务场景。在 PS-worker 架构中,存储与计算分离,embedding table以 Key-Value 的形式被存储在(几十、上百个)Parameter Servers 中,这些 PS 为(几百、上千个)Worker 提供存取、更新模型参数的服务,其关键的指标就是流通量和访问时延。而面对大规模稀疏模型训练和预测,现有框架中 PS-worker 的实现就显露了其瓶颈:DRAMPMem AD Mode FSDAXPMem AD Mode KMEM DAXSpeedup1.0 x0.95x0.96x 用软件通过多线程方式实现的 KV engine 成为了流通量的瓶颈;基于 TCP/RDMA 实现的 rpc 带来的开销,使得 Parameter Server 在分布式扩展时成为明显的时延和性能瓶颈。为了解决流通量瓶颈和时延的问题,优化中引入了支持 CXL(Compute Express Link)的英特尔 AgilexTM I 系列 FPGA,实施路径如图 80 所示:通过 FPGA 实现硬件的 KV engine 可以饱和内存或网络带宽,解决流通量瓶颈问题;通过自定义支持可靠传输的 transport layer 协议,在同一个FPGA 中处理 KV engine 和网络协议,不经过主机 CPU 直接根据 key 处理 value,以极低的时延和极小的抖动,消除Parameter Server 在分布式扩展时的时延和性能瓶颈;通过 CXL 提供的 cache-coherent 连接支持 HDM(Host Managed Device Memory)访问,设备端(FPGA 卡)上采用 DDR4 以支持热数据访问的高性能需求,主机端使用PMem 支持冷数据的存储,极大降低 TCO;以 FPGA 可以进一步实现 embedding table 的 in-line 处理,例如 tensor 操作,或者实现压缩及解压缩在网络带宽限制方面的突破。基于英特尔 AgilexTM I 系列 FPGA 的加速方案能在一个硬件平台支持上述所有场景,流通量显著提升,同时提供较低的访问时延。WorkerWorkerPSWorkerDDR4WorkerPMem/DDRHash ManageEthernet SwitchAgilex|serialGETSDARMAPUTCXL 1.12x100GAgilex CXL Acceleration cardPod2Pod1Recv.Recv.Decom pressSDARMAKV EngineHash OptimizerSendSendCompr essEmbedding Table(Hot data)Embedding Table(Cold data)69应用篇云上AI加速图 81 通过英特尔 SGX 加强防护蚂蚁集团基于英特尔 SGX 和英特尔 DL Boost 加速端到端PPML 解决方案机器学习(ML)和深度学习(DL)在众多真实的应用场景中愈发重要。这些模型使用已知数据进行训练,并部署在图像分类、内容推荐等场景中进行新数据的处理。总体而言,数据越多,ML/DL 模型就越完善,但囤积和处理海量数据也带来了隐私、安全和监管等风险。隐私保护机器学习(PPML)有助于化解这些风险。其采用加密技术差分隐私、硬件技术等,旨在处理机器学习任务的同时保护敏感用户数据和训练模型的隐私。在英特尔 软件防护扩展(英特尔 SGX)和蚂蚁集团用于英特尔 SGX 的内存安全多进程用户态操作系统 Occlum 的基础上,蚂蚁集团与英特尔合作搭建了 PPML 平台。在本篇博客中,我们将介绍这项运行在 Analytics Zoo75上的解决方案,并展示该解决方案在第三代英特尔 至强 可扩展处理器上得到英特尔 DL Boost技术助力时的性能优势。英特尔 SGX 和 Occlum英特尔 SGX 是英特尔的受信任执行环境(TEE),它提供基于硬件的内存加密,隔离内存中的特定应用代码和数据。英特尔 SGX 使得用户层代码可以分配内存中的受保护区域,即“飞地”,这些区域不受更高权限等级程序运行的任何影响。75 BigDL 2.0 已包含 BigDL 和 Analytics Zoo。硬件 XX70应用篇云上AI加速与同态加密和差分隐私相比,英特尔 SGX 在操作系统、驱动、BIOS、虚拟机管理器或系统管理模型已瘫痪的情况下仍可帮助防御软件攻击。因此,英特尔 SGX 在攻击者完全控制平台的情况下仍可增强对隐私数据和密钥的保护。第三代英特尔 至强 可扩展处理器可使 CPU 受信任内存区域增加到 512GB,使得英特尔 SGX 能够为隐私保护机器学习解决方案打下坚实的基础。2014 年正式成立的蚂蚁集团服务于超 10 亿用户,是全球领先的金融科技企业之一。蚂蚁集团一直积极探索隐私保护机器学习领域,并发起了开源项目 Occlum。Occlum 是用于英特尔 SGX 的内存安全多进程用户态操作系统(LibOS)。使用 Occlum 后,机器学习工作负载等只需修改极少量(甚至无需修改)源代码即可在英特尔 SGX 上运行,以高度透明的方式保护了用户数据的机密性和完整性。Analytics Zoo 赋能端到端 PPML 解决方案Analytics Zoo 是面向基于 Apache Spark、Flink 和 Ray 的分布式 TensorFlow、Keras 和 PyTorch 的统一的大数据分析和人工智能平台。使用 Analytics Zoo 后,分析框架、ML/DL 框架和 Python 库可以在 Occlum LibOS 以受保护的方式作为一个整体运行。此外,Analytics Zoo 还提供安全数据访问、安全梯度与参数管理等安全性功能,赋能联邦学习等隐私保护机器学习用例。图 82 用于英特尔 SGX 的 Occlum 架构(图片来源:Occlum GitHub)图 83 端到端 PPML 解决方案为金融服务、医疗卫生、云服务等应用领域提供安全分布式计算图 84 推理服务流水线在 Analytics Zoo PPML 平台上,蚂蚁集团与英特尔共同打造了一个更加安全的分布式端到端推理服务流水线。该流水线采用 Analytics Zoo Cluster Serving 打造,后者是轻量级分布式实时服务解决方案,支持多种深度学习模型,包括 TensorFlow、PyTorch、Caffe、BigDL 和 OpenVINOTM。Analytics Zoo Cluster Serving 包括 web 前端、内存数据结构存储 Redis、推理引擎(如面向英特尔 架构优化的 TensorFlow 或 OpenVINO 工具套件),以及分布式流处理框架(如 Apache Flink)。推理引擎和流处理框架在 Occlum 和英特尔 SGX“飞地”上运行。web 前端和 Redis 受到传输层安全(TLS)协议加密,因此推理流水线中的数据(包括用户数据和模型)在存储、传输、使用的过程中都受到更多地保护。共创美好未来:英特尔 DL Boost 加速端到端 PPML 解决方案该解决方案执行如下端到端推理流水线:1.RESTful http API 接收用户输入,Analytics Zoo pub/sub API 将用户输入转化成输入队列,并由 Redis 管理。用户数据受加密保护。2.Analytics Zoo 从输入队列中抓取数据。它在分布式流处理框架(如 Apache Flink)上采用推理引擎进行推理。英特尔 SGX 使用 Occlum 来保护推理引擎和分布式流处理框架。英特尔 oneAPI 深度神经网络库(oneDNN)利用支持INT8 指令集的英特尔 DL Boost 提高分布式推理流水线的性能。(如Linux)VMIPCFS加密 Analytics Zoo分析框架(Spark,Flink,Ray)ML/DL 框架(TensorFlow,PyTorch,OpenVINO)(NumPy,Pandas)云其他框架Analytics ZooE2E 平台71应用篇云上AI加速3.Analytics Zoo 从分布式环境中收集推理输出,并送回到由 Redis 管理的输出队列。随后,解决方案使用 RESTful http API 将推理结果作为预测返回给用户。输出队列中的数据和http 通信内容都被加密。性能分析Analytics Zoo PPML 解决方案的性能进行了验证。表 8 测试配置图 85 英特尔 SGX、英特尔 DL Boost 和第三代英特尔 至强 可扩展处理器提供高性能安全能力表 9 Analytics Zoo PPML 解决方案(TEE)与其他方案的比较图 85 为测试结果。与不受英特尔 SGX 保护的推理流水线相比,当推理解决方案受到英特尔 SGX 保护,ResNet50 推理流水线的吞吐量会有少许损失。而采用支持 INT8 指令集的英特尔 DL Boost 后,受英特尔 SGX 保护的推理流水线吞吐量翻了一番。总结在日益复杂的法律和监管环境中,对于企业和组织来说,保护客户数据隐私比以往任何时候都更加重要。在隐私保护机器学习的助力下,企业和组织就能在继续探索强大的人工智能技术的同时,面对大量敏感数据处理降低安全性风险。Analytics Zoo 隐私保护机器学习解决方案基于 Occlum、英特尔SGX、英特尔 DL Boost 和 Analytics Zoo 打造,为助力确保数据的安全性和大数据人工智能工作负载性能提供了平台解决方案。蚂蚁集团和英特尔共同打造并验证了这一PPML 解决方案,并将继续合作探索人工智能和数据安全性领域的最佳实践。测试配置系统配置:2 节点,双路英特尔 至强 铂金 8369B 处理器,每路 32 核心,超线程开启,睿频开启,总内存 1,024 GB(16 个插槽/64GB/3,200 MHz),EPC 512GB,SGX DCAP 驱动程序 1.36.2,微代码:0 x8d05a260,Ubuntu 18.04.4 LTS,4.15.0-112-generic 内核,英特尔截至 2021 年 3 月 20 日的测试。软件配置:LibOS Occlum 0.19.1,Flink 1.10.1,Redis 0.6.9,OpenJDK 11.0.10,Python 3.6.9工作负载配置:模型:ResNet50,深度学习框架:Analytics Zoo 0.9.0,OpenVINO 2020R2数据集:Imagenet,BS=16/实例,16 个实例/双路,数据类型:FP32/INT8所有性能数据均为实验室环境下测试所得。Analytics Zoo OpenVINO 工具套件 Redis Apache Flink 越高越好 0P00 0%0%TEE HEDPMPCPlain 安全性NA性能数据效用性基于英特尔 SGX 打造的 Analytics Zoo PPML 解决方案继承了受信任执行环境的优点。和其它数据安全解决方案相比,它的安全性和数据效用性十分突出,性能方面仅略逊于纯文本。英特尔 DL Boost 和英特尔 oneDNN 则进一步提升了 Analytics Zoo PPML 推理解决方案的性能。表 9 总结了该解决方案(TEE)相对于同态加密(HE)、差分隐私(DP)、安全多方计算(MPC)和纯文本的优势。72应用篇云上AI加速火山引擎基于傲腾 持久内存优化推荐系统存储架构,实现更优投资收益业务挑战火山引擎的中台化 AI 推荐引擎具备出色的工程与模型能力,支持亿级候选和万亿级特征76。为此,火山引擎基于异构存储设备构建了计算与存储分离的推荐系统架构(如图 86 所示)。整个系统由推荐服务、预估服务和召回服务等计算型服务,以及用户画像、参数服务和分布式索引等存储型服务构成。计算型服务承担了推荐策略计算、模型预估和内容检索等工作,而存储型服务则能为推荐系统中数百亿规模的数据特征,以及千亿规模的排序模型参数提供存储和实时更新能力。数据激增带来的数据存储及处理挑战合作品牌以及智能产品投放应用的持续增加,使得火山引擎智能推荐服务用户 群体不断壮大。以合作伙伴之一的抖音为例,截至 2019 年,其日活跃用户(DAU)就超过了 3.2 亿77,而到 2020 年 1 月 5 日,抖音 DAU 已突破 4 亿78。快速增长的用户量使得火山引擎智能推荐服务系统需要存储和处理的数据量也在与日激增,加之推荐服务的数据还具有实时更新等特点,对存储容量及存储速度都提出了挑战。用户更高期望令既有存储架构疲于应对除与日俱增的数据存储和处理需求外,互联网用户对时延和内容推荐相关度的要求也日趋严苛。由于推荐系统要根据已有的用户画像和内容向用户推荐其感兴趣的内容,这就涉及到两个关键问题:召回和排序(如图 87 所示)。在网络信息呈爆发式增长的时代,智能推荐服务可利用信息过滤技术为用户推荐高质量内容,是助力企业改善用户体验、增强用户黏度和提升商业变现能力的有效途径。作为全球领先的企业智能增长引擎之一,火山引擎依托字节跳动高效的大规模机器学习和个性化推荐技术推出了颇具竞争力的智能推荐服务。然而,随着业务不断拓展以及客户与合作伙伴平台用户的不断增加,火山引擎推荐系统需要处理的数据体量不断攀升,对存储架构性能的要求也日益严苛,寻求经济高效地扩展容量同时又不影响系统性能的方案势在必行。图 86 计算与存储分离的推荐系统架构76 数据援引自 https:/ 数据援引自 https:/ 数据援引自 https:/ 首先,DRAM 内存虽然能在一定程度上扩充内存整体容量,但受其规格限制,能够扩展的容量始终有限,因此不得不增设更多机架位来满足存储量需求,这会造成服务器经常处于内存紧张而 CPU 利用不充分的状态;此外,DRAM 内存高昂的价格以及更多机架位占用所带来的成本,还会大大推高成本。因此,火山引擎希望能探索出新的存储方案,既能突破存储介质和架构的局限性,还能在保证性能的前提下实现投入产出上的增益。英特尔 傲腾 持久内存助力 火山引擎破局 颠覆内存-存储架构,弥补性能缺口如图 88 所示,传统的内存-存储架构是内存加硬盘所组成的两级存储,大容量持久化存储主要由机械硬盘(HDD)或固态盘(SSD)来承担,高性能存储则交由 DRAM 内存担纲。由于 HDD/SSD 和 DRAM 内存在访问速度上存在非常大的差距,当数据在 DRAM 内存和基于 HDD/SSD 的存储之间传输时,会给系统带来巨大的时延和带宽损失。不断增加的数据量和快速访问更多数据的需求,则会进一步放大这一性能差距带来的影响。英特尔 傲腾 持久内存的出现,为传统的内存-存储架构带来了真正意义上的颠覆。它不仅具备接近 DRAM 内存的性能,还具备 SSD 的数据持久性,可以很好地弥补 DRAM 内存和 SSD 之间的性能缺口;其相对于 DRAM 内存的大容量、低成本特性,还能助力企业在容量与成本之间取得更好的平衡。鉴于这些优势,火山引擎决定将英特尔 傲腾 持久内存作为新方案的核心,搭配第二代英特尔 至强 可扩展处理器,对其推图 87 推荐系统工作流程图图 88 传统内存-存储层级与全新内存-存储层级召回是指从大量信息集合中选择尽可能多的与用户相关的结果,将其返回给排序,让排序完成对内容推荐优先级的划分。为应对上述数据挑战和应用需求,火山引擎将 IndexService 应用于其推荐业务中,以提供高级语法树 复杂归并树 倒排索引功能,并赋予 KV 查询能力。这些举措带来的对数据的访问需求,又进一步增加了对 IndexService 的性能要求此前积累的大量冷数据访问困难且耗时长,但当用户在使用 APP 时,留给推荐系统的处理时长往往是毫秒级的,这就对推荐系统存储服务器的吞吐量、响应速度、稳定性和意外中断后的恢复能力提出了更高的要求。破解挑战:寻求 DRAM 内存之外的高性价比扩容方案针对推荐系统 IndexService 的性能提升需求,火山引擎原本的应对之道是采用 DRAM 内存来承载内容信息数据,通过扩充内存,也就是将更多数据放在 DRAM 内存上,以此来增强时延和吞吐的性能优势。但这种解决方案目前面临的困难越来越多:CPUCPUDRAMDRAMSSDHDD/磁带HDD/磁带SSD3D NAND SSD10X DRAM bandwidth100s MB,1 ns1s GB,10 ns10s GB,100 ns100s GB,1us1s TB,10us10s TB,100us10s TB,10ms10X DRAM capacity 16X lower latency10X lower latency storage 60X better Qos storageCost/density for colder data,100X lower latency74应用篇云上AI加速荐系统 IndexService 的存储架构进行优化。这一新方案的配置如图 89 所示:图 89 基于英特尔 傲腾 持久内存的新方案硬件配置图 90 访问不同内存-存储设备的软硬件开销 高性能低时延,满足业务需求以火山引擎推荐系统 IndexService 目前承载的某项服务为例,它目前在晚高峰时期的总 TPS 可达到读 7,000 万,写 3,000 万;总 KPS 可达到读 30 亿,写 2.7 亿。应对此类大规模的访问量不仅需要足够大的存储容量,也需要快速高效的数据访问和处理能力来支撑的双重需求,火山引擎在使用英特尔 傲腾 持久内存时将其配置为 App Direct 模式。在该模式下,持久内存通过内存总线直接连接到处理器,应用程序可以绕过操作系统,无需驱动程序、系统调用、中断和上下文切换就能从用户空间直接访问持久内存上的数据,系统几乎没有软件开销。如图90 所示,在这种情况下,英特尔 傲腾 持久内存的时延约为 100 ns-300 ns,不仅遥遥领先于 SSD,更是具有接近 DRAM 内存的性能79,可以很好地满足高峰期间对数据访问速度的需求。的方式让应用程序直接访问数据,这一点与业务原有的设计非常贴合。持久存储,断电无忧更可靠英特尔 傲腾 持久内存在 App Direct 模式下还具备数据持久性。不论遇到意外断电还是计划中的停机,持久内存中的数据都能得以持久保存,从而能提升存储可靠性、增加系统的业务弹性、缩短系统重启时间并提升推荐系统的故障恢复速度。大容量低成本,实现增效节支火山引擎选择的英特尔 傲腾 持久内存 100 系列可提供 128 GiB、256 GiB 和 512 GiB 三种容量规格80,而当前 DRAM 内存最大容量为单条 128 GiB。这些持久内存模组兼容 DDR4 插槽,可与传统 DDR4 DRAM DIMM 共存于同一平台。用户可在每个通道上安装一个持久内存,而单路最多支持六个,从而可提供高达每路 3 TiB 容量81。持久内存相比 DRAM 内存更大的容量配置可有效提升单台服务器的存储密度,降低因购买、部署和维护更多服务器而带来的大笔额外费用。再加上持久内存相对 DRAM 内存的每 GiB 成本更低,因而能实现存储上高密度和低成本的双重收益。值得一提的是,当仅使用 DRAM 内存扩充内存容量时,火山引擎单台机器只能处理单个业务,CPU 利用率偏低;但使用DRAM 内存 持久内存的方式扩容后,就可以在单台机器上并发处理两个数据业务,从而提升 CPU 利用率,充分利用服务器的潜能。深度优化,充分发挥持久内存优势由于 IndexService 业务底层存储是基于 RocksDB PlainTable,数据在内存文件系统或共享内存/dev/shm 中以 SST(Sorted String Table)文件存储。SST 又分为多层,每一层的数据达到一定阈值后会挑选一部分 SST 合并到下一层,每一层的数据是上一层的 10 倍(因此 90%的数据存储在最后一层)。RocksDB 中 L0 和 L1 是性能的关键,因为 L0 中文件是重叠的,其他层几乎是不重叠的。为了充分发挥傲腾 持久内存的优势,火山引擎与英特尔的技术支持团队做了如下优化:分层混合介质存储:分层的主要目的有两个。首先是降低 L0 层的查询成本;其次,该业务下的数据更像 read latest 场景,大约有 30%热数据上集中了 70%的读。图 91 所示为混合介质上的数据分布情况,将 L0、L1 和 L2 放在 DRAM 内存中,以降低 此外,傲腾 持久内存还遵循 SNIA 编程模型,同时英特尔还为持久内存提供了一套持久内存开发套件(Persistent Memory Development Kit,PMDK)。这些优势都可以帮助应用直接访问持久内存而无需经过文件系统的页高速缓存系统、系统调用和驱动。在使用持久内存前,内存文件系统通过 mmap 的方式直接访问数据,而 App Direct 模式下的持久内存也采用同样79、80 数据援引自 https:/ 数据援引自火山引擎内部测试与评估,更多详情请咨询火山引擎。基准平台配置(未采用英特尔 傲腾 持久内存):处理器:英特尔 至强 铂金 8260 处理器(2.40 GHz);内存:512 GB DRAM(32 GB x 16);操作系统:Debian 8.11;内核版本:4.4.0-33.bm.1-amd64。新平台配置(采用了英特尔 傲腾 持久内存):处理器:英特尔 至强 铂金 8260 处理器(2.40 GHz);内存:128 GB DRAM(16 GB x 8) 1 TB 英特尔 傲腾 持久内存(128 GB x8);操作系统:Debian 8.11;内核版本:4.4.0-33.bm.1-amd64。100us100755025010usNAND SSD100ns-340ns UPIDMIx4DMIx4DDR4 DIMMDDR4 DIMM 或英特尔*面向英特尔 QuickAssist 技术和英特尔 以太网的 PCle*上行链路连接3x16 PCle*3x16 PCle*X722C620傲腾 持久内存 DIMM75应用篇云上AI加速图 91 分层混合介质存储表 11 火山引擎测试软件与硬件配置图 93 文章属性场景时延对比图 92 参与测试的查询业务特性表 10 分层混合介质存储空间分布借助分层混合介质存储,可以得到数据在 DRAM 内存上的读写带宽,分别为 4,830.16 MB/S 和 3,036.23 MB/S,而在持久内存上的读写带宽分别为 1,348.50 MB/S 和 521.60 MB/S82。表 10 展示了数据在 DRAM 内存和持久内存中的空间分布。在此基础上,优化 PlainTable 的二分结构和 Bloom Filter 参数,可降低 I/O 访问次数。增大 L0 的文件大小并同时减小其他 level 的文件大小,可加速 L0 到 L1 的 compaction 速度,从而减少文件数量。优化 LSM 树结构,可对 LSM 树结构进行优化,改善读写放大的瓶颈,提高数据吞吐量,并使其更加贴合推荐系统的业务场景。性能验证与成果为了验证这个异构存储结构采用英特尔 傲腾 持久内存后在推荐系统中的性能表现,火山引擎在英特尔的支持下,使用真实线上请求数据,按照表 11 所示的配置情况对采用了持久内存的相关系统进行了一系列的模拟测试,并获得了可喜的成果。以推荐业务最常见的查询文章相关属性这一场景为例,系统通常需要一次查询若干篇文章进行预测,才能判断一篇文章是否值得被推荐。一次查询的文章数量和每一篇文章对应的数据大小如图 92 所示:如图 93 所示,对比单独使用 DRAM 内存与使用 DRAM 内存 持久内存时的引流测试数据可知,在使用后一种配置的情况下,时延虽然有所增加但可以接受,并且长尾并没有什么特别大的变化,特别是 pct9999 的时延还有所降低,而且把有持久内存加持的配置使用 dm-stripe 模式挂载到容器上进行混布,还能缓解网络带宽瓶颈、提升资源使用率和进一步降低成本。上述测试结果表明:用导入持久内存的服务器来替代配备纯 DRAM 内存的服务器是完全可行的。根据火山引擎业务线实际测试结果,在达到相同 TPS 性能指标的情况下,服务器总成本(包含硬件以及平摊机架、网口的成本)降低了 16。这样一来,原来采购 5 台服务器的成本现在可以采购 6 台服务器,亦即成本不变的情况下性能提升了 20。在存储密度方面,原先硬件架构最大支持 1 TiB 的存储,现在最大可以支持 4.5 TiB 的存储。此外,分层后,还可以持续加入其他存储层级(NVME、SSD、HDD、磁带等),IndexService 也能为存储密度要求较高的用户提供更多的“套餐”;而网络带宽的提升,则能进一步释放处理器和持久内存的潜力。在引入持久内存并做了上述优化后,经测试发现,系统无论在时延、吞吐还是在 TPS/$和存储密度方面,都得到了显著优化。82、83、84 数据援引自火山引擎内部测试与评估,更多详情请咨询火山引擎。基准平台配置(未采用英特尔 傲腾 持久内存):处理器:英特尔 至强 铂金 8260 处理器(2.40 GHz);内存:512 GB DRAM(32 GB x 16);操作系统:Debian 8.11;内核版本:4.4.0-33.bm.1-amd64。新平台配置(采用了英特尔 傲腾 持久内存):处理器:英特尔 至强 铂金 8260 处理器(2.40 GHz);内存:128 GB DRAM(16 GB x 8) 1 TB 英特尔 傲腾 持久内存(128 GB x8);操作系统:Debian 8.11;内核版本:4.4.0-33.bm.1-amd64。L0 文件数、降低时延和提升重写业务性能,让 DRAM 内存和傲腾 持久内存能够发挥出各自的优势。DRAM 介质持久内存介质L0L1L2L3L4Imutablememtable batch query 文章个数分布(单位)1501209060300avg pct99 pct999 pct9999 pct99999pct50 pct95 pct992,1001,8001,5001,2009006003000文章属性大小分布(单位 byte)2,5002,0001,5001,0005000文章属性场景时延(单位 us)mean pct999 pct9999 pct99999容量使用率DDR63 G2.5 G61 G4%持久内存488 G151 G313 G33%部件只有 DRAM 内存使用持久内存 2.40 GHz 2.40 GHz内存512 GB DRAM(32*16)128 GB DRAM(16 GB*8)持久内存(128 GB*8)Debian 8.11Debian 8.11内核4.4.0-33.bm.1 -amd644.4.0-33.bm.1 -amd64 76应用篇云上AI加速85 数据援引自美团内部测试结果。86、87 数据由美团提供。美团基于至强 可扩展平台深度优化 TensorFlow,提升推荐系统性能在竞争日趋激烈的互联网市场,通过人工智能技术的应用推动商业模式的创新,为用户带来更加精准、个性化的互联网服务,已经成为获取竞争优势的优先选择。作为中国领先的生活服务电子商务平台,美团近年来组建了强大的人工智能技术团队,为商家的选址、引流、外卖/配送、经营管理、供应链金融、营销推广等一整套服务体系提供更强大的 AI 能力支撑。但与此同时,随着用户的快速增长、智能业务的不断创新升级,以及 AI 模型规模与复杂度的持续上升,美团的业务系统正在面临愈发严峻的性能挑战。为此,美团积极从基础设施重构、软件优化等角度化解上述挑战。以开源深度学习框架 TensorFlow 相关应用为例,美团在英特尔 至强 可扩展处理器的基础上,从大规模稀疏参数的支持、训练模式、分布式通信优化、流水线优化、算子优化融合等多维度进行了深度优化,并采用了英特尔推荐的技术优化方案。在推荐系统场景中,使得分布式扩展性提升 10 倍以上85。挑战:大规模应用中的 TensorFlow 性能瓶颈得益于数据量的爆发式增长、机器/深度学习新算法的出现和计算力的提升,人工智能在近年来开始进入爆发阶段,围绕人工智能的各种基础创新与应用落地也快速崛起。对于互联网行业来说,人工智能将彻底颠覆当前的资源利用与业务运行模式。在此背景下,各大互联网公司纷纷在人工智能方面强化布局,加强在深度学习模型训练、推理等方面的投入。TensorFlow 作为 Google 研发的第二代人工智能学习系统,能够处理多种深度学习算法模型,以功能强大、开源、高可扩展性而著称,已经成为很多企业开展深度学习研究与应用的重要工具。TensorFlow 还发布了用于推荐场景的深度学习算法模型 Wide&Deep Learning,适用于一般的、输入具有稀疏性的大规模回归和分类问题,比如推荐系统、搜索、排名等问题。为了进一步给推荐系统等应用进行 AI 赋能,美团使用了 TensorFlow 进行模型训练,并采用了分布式计算的方式来解决海量参数的模型计算和参数更新问题。但是,随着美团业务的发展,推荐系统模型的规模和复杂度也在快速增长,训练样本从百亿增长到千亿,增长了近 10 倍,稀疏参数的个数从几百到几千,增长了近 10 倍;总参数量从几亿增长到百亿,增长了 1020 倍86。同时,美团的 TensorFlow 模型复杂度越来越高,模型单步计算时间增长 10 倍以上87。7677应用篇云上AI加速在大规模的应用中,TensorFlow 的官方版本会暴露出参数的Variable表达导致内存资源大量浪费、对上千节点的扩展性较差、无法支持大规模稀疏参数的在线深度学习训练等问题,导致出现严重的性能瓶颈,这不仅会带来不断攀升的 TCO,也可能给上层业务带来影响。要解决性能瓶颈,固然可以通过扩大基础设施建设规模等方式来提升性能,但是这种方式会在 TCO 上带来较大压力,而且会提升系统的整体复杂度。另外一个方式是从系统与软件层面进行优化,这种方式无疑具备更高的经济性与可行性经过对TensorFlow 框架与业务的分析定位,美团发现,当前业务中的TensorFlow 集群分布式均衡负载、分布式集群的通信机制、延迟、单实例性能都是可以重点进行优化的方向。解决方案:基于英特尔 架构的美团TensorFlow 优化实践目前,美团 TensorFlow 系统主要构建于基于英特尔 至强 可扩展处理器的服务器集群上,并采用 CPU 进行 TensorFlow 模型训练。英特尔 至强 可扩展处理器内置人工智能加速功能,并已针对工作负载进行优化,能够为各种高性能计算工作负载、AI应用以及高密度基础设施带来一流的性能和内存带宽。同时,采用矢量神经网络指令(VNNI)的英特尔 DL Boost 显著提高了人工智能推理的表现,这使其成为进行深度学习应用的卓越基础设施。除了强大性能表现之外,CPU服务器具备更强的灵活性、敏捷性,能够实现多种业务的弹性扩展,方便部署和管理,满足不同业务场景的动态资源需求。在该基础设施之上,美团在推荐系统场景中使用了 TensorFlow Parameter Server(简称 PS)异步训练模式来支持业务分布式训练需求。为了优化性能,美团从单实例性能优化、分布式计算优化等多个层面进行了实践:单位算力吞吐优化在美团 TensorFlow 系统中,单节点的计算压力非常大,美团希望能够进一步发挥英特尔 至强 可扩展处理器的性能潜力,在有限的计算资源下带来更大的性能提升。为此,美团通过 CAT统计出了一些高频算子,并通过英特尔 VTune Profiler 可视化性能分析工具进行分析,根据分析结果进行了专项优化。英特尔人工智能工程师帮助美团评估了选定的算子在新一代 英特尔 至强 可扩展处理器上的性能,并基于英特尔 AVX-512,并行化等技术优化选定算子如matmul、Pad和Unique等。以 Unique&Dynamic Partition 算子融合为例,在 TensorFlow PS 架构中,包括 Embedding 向量在内的共享参数都存储在PS 上,并通过网络与 Worker 交互,在进行 Embedding 查询过程中,往往需要在大规模稀疏场景中,在查询前进行 Unique操作,并进行 Dynamic Partition 动作。通常这两个过程会利用 TensorFlow 既有的算子进行搭建,但在实际使用中,由于原生 Unique 算子内部使用的内存分配策略较为低效,导致 HashTable 创建过大且非常稀疏;而且 Unique 和Dynamic Partition算子存在冗余数据遍历,会带来较高的耗时。英特尔工程师帮助美团评估了多种 HashTable 实现方式的性能,并提供并行化方案,通过与英特尔工程师的合作,美团选择使用Robinhood HashTable替换了原生TensorFlow中的实现,围绕 Embedding ID 的 Unique 和 Partition 环节进行了算子合并,简化了逻辑实现。经过上述的优化,Unique 单算子可以取得 51%的加速,在真实模型端到端上可以获得 10%左右的性能提升,算子总数量降低了 4。美团 TensorFlow 系统还应用了面向深度神经网络的英特尔 数学核心函数库(英特尔 MKL-DNN),英特尔 MKL-DNN 通过矢量化利用 SIMD 指令,并通过多线程利用多个内核,有效利用了现代 CPU 的缓存和计算能力,提升了指令集的效用,通常可以更好地执行深度学习任务的计算。为了充分利用英特尔 架构和提高性能,TensorFlow 库已经使用英特尔 MKL-DNN原语进行了优化。00.20.40.60.811.21.41.6 图 94 Unique 单算子性能优化前后对比(越高越好)88 数据援引自美团内部测试结果。78应用篇云上AI加速 分布式计算优化在美团 TensorFlow 的推荐系统应用中,美团发现,当 PS 扩展到一定数量后,单步训练时间反而会增加,导致这种结果的核心原因是:Worker 单步训练需要和所有的 PS 通信同步完成,每增加 1 个 PS 要增加 N 条通信链路,这大大增加了链路延迟。而一次训练要执行上百万、上千万步训练,最终导致链路延迟超过了加 PS 算力并发的收益。要解决这一问题,核心是在有限的 PS 实例下,进行分布式计算的优化。为此,美团从分布式负载均衡、分布式集群的通信机制、延迟等方向进行了优化。分布式负载均衡优化:原生 TensorFlow 的 Adam 优化器机制会导致 PS 负载不均衡,可能出现某个 PS 会承受远高于其他 PS 请求的现象。为了解决该问题,美团为每一个 PS 上的Adam 优化器冗余创建了 参数,并在本地计算 t 和 alpha 值,去除了因负载不均导致的 PS 热点问题。在美团内部某业务模型上,通过 热点去除

4人已浏览 2023-03-04 151页 5星级


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有