什么是分布式训练?

您所在的位置:网站首页 三星手机如何查看电池寿命长短 什么是分布式训练?

什么是分布式训练?

2024-07-15 18:16:22| 来源: 网络整理| 查看: 265

你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。

Azure 机器学习的分布式训练 项目03/28/2024

本文介绍分布式训练以及 Azure 机器学习如何支持深度学习模型的分布式训练。

在分布式训练中,用于训练模型的工作负载会在多个微型处理器之间进行拆分和共享,这些处理器称为工作器节点。 这些工作器节点并行工作以加速模型训练。 分布式训练可用于传统的机器学习模型,但更适用于计算和时间密集型任务,如用于训练深度神经网络的深度学习。

深度学习和分布式训练

分布式训练有两种主要类型:数据并行和模型并行。 对于深度学习模型上的分布式训练,Python 中的 Azure 机器学习 SDK 支持与 PyTorch 和 TensorFlow 进行集成。 两者都是采用数据并行性进行分布式训练的常用框架,可以使用 Horovod 来优化计算速度。

使用 PyTorch 进行分布式训练

使用 TensorFlow 进行分布式训练

对于不需要进行分布式训练的机器学习模型,请参阅使用 Azure 机器学习训练模型,了解使用 Python SDK 训练模型的不同方法。

数据并行

数据并行是两种分布式训练方法中较易实现的一个,对于大多数用例来说已经足够了。

在此方法中,数据划分到计算群集或无服务器计算中的分区内,其中分区数等于可用节点的总数。 将在这些工作器节点的每一个中复制模型,每个节点对自己的数据子集进行操作。 请记住,每个节点都必须有能力支持正在进行训练的模型,也就是说,整个模型需要拟合每个节点。

下图显示了此方式。

每个节点独立计算其训练样本的预测结果与标记输出之间的误差。 每个节点又会基于该误差更新其模型,且必须将其所有更改传达给其他节点,以便其相应更新其自己的模型。 工作器节点需要在批处理计算结束时同步模型参数或梯度,以确保其训练的是一致的模型。

模型并行

在模型并行(也称为网络并行)中,模型将划分为可在不同节点中并发运行的不同部分,且每个部分都使用同一数据运行。 此方法的可伸缩性取决于算法的任务并行程度,其实现方式比数据并行更为复杂。

在模型并行中,工作器节点只需要为每个前向或后向传播步骤同步共享的参数一次(通常情况下)。 并且,即使模型较大也没问题,因为每个节点只处理模型的一个部分,且使用一致的训练数据。

相关内容 人工智能 (AI) 体系结构设计 分布式 GPU 训练指南


【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭