Pytorch Lightning框架：使用笔记【LightningModule、LightningDataModule、Trainer、ModelCheckpoint】

您所在的位置：网站首页 › pytorch半精度训练 › Pytorch Lightning框架：使用笔记【LightningModule、LightningDataModule、Trainer、ModelCheckpoint】

Pytorch Lightning框架：使用笔记【LightningModule、LightningDataModule、Trainer、ModelCheckpoint】

#Pytorch Lightning框架：使用笔记【LightningModule、LightningDataModule、Trainer、ModelCheckpoint】| 来源: 网络整理| 查看: 265

在这里插入图片描述 pytorch是有缺陷的，例如要用半精度训练、BatchNorm参数同步、单机多卡训练，则要安排一下Apex，Apex安装也是很烦啊，我个人经历是各种报错，安装好了程序还是各种报错，而pl则不同，这些全部都安排，而且只要设置一下参数就可以了。另外，根据我训练的模型，4张卡的训练速度大概提升3倍，训练效果（图像生成）好很多，真香。另外，还有一个特色，就是你的超参数全部保存到模型中，如果你要调巨多参数，那就不需要再对每个训练的模型进行参数标记了，而且恢复模型时可以直接恢复超参数，可以大大减小代码量和工作量，这点真是太香了。

Pytorch Lightning官方手册 Pytorch Lightning源码：GitHub地址 Pytorch Lightning使用案例：Pytorch-Lightning-Template项目 GitHub地址

一、Pytorch Lightning 的流程

Pytorch Lightning框架应用的流程很简单，生产流水线，有一个固定的顺序：

初始化 def init(self)训练training_step(self, batch, batch_idx)校验validation_step(self, batch, batch_idx)测试 test_step(self, batch, batch_idx)

就完事了，总统是实现这三个函数的重写。

当然，除了这三个主要的，还有一些其他的函数，为了方便我们实现其他的一些功能，因此更为完整的流程是：

在training_step 后面都紧跟着其相应的 training_step_end(self，batch_parts)和training_epoch_end(self, training_step_outputs) 函数；validation_step 后面都紧跟着其相应的 validation_step_end(self，batch_parts)和validation_epoch_end(self, training_step_outputs) 函数；test_step 后面都紧跟着其相应的 test_step_end(self，batch_parts)和 test_epoch_end(self, training_step_outputs) 函数；

这里以训练为例：

def training_step(self, batch, batch_idx): x, y = batch y_hat = self.model(x) loss = F.cross_entropy(y_hat, y) pred = ... return {'loss': loss, 'pred': pred} def training_step_end(self, batch_parts): ''' 当gpus=0 or 1时，这里的batch_parts即为traing_step的返回值（已验证）当gpus>1时，这里的batch_parts为list，list中每个为training_step返回值，list[i]为i号gpu的返回值（这里未验证） ''' gpu_0_prediction = batch_parts[0]['pred'] gpu_1_prediction = batch_parts[1]['pred'] # do something with both outputs return (batch_parts[0]['loss'] + batch_parts[1]['loss']) / 2 def training_epoch_end(self, training_step_outputs): ''' 当gpu=0 or 1时，training_step_outputs为list，长度为steps的数量（不包括validation的步数，当你训练时，你会发现返回list

【本文地址】

公司简介

联系我们