EfficientNet论文翻译

2024-06-20 04:58| 来源: 网络整理| 查看: 265

原文链接：https://arxiv.org/abs/1905.11946

文章目录摘要介绍相关工作复合模型缩放问题公式化缩放维度复合缩放 EfficientNet 结构实验放大MobileNets和ResNets EfficientNet在ImageNet上的结果 EfficientNet迁移学习的结果讨论总结参考

摘要

卷积神经网络（ConvNets）普遍在一个固定的资源预算下发展的，如果可以获得更多的资源那么就增大模型来得到更好的准确率。本文系统性的研究了模型缩放尺度和以及确认，仔细地平衡网络的深度，宽度，和分辨率能够得到更好的效果。基于这个观点，我们提出了一个新的尺度缩放的方法，统一地缩放所有的维度，深度/宽度/分辨率使用一个简单且高效的复合系数。我们通过增大MobileNets和ResNet来证明这个方法的有效性。

为了进一步的证明，我们使用神经网络结构搜索去设计一个新的baseline网络并且对其进行放大进而获得一个模型家族，叫做EfficientNets，达到了比之前的ConvNets更好的准确率和效率。尤其是我们的EfficientNet-B7在ImageNet上达到了最好的水平即top-1准确率84.4%/top-5准确率97.1%，然而却比已有的最好的ConvNet模型小了8.4倍并且推理时间快了6.1倍。我们的EfficientNet迁移学习的效果也好，达到了最好的准确率水平CIFAR-100（91.7%），Flowers（98.8%），和其他3个迁移学习数据集合，参数少了一个数量级。代码：

官方代码 Pytorch 亲测好用

图1.模型大小和ImageNet准确率。所有的数字都是单独的点，单个模型。我们的 EfficientNets明显比其他ConvNets好。尤其是EfficientNet-B7达到了top-1准确率的最高水平84.4%但比GPipe小8.4倍并快6.1倍。EfficientNet-B1 比ResNet-152小7.6倍并快5.7倍，细节参见表2和表4。介绍

增大ConvNets被广泛的使用来达到更好的准确率。例如ResNet（He et al.）能够从ResNet-18通过使用更多的层来放大到ResNet-200；最近GPipe（Huang et al.,2018）通过增大一个baseline模型四倍，在ImageNet上top-1准确率达到了84.3%。然而，ConvNets增大的过程一直没有被很好的理解而且目前有很多种方法来做这件事情。最常用的做法是放大ConvNets的深度（He et al.,2016）或宽度（Zagoruyko & Komodakis,2016）。另一个不太常用的但是也越来越普及的方法是通过增加图像的分辨率来增大模型。在之前的工作中，通常只是放大三个维度-深度，宽度，和图像尺寸中的一个维度。尽管可以任意地增大两个或三个维度，但任意的增大需要枯燥的手工调参并且还经常产生次好的准确率和效率。

这篇文章中，我们想要研究和重新思考下ConvNets放大的过程。尤其是我们研究了这个核心问题：是否有一个原则性的方法来增大ConvNets能够达到更好的准确率和效率呢？我们的经验研究表明，平衡网络所有维度宽度/深度/分辨率是决定性的，而令人惊讶的是这样的平衡能够通过一个常数比例来简单地增大每个维度达到。基于这个观点，我们提出了一个简单且有效的复合增大的方法。不像传统的做法任意的增大这些因子，我们的方法通过一个固定的增大系数的集合来一致地增加网络的宽度，深度和分辨率。例如，如果我们想要使用 2 N 2^N 2N倍的更多计算资源，那么我们可以通过 α N \alpha^N αN来增加网络的深度，通过 β N \beta^N βN增加网络的宽度，通过 γ N \gamma^N γN来增加图片的尺寸，其中 α , β , γ \alpha,\beta,\gamma α,β,γ是通过在原始小模型上使用一个小格子搜索决定的常数系数。图2阐明了我们的增大方法和传统方法间的差距。

直观地，这种复合增大的方法是有意义的因为如果输入图像是更大的话，那么网络需要更多的层来增加感受野并且也需要更多的通道在更大的图像上捕捉更细粒度的图案。事实上之前的理论（Raghu et al., 2017; Lu et al., 2018）和经验结果（Zagoruyko & Konodakis,2016）都显示了网络的宽度和深度是存在确定关系的，但据我们所知，我们是第一个经验的量化三个维度间的关系，网络的宽度，深度和分辨率。

我们证明了我们的增大方法在已有的MobileNets和ResNets上表现很好。尤其是，模型增大的有效性严重依赖于baseline网络；更进一步，我们使用神经网络搜索（Zoph & Le,2017;Tan et al.,2019）开发一个新的baseline网络，并且对它进行扩大得到一个模型家族，叫做EfficientNets。图1总结了在ImageNet上的表现，我们的EfficientNets明显超过其他的ConvNets。尤其是，我们的EfficientNet-B7准确率超过了已有的最好GPipe（Huang et al.,2018），而且少了8.4倍的参数量和减少了6.1倍的前向运算时间。相比于广泛使用的ResNet-50(He et al.,2016)，我们的EfficientNet-B4在差不多运算量的情况下将准确率从76.3%提高到了82.6%（+6.3%）。除了ImageNet，EfficientNets的迁移效果也不错，8个数据集中在5个数据集上达到了最高准确率水平，而且比现有的ConvNets减少了21倍的参数量。

相关工作

ConvNet 准确率：自从AlexNet（Krizhevsky et al.,2012）赢得了2012年ImageNet竞赛的冠军，ConvNets开始通过更大的模型来增加准确率：GoogleNet(Szegedy et al., 2015)赢得了2014年ImageNet的冠军，达到了74.8%的top-1准确率，模型大约6.8M参数量，SENet（Hu et al.,2018）获得了2017年ImageNet的冠军达到了82.7%的top-1准确率使用了145M参数量。最近GPipe(Huang et al.,2018)进一步把ImageNet最好的top-1验证集合的准确率推到了84.3%，使用了557M的参数量：这模型太大了，只有通过把网络分开并将每个部分扩展到不同的加速器，才能使用专门的管道并行库进行训练。而这些模型主要是为了ImageNet设计的，最近的研究表明更好的ImageNet模型在一系列迁移学习的数据集合（Kornblith et al.,2019）以及其他计算机视觉任务比如目标检测（He et al., 2016; Tan et al., 2019).上表现更好，虽然更高的准确率对于许多应用来说是决定性的，但是我们已经碰到了硬件内存的限制，所以进一步提升准确率需要更好的效率。

ConvNet 效率：深的ConvNets经常参数过量。模型压缩(Han et al., 2016; He et al., 2018; Yang et al., 2018)是一个普遍的方法来降低模型的大小，通过准确率来换取效率。随着移动电话变得普及，手工制作有效率的移动大小的ConvNets也很普遍，比如SqueezeNets (Iandola et al., 2016; Gholami et al., 2018)，MobileNets (Howard et al., 2017; Sandler et al., 2018)，和 ShufﬂeNets (Zhang et al., 2018; Ma et al., 2018)。最近神经网络结构搜索在设计高效的移动端大小的ConvNets(Tan et al., 2019; Cai et al., 2019)上越来越流行,通过调节网络的宽度，深度，卷积核的类型和尺寸达到了甚至比手工制作的移动端ConvNets更好的效率。而如何把这些技术应用到更大的模型上是不清楚的，因为更大的模型有更大的设计空间和更昂贵的调节成本。这篇文章的目的是研究超过最高水平准确率的超级大ConvNets的效率。为了达到这个目标，我们继续模型的缩放。

模型缩放：对于不同的资源限制下，有很多种方式去缩放一个ConvNet：ResNet可以通过调整网络的深度来缩小(e.g., ResNet-18)或放大(e.g., ResNet-200)，而WideResNet (Zagoruyko & Komodakis, 2016) 和 MobileNets (Howard et al., 2017)能通过网络的宽度（#channels)来缩放。公认的更大的输入图像尺寸带来更多运算量的同时能够帮助提升准确率。尽管之前的研究(Raghu et al., 2017; Lin & Jegelka, 2018; Sharir & Shashua, 2018; Lu et al., 2018)已经表明了网络的深度和宽度对于ConvNets的表达力都是重要的，但是仍遗留了一个开放性的问题怎样有效的去放缩一个ConvNet来达到更好的效率和准确率呢。我们系统地实验并且经验性的研究了ConvNet全部不到三个维度（网络的宽度，深度和图像分辨率）的缩放。

复合模型缩放

这节我们将公式化缩放问题，研究不同的方法并提出我们新的缩放方法。

问题公式化

一个ConvNet层 i i i可以被定义成一个方程： Y i = F i ( X i ) Y_i=F_i(X_i) Yi=Fi(Xi)，其中 F i F_i Fi是运算操作， Y i Y_i Yi是输出的张量， X i X_i Xi是输入的张量维度是 < H i , W i , C i > 1 ^1 1，其中 H i H_i Hi和 W i W_i Wi

【本文地址】

公司简介

联系我们