论文阅读

2024-07-14 10:34| 来源: 网络整理| 查看: 265

文章目录论文翻译0. Abstract1. Introduction2. Background3. Motivating Example4. BAGAN5. Results5.1 生成图像的定量评估5.2 最终分类的质量 6. Conclusion 论文总结1. 问题2. 问题的难点3. 前人的工作4. 贡献5. 实验6. 总结7. 启发问题GAN

论文翻译 0. Abstract

图像分类数据集通常是不平衡的，这一特征对深度学习分类器的准确性产生了负面影响。提出平衡GAN（BAGAN)作为一种增强工具，用于在不平衡数据集上恢复数据的平衡。这是具有挑战性的，因为少数少数类图像可能不足以训练GAN。我们通过在对抗性训练期间包括大多数和少数类的所有可用图像来克服这个问题。生成模型从大多数类中学习有用的特征，并使用这些特征来生成少数类的图像。我们在潜在空间中应用类条件反射来驱动生成过程朝着目标类前进。GAN 中的生成器使用自动编码器的编码器模块初始化，使我们能够在潜在空间中学习准确的类条件。我们将提出的方法与最先进的 GANs 进行了比较，并表明 BAGAN在不平衡数据集上生成了高质量的图像。

1. Introduction

当训练数据集不平衡时，即可用数据在不同类别之间不均匀分布时，图像分类技术的准确性会显著下降。不平衡的数据集很常见，缓解这一问题的传统方法是通过引入额外的少数类图像来增强数据集，这些图像是通过对原始图像应用简单的几何变换得到的，例如旋转或镜像。当方向相关时，这种增强方法可能会破坏方向相关的特征。提出一种平衡生成式对抗网络(balancing generat ive adversarial network ，简称 BAGAN)作为增强工具，通过生成新的少数类图像来恢复数据集的平衡。由于这些图像在初始数据集中很少，训练 GAN 生成新的图像是一项挑战。为了克服这一问题，所提出的方法在对抗性训练中同时包括来自少数和多数类的所有数据。这使 BAGAN能够从所有图像中学习特定分类问题的底层特征，然后应用这些特征生成新的少数类图像。例如，让我们考虑道路交通标志[1]的分类。所有的警告标志都具有相同的外部三角形形状。一旦 BAGAN学会从其中一个符号中画出这个形状，我们就可以用它来画任何其他的符号。由于 BAGAN从所有类别开始学习特征，而其目标是为少数类别生成图像，因此需要一种机制来推动生成过程向所需类别的方向发展。为此，在这项工作中，我们将类条件作用应用于潜在空间[2,3]。我们使用自动编码器初始化 GAN 中的判别器和生成器。然后，我们利用这个自编码器来学习潜在空间中的类条件反射，即学习生成模型的输入对于不同的类应该是什么样的。此外，这种初始化使我们能够从一个更稳定的点开始对抗训练，并有助于缓解传统 GANs 产生的收敛问题[4,5,6,7]。这项工作的主要贡献是:

一种使用不平衡数据集训练GAN的总体方法，同时专门针对生成少数类图像。一种基于自动编码器的初始化策略，使我们能够：a）从一个好的初始解开始训练GAN; b）学习如何在生成器的潜在空间中对不同的类进行编码。根据最新技术水平对拟议的BAGAN方法进行实证评估。 2. Background

近年来，生成对抗神经网络(GANs)[8,9,7]被提出作为一种人工生成逼真图像的工具。其基本思想是在对抗模式下训练一个生成网络，对抗鉴别器网络。

生成对抗模型的一个众所周知的问题是，当它们学习愚弄鉴别器时，它们最终可能会画出一个或几个愚蠢的例子。这个问题被称为==模式崩溃[==8,4,5,6]。本文的目标是增强一个不平衡的图像分类数据集，以恢复其平衡。最重要的是，增强后的数据集足够可变，并且不包括连续重复的示例，因此我们需要避免模式崩溃。为此目的，提出了不同的方法。可能的解决方案是:明确促进生成器损失[10,4]中的图像多样性，让生成器预测鉴别器的未来变化并对这些[11]进行自适应，让鉴别器区分不同的类别[2,12]，应用特定的正则化技术[5,6]，以及将GANs与自编码器[4,13,14,15]耦合。

在这项工作中，我们应用了后一种方法，并结合了GAN和自编码技术。引用的方法包括GAN中的其他模块，以在整个训练过程中嵌入自编码器。在提出的BAGAN方法中，我们采用了一种更实用的方法，并使用自编码器来初始化GAN模块，使其接近于一个良好的解决方案，而远离模式崩溃。由于我们的目标是专门为少数类生成图像，因此训练了一个生成器，该生成器就其绘制的图像类而言是可控的，类似于最先进的ACGAN方法[2]。然而，ACGAN并不是专门针对不平衡数据集的，在针对少数类图像的生成时往往是有缺陷的。

3. Motivating Example

最先进的GAN不适合处理不平衡的数据集[16]，据我们所知，所提出的BAGAN方法是第一个专门解决这个主题的方法。在介绍所提出方法的细节之前，让我们用一个简单的例子来演示为什么很难应用现有的GAN技术来解决手头的问题。让我们考虑手写数字的分类，从MNIST数据集[17]的不平衡版本开始，我们从训练集中删除了97.5%的可用零。

一个简单的想法是使用传统的GAN[8, 9, 18]，通过使用所有可用的数据对其进行训练，生成许多随机样本，找到0实例，并使用这些实例来增强数据集。这种方法不能普遍应用：如果GAN中的生成器G被训练成通过生成真实的图像来欺骗鉴别器D，它将更好地专注于多数类的生成以优化其损失函数，同时消除与少数类相关的模式。另一方面，仅使用少数类图像来训练GAN实际上不是一个选择，因为少数类图像非常稀少。在这个例子中，在去除97.5%的零之后，我们剩下大约150张少数类图像。一般来说，很难从非常少的数据集开始训练GAN, GAN必须有许多示例可以从[19]学习。

图1：ACGAN和BAGAN的判别器架构。

图2：当使用不平衡版本的MNIST（其中97.5%的零被丢弃）进行训练时，使用ACGAN和申报的BAGAN生成的10个零位图像。

另一种方法是用多数类和少数类联合训练GAN，并让GAN明确区分不同的类。在训练过程中，明确要求生成器绘制每个类别的图像，并让鉴别器相信生成的图像是所需类别的真实图像。在这样做的时候，生成器会因为绘制每个类别(包括少数类别)的真实图像而得到明确的奖励。据我们所知，到目前为止，实现这种方法的唯一方法是ACGAN[2]，其中生成器输入可以条件化以绘制目标类。在ACGAN中，鉴别器有两个输出，一个用于区分真假图像 X X X，另一个根据其类别 c c c对 X X X进行分类，图1(a)。在训练过程中，明确要求生成器为每个类 c c c绘制图像 X c X_c Xc。调整生成器参数以最大化两个分量的叠加。第一个分量是生成鉴别器认为真实的图像 X c X_c Xc的对数似然。第二个分量是生成鉴别器与类别 c c c相关联的图像 X c X_c Xc的对数可能性。我们观察到，当数据集不平衡时，这两个分量对少数类来说是矛盾的。这可以解释如下。让我们假设在某一时刻，生成器收敛到一个解决方案，在该解决方案中，它生成具有真实质量的少数类图像。鉴别器将无法区分这些图像与训练数据集中的图像。由于在训练数据集中，少数类图像很少，所以当少数类图像在训练期间传递给鉴别器时，它很可能是假图像。为了优化其损失函数，鉴别器必须将假标签与所有少数类图像关联起来。在这一点上，两个生成器目标是矛盾的，生成器可以绘制看起来真实的图像，也可以绘制代表少数类但不能同时实现这两个目标的图像。反过来，生成器可以因绘制看起来真实且不代表目标少数类的图像而得到奖励。这一事实恶化了生成图像的质量。ACGAN为数字0生成的不平衡MNIST示例图像如图2(a)所示。本文提出BAGAN，将类条件应用于ACGAN，但在以下几点上有所不同。

首先，BAGAN判别器有一个输出，返回特定于问题的类标签 c c c或标签 f a k e fake fake，如图1(b)所示。鉴别器 D D D被训练用于将标签 f a k e fake fake与G生成的图像相关联，并将标签 c c c与真实图像 X c X_c Xc相关联。生成器被训练以避免假标签并匹配所需的类标签。由于这现在被定义为一个单一目标而不是两个目标的叠加，通过构建，它不能自相矛盾，并且如果鉴别器没有将看起来真实的图像 X c X_c Xc与所需的类标签 c c c匹配，生成器永远不会因为生成的图像 X c X_c Xc获得奖励。

其次，BAGAN将GAN和自编码技术结合起来，以提供类条件的精确选择，并更好地避免模式崩溃。BAGAN生成的不平衡MNIST示例的图像具有优越的质量，如图2(b)所示。

4. BAGAN

所提出的BAGAN方法旨在为不平衡数据集生成真实的少数类图像。它利用特定分类问题的所有可用信息，将多数类和少数类联合纳入BAGAN训练中。GAN和自编码技术相结合，以利用两种方法的优势。GANs生成高质量的图像，而自动编码器很容易收敛到良好的解决方案[7]。一些作者建议将GANs和自动编码器耦合起来[4,13]。尽管如此，这些工作并不直接意味着将GAN生成过程推向特定的类别。将它们泛化以使GAN能够区分不同的类是不容易的。正如在激励性例子中所解释的，在这项工作中，我们应用Odena等人[2]建议的类条件作用来将类知识嵌入BAGAN中。

图3：提出的BAGAN方法的三个训练步骤。

我们实用地使用自动编码器来初始化GAN，使其接近于一个良好的解决方案，而远离模式崩溃。此外，应用自编码器的编码器部分来推断潜在空间中不同类别的分布。基于自动编码器的GAN初始化是通过在自动编码器和GAN模块中使用相同的网络拓扑来实现的，图3(a)和3(b)。自动编码器的解码阶段 ∆ ∆ ∆与生成器 G G G的拓扑结构匹配。自动编码器的编码阶段 E E E与鉴别器 D e D_e De的第一层拓扑结构匹配。在BAGAN中，通过相应地初始化参数权重，自动编码器中的知识被转移到GAN模块中，如图3(b)所示。为了完成鉴别器，具有softmax激活函数的最后一个密集层 D d D_d Dd将潜在特征转换为图像是假的或它属于某个问题类别 c 1 − c n c_1-c_n c1−cn的概率。当GAN模块初始化时，通过学习图像在潜在空间中不同类别的概率分布，建立一个类条件潜在向量生成器。然后，通过进行传统的对抗性训练来微调生成器和鉴别器中的所有权重，图3©。总的来说，BAGAN训练方法被组织为图3所示的三个步骤：a)自动编码器训练，b) GAN初始化和c)对抗训练。

自动编码器训练。通过使用训练数据集中的所有图像来训练自动编码器。自动编码器没有明确的类别知识，它无条件地处理来自多数类和少数类的所有图像。本文将L2损失最小化应用于自编码器训练

GAN初始化。与自编码器不同，生成器 G G G和鉴别器 D D D具有明确的类知识。在对抗性训练期间，G被要求为不同的类生成图像，D被要求将图像标记为假的或特定问题的类标签$c$。在GAN初始化时，通过使用解码器 ∆ ∆ ∆中的权重初始化 G G G，以及使用编码器 E E E的权重初始化判别器 D e D_e De的第一层，将自编码器知识转移到GAN模块中，如图3(b)所示。判别器 D d D_d Dd的最后一层是一个具有softmax激活函数的密集层，并生成最终的判别器输出。最后一层的权重随机初始化，并在对抗性训练期间学习。

鉴别器初始化只是用于在 D D D中包含有助于图像分类的有意义的特征。生成器的初始化有一个深层次的原因。当对抗性训练开始时，生成器 G G G等同于解码器 ∆ ∆ ∆。因此，输入到生成器 G G G的潜在向量 Z Z Z等效于自动编码器的潜在空间中的一个点，即 Z Z Z可以被视为 E E E的输出或 ∆ ∆ ∆的输入。因此，编码器 E E E将真实图像映射到 G G G使用的潜在空间中。我们利用这一事实在开始对抗性训练之前学习一个良好的类条件，即我们定义类 c c c图像的潜在向量 Z c Z_c Zc应该是什么样子的。

我们在潜在空间中使用多元正态分布 N c = N ( μ c ， Σ c ) \mathcal N_c = \mathcal N (μ_c， Σ_c) Nc=N(μc，Σc)和平均向量 μ c μ_c μc和协方差矩阵 Σ c Σ_c Σc对类进行建模。对于每个类别 c c c，考虑到训练数据集中 c c c类的所有真实图像 X c X_c Xc，我们计算 μ c μ_c μc和 Σ c Σ_c Σc以匹配 Z c = E ( X c ) Z_c = E(X_c) Zc=E(Xc)的分布。我们用这些概率分布初始化类条件潜向量生成器，这是一个随机过程，将类标签 c c c作为输入，并将从 N c \mathcal N_c Nc随机抽取的潜在向量 Z c Z_c Zc作为输出。在对抗性训练中，概率分布 N c \mathcal N_c Nc被认为是不变的，迫使生成器不会偏离潜在空间中的初始类编码。

对抗训练。在对抗性训练期间，数据批量流过生成器 G G G和鉴别器 D D D，它们的权重被微调以优化它们的损失函数。鉴别器将输入图像分类为属于 n n n个问题特定类中的一个或为假图像。对于我们提供的每个批次，总图像中有 1 / ( n + 1 ) 1/(n + 1) 1/(n+1)是假的，即我们为假类别提供了最佳的平衡。假数据作为 G G G的输出生成， G G G将从类条件潜在向量生成器中提取的潜在向量 Z c Z_c Zc作为输入。反过来，类条件潜在向量生成器将均匀分布的类标签 c c c作为输入，即假图像均匀分布在特定问题的类之间。当训练鉴别器 D D D时，我们优化稀疏分类交叉熵损失函数，以匹配真实图像的类标签和生成图像的假标签。

对于鉴别器学习的每个批次，生成器 G G G学习相同大小的批次。为此，通过在标签 c c c上应用均匀分布随机抽取一批条件潜在向量 Z c Z_c Zc。这些向量由生成器处理，输出图像被输入鉴别器。 G G G中的参数被优化，以匹配鉴别器选择的标签和用于生成图像的标签 c c c。

5. Results

在四个数据集上验证了所提出的方法。考虑：MNIST[17]、CIFAR-10[20]、Flowers[21]和GTSRB[1]。前两个数据集众所周知，Flowers是一个小数据集，包含五类鲜花的真实照片，我们将其重塑为224x224的分辨率，GTSRB是一个交通标志识别数据集。这些数据集的详细信息如表1所示。前3个数据集是平衡的，GTSRB是不平衡的。我们通过选择一个类并从训练集中删除其大量实例来强制前三个数据集的不平衡。我们对每个类别重复这个过程，并为每个产生的不平衡数据集训练不同的生成模型。当将每个类别作为少数类进行训练时，总是会得到以下结果，我们将训练集中遗漏的图像称为丢弃的图像。由于GTSRB已经不平衡，我们不再进一步不平衡它。

表1：目标数据集的信息，包括分辨率、类别数量和训练集的每类图像分布统计。

将所提出的BAGAN模型与最先进的ACGAN模型[2]进行了比较。据我们所知，ACGAN是迄今为止文献中提出的唯一一种考虑类条件的方法，以从包括多个类的数据集(第3节)开始绘制目标类的图像。BAGAN和ACGAN都是通过联合使用多数类和少数类在目标数据集上进行训练的。我们还考虑一种简单的GAN方法，通过仅在少数类上进行训练来学习绘制少数类图像。为了公平比较，我们限制了所考虑的方法(BAGAN, ACGAN和GAN)之间的架构更改。本文描述了BAGAN和ACGAN之间的区别（即鉴别器输出拓扑和基于自编码器的初始化）。对于简单的GAN，我们调整参考ACGAN鉴别器输出以仅区分真假图像，并删除生成器输入的类条件(（此GAN仅在来自少数类的图像上进行训练）。图4、5和6显示了为CIFAR-10和GTSRB中代表最多和最少的三个类生成的代表性图像的定性分析。对于CIFAR-10，我们只显示少数类图像的结果。对于每个类，40%的该类图像被删除，训练了生成模型，并显示了随机生成的图像，图4。对于CIFAR-10，简单的GAN收缩到每个类生成一个图像示例。为了训练这个GAN，我们只使用了3000张少数类图像(40%的少数类图像被删除，多数类不包含在训练中)。对抗性网络需要许多样本来学习绘制新图像[19]，在这种情况下，简单的GAN崩溃。对于ACGAN和BAGAN来说，这个问题不太相关，因为它们可以从少数类和多数类中共同学习特征。为了更好地理解ACGAN和BAGAN的不同行为，让我们关注GTSRB数据集图5和图6。这个数据集最初是不平衡的，我们训练生成模型而没有修改它。对于多数类，ACGAN和BAGAN都返回高质量的结果，图5（c）和5（b）。尽管如此，ACGAN在为少数类绘制图像时失败，并在为每个类生成单个示例时崩溃。在某些情况下，ACGAN生成的图像不能代表所需的类，例如，图6（c）中的第二行应该是一个警告标志，而绘制了速度限制。如果BAGAN绘制的图像不能代表理想的类别，那么他永远不会得到奖励。因此，BAGAN没有表现出这种行为。

图4：CIFAR-10数据集中每个类别（行）的5个代表性样本。对于每个类别，这些样本是在从训练集丢弃该特定类别的图像的40%之后通过训练的生成模型来获得的。

图5：为GTSRB数据集中三个最具代表性的多数类生成的五个代表性样本。

图6：GTSRB数据集中三个代表性最低的少数类生成的五个代表性样本。

5.1 生成图像的定量评估

由于我们的目标是利用生成模型通过生成额外的少数类图像来增强不平衡的数据集，因此我们的目标如下 a）生成的图像必须表示所需的类。 b）生成的图像不得重复。 c）生成的图像必须不同于训练集中已经存在的真实图像

不满足 a）意味着生成模型无法生成准确表示目标类别的图像，它们看起来要么是其他类别的真实示例，要么看起来不真实。不满足 b）意味着生成模型缩减到生成单个或少数模式。不满足 c）意味着我们只是学会了重绘可用的训练图像。在这三个目标的基础上评估了生成图像的质量。

生成图像的准确性。为了验证所考虑的方法生成的图像是否代表所需的类别，通过在整个原始数据集上训练的深度学习模型对它们进行分类，并验证预测的类是否与目标类匹配。在这项工作中，我们使用ResNet18模型[22]。结果如图7所示。简单的GAN对生成的图像返回的精度最差。所提出的BAGAN方法总体上优于其他方法，并生成了ResNet-18模型能够以最高精度分类的图像。我们再次观察到，强烈的不平衡会显著恶化生成的图像的质量，其准确性随着丢弃图像的百分比的增加而下降。当针对MNIST数据集时，这种现象对ACGAN来说最明显。

图7：当在训练生成模型之前改变丢弃的少数类别图像的百分比时，由所考虑的方法生成的图像的准确性。准确度基于在不丢弃任何图像的情况下训练的ResNet-18分类器。

生成图像的可变性。采用结构图像相似度SSIM[23]来度量两幅图像之间的相似度。该指标预测人类感知相似性判断，当两幅图像相同时，返回1，并随着差异的相关性增加而减少。为了验证生成的图像是多样化的，对于每个类，我们重复生成一些图像并测量它们的相似性SSIM。图8显示了所考虑的所有类别的平均数据集的多样性分析。对于MNIST、CIFAR-10和Flowers，我们改变少数类图像在集合{40,60,80,90,95,97.5}内下降的百分比，而对于GTSRB，我们使用原始不平衡数据集。在分析中，我们还包括一个参考值，该参考值是相同类别的真实的对之间的平均SSIM。当为CIFAR-10或Flowers随机拍摄几张真实的图像时，这些图像几乎没有共同点，以至于参考SSIM非常接近零。一般来说真实的图像总是比生成的图像更具有可变性（SSIM较低）。由简单GAN方法生成的图像的可变性非常小，并且采样图像对的SSIM非常接近于1。提出的的BAGAN方法相对于GAN和ACGAN表现出最佳可变性，SSIM值最接近参考值。对于CIFAR-10和Flowers，所有方法的SSIM值都因严重不平衡而恶化，SSIM值随着从训练集中丢弃的图像百分比的增加而增加。

图8：当改变从训练集中丢弃的图像百分比（x轴）时，生成的图像对（SSIM对，y轴）的结构相似性。

相对于训练集的图像多样性。评估生成的图像相对于训练集中已有图像的可变性。我们计算生成的图像与其最近的真实邻居之间的SSIM。我们将该值与训练集中的图像可变性进行比较，即真实图像与其最近的真实邻居之间的SSIM值。这些SSIM值彼此非常接近，这意味着没有出现过拟合。这种说法适用于所有考虑过的方法。特别地，MNIST、CIFAR-10、Flowers和GTSRB的SSIM值分别约为0.8、0.25、0.05和0.5。

5.2 最终分类的质量

最后评估了在增强数据集上训练的深度学习分类器的准确性。对于MNIST, CIFAR10和Flowers，对于每个类我们：1）将该类选择为少数类，2）通过从训练集中删除该类的一定比例的图像来生成一个不平衡的数据集，3）训练所考虑的生成模型，4）通过生成模型来增强不平衡数据集以恢复其平衡，5）为增强数据集训练ResNet18分类器，6）测量测试集上少数类的分类器精度。由于GTSRB已经不平衡，对于该数据集，跳过步骤1）和2）。将生成模型获得的增强、普通不平衡数据集、水平镜像增强方法(mirror)进行比较，其中通过对训练集中可用的图像进行镜像来生成新的少数类图像。

图9：使用增强数据集训练的ResNet-18分类器实现的少数类别的平均准确度，在丢弃一定百分比的少数类别图像后恢复了平衡。

不同类别的平均精度结果如图9所示。所提出的BAGAN方法为GTSRB返回了最好的精度，在大多数情况下对MNIST也是如此。这两个数据集的特点是具有对图像方向敏感的特征，正如预期的那样，镜像方法返回了最差的精度结果，因为它破坏了这些特征。对于CIFAR-10和Flowers，使用镜像方法获得了最好的精度。对这些数据集进行镜像不会破坏任何特征，镜像图像的质量与原始图像一样好。与ACGAN和GAN相比，BAGAN方法仍然提供了最好的精度。

从这个分析中得出结论，在从不平衡数据集开始生成少数类图像时，BAGAN优于其他最先进的对抗性生成网络。此外，我们得出结论：当由于存在方向相关的特征而不容易用传统技术来扩充数据集时，可以应用BAGAN来提高最终的分类精度。

6. Conclusion

本文提出一种方法，通过使用生成对抗网络来恢复不平衡数据集的平衡。在提出的BAGAN框架中，生成器和鉴别器模块通过自编码器进行初始化，以从一个良好的解决方案开始对抗性训练，并学习如何在潜在空间中表示不同的类别。我们将所提出的方法与最新的方法进行了比较。实验结果表明，在从不平衡的训练集开始生成高质量图像方面，BAGAN优于其他生成对抗网络。这反过来导致在恢复平衡的增强数据集上训练的深度学习分类器的精度更高。

论文总结 1. 问题

在图像分类任务当中，我们的数据集经常是不平衡的，而这种不平衡性往往会降低分类的准确性。本文提出了balancing GAN(BAGAN)作为一种增强工具来恢复数据集的平衡性，以便提高分类的准确性。

2. 问题的难点想要生成不平衡数据集中样本数量少的类别数据。在GAN网络之前，我们通常会对数据做一些几何变换来增强数据集，但是这种方法遇到一些与方向性相关的数据集时，效果往往会特别不好。当我们使用GAN网络的时候，由于特定类别数据量较少，很难很好地训练一个GAN网络来生成数据。 3. 前人的工作

由于几何变换方法的局限性，我们在这里不予以讨论。我们重点讨论GAN网络之前的工作。其实为了生成特定类别的样本，前人已经做出了一系列的工作，例如cGAN、ACGAN等。本文实际上是对ACGAN的一种改进。

图1：ACGAN和BAGAN的判别器架构。

ACGAN是在BAGAN之前唯一一种用于生成特定类别数据并用于分类的一种方法。但本文提出，当使用ACGAN进行小样本类别数据生成时，它会存在一定的问题。从图中我们可以看出，ACGAN有两个输出，分别是判断样本是否为真的fake,real输出以及对样本进行分类的类别输出，对应的也会有两个损失函数，我们分别称之为loss1和loss2。本文认为当将ACGAN用于小样本类别生成的时候，它的两个loss会自相矛盾。

设想一下，当判别器接收到一个数据之后，他会本能地将出现次数很少的数据认为是假的，而将多次出现的数据判别为真。这就导致当判别结果反馈的时候，生成器为了使loss值降低，就会生成样本数量多的类别数据，这就导致我们无法生成我们所需要的小样本类别数据，也就无法回复数据的平衡性。

4. 贡献

本文着力解决了两个问题： 1）当样本数量较少时，如何更好地训练一个GAN网络； 2）如何解决上述讲到的ACGAN的两个loss函数自相矛盾的问题。

方法： 1）使用自编码器对原始的所有数据进行编码，它认为这样子就可以从小样本类别和多样本类别中学习到他们的共同特征，来避免小样本数据学习到的特征不足导致的GAN网络训练效果不好的问题。 2）本文将输出由两个变为了一个，如图1，变成了一个n+1的输出，来解决两个loss函数自相矛盾的问题。

5. 实验

本文使用了MNIST、CIFAR-10、Flowers以及CTSRB数据集。由于前三个数据集都是平衡数据集，所以对其做不平衡处理，来使数据集变成不平衡的。从定性和定量两个角度对实验结果进行了分析。

1）定性分析从图4中可以看出，当丢掉40%的数据的时候，普通GAN网络已经很难达到一个很好地训练效果；而ACGAN呢，为了使损失函数较小，倾向于生成一些重复数据，来降低不确定性；而BAGAN则效果很好。

从图5中可以看出，生成多数类样本数据的时候，ACGAN的效果与BAGAN的效果相差无几；但是，从图6中可以看出，当要生成少数类样本数据的时候，ACGAN的生成效果就不够好，而且最严重的是，第二行的警示标志在使用ACGAN的时候，它倾向于生成限速标志。总之，ACGAN在生成小样本数据的时候，效果还是不如BAGAN好的。图片不显示时出现的文字

图5：为GTSRB数据集中三个最具代表性的多数类生成的五个代表性样本。

图6：GTSRB数据集中三个代表性最低的少数类生成的五个代表性样本。

2）定量分析本文制定了三个评估标准或者说致力于达到的实现目标： a）生成的图像必须表示所需的类。 b）生成的图像不得重复。 c）生成的图像必须不同于训练集中已经存在的真实图像

目标a：从图7中我们可以看出，在四个数据集中，BAGAN的分类准确率都是高于普通GAN网络和ACGAN的。所以BAGAN可以更好地生成指定类别的样本。

目标b：首先，SSIM值是衡量相似度的一个指标，值越大，代表相似度越高。而Reference指的是真实数据集彼此之间的相似度。从图8中可以看出，在四个数据集中，BAGAN生成的数据之间相似度都是最小的。图片不显示时出现的文字

图8：当改变从训练集中丢弃的图像百分比（x轴）时，生成的图像对（SSIM对，y轴）的结构相似性。

目标c：在四个数据集上，BAGAN的SSIM值分别是0.8、0.25、0.05、0.5。

最后，将不同方法的分类准确度通过实验进行比较，从图8中可以看出，在CIFAR-10和Flowers数据集中，准确率最高的是镜像增强方法，之后才是BAGAN。而在MNIST和GTSRB数据集上，镜像增强方法的准确率极低，因为数据与方向性有关。所以，在处理与方向性相关的数据集时，BAGAN的效果是目前比较好的。

图9：使用增强数据集训练的ResNet-18分类器实现的少数类别的平均准确度，在丢弃一定百分比的少数类别图像后恢复了平衡。

6. 总结

本文实际上就是提出了一种增强工具来恢复一些不平衡数据的平衡性，其实在对于很多领域都是很有效的一种方法。因为在某些领域，数据集大多都是不平衡的。所提出的BAGAN方法旨在为不平衡数据集生成真实的少数类图像。它利用特定分类问题的所有可用信息，将多数类和少数类联合纳入BAGAN训练中。GAN和自编码技术相结合，以利用两种方法的优势。同时，将输出由两个变为一个，变成了一个n+1的输出，来解决损失矛盾。

7. 启发自动编码器可以嵌入到GAN中，对模块初始化（考虑网络拓扑），因此就能无条件地处理不平衡的数据集。自动编码器，学习到输入数据的隐含特征，这称为编码(coding)，同时用学习到的新特征可以重构出原始输入数据，称之为解码(decoding)。从直观上来看，自动编码器可以用于特征降维，神经网络模型可以提取有效的新特征。自动编码器学习到的新特征可以送入有监督学习模型中，所以自动编码器可以起到特征提取器的作用。实际通常只会用到自编码前半部分。潜在向量生成的总图像中有 1 / ( n + 1 ) 1/(n + 1) 1/(n+1)是假的，为假类别提供了最佳的平衡。如果损失函数存在矛盾，可以合并输出。（n+1：fake，1……n）。问题什么是class condition？（5-2 ACGAN是目前唯一一种考虑类条件的方法）包含的类的信息 GAN

BAGAN GAN latent vector GAN发展系列

【本文地址】

公司简介

联系我们