什么是语义分割？

2024-07-11 16:08| 来源: 网络整理| 查看: 265

语义分割模型创建输入图像的分割图。分割图本质上是原始图像的重建，其中每个像素已按语义类进行颜色编码，以创建分割掩码。分割掩码只是图像中与图像其他区域区分开来的一部分。例如，空旷场地中的一棵树的分割图可能包含三个分割掩码：一个用于树，一个用于地面，一个用于背景中的天空。

为此，语义分割模型使用复杂的神经网络将相关像素精确地组合成分割掩码，并正确识别每组像素（或分段）的真实语义类。这些深度学习 (DL) 方法需要在由人类专家注释的大型预标记数据集上训练模型，并通过反向传播和梯度下降等机器学习技术调整权重和偏差。

深度学习方法已经取代其他“传统”机器学习算法，例如支持向量机 (SVM) 和随机森林。尽管深度神经网络需要更多的时间、数据和计算资源来训练，但它们的性能优于其他方法，在早期证明创新成功后，迅速成为首选方法。

使用数据集进行训练

对图像数据进行准确分类的任务需要由像素值组成的数据集，这些像素值代表不同对象的掩码或图像中包含的类标签。通常，由于图像分割中涉及的训练数据的复杂性，此类数据集比其他机器学习数据集更大、更复杂。

有许多开源图像分割数据集可供使用，涵盖各种语义类，每个类都有数千个示例和详细注释。例如，想象一个分割问题，对无人驾驶汽车中的计算机视觉进行训练，以识别需要刹车的所有不同对象，例如行人、自行车和其他汽车。汽车的计算机视觉必须经过训练才能一致地识别所有这些对象，否则它可能不会始终告知汽车刹车；它的训练也必须极其准确和精确，否则它可能会在错误地将无害的视觉图像分类为关注对象后不断刹车。

以下是一些用于图像和语义分割的较常见开源数据集：

Pascal 视觉对象类 (Pascal VOC)：Pascal VOC 数据集由许多不同的对象类、边界框和强大的分割图组成。

MS COCO：MS COCO 包含大约 330,000 张图像和注释，用于检测、分割和图像描述等许多任务。

Cityscapes：常见的 Cityscapes 数据集解读来自城市环境的数据，由 5,000 张图像、20,000 个注释和 30 个类标签组成。

语义分割模型

经过训练的模型需要强大的架构才能正常运行。以下是一些广泛使用的语义分割模型。

全卷积网络 (FCN)

全卷积网络 (FCN) 是一种用于语义分割的最先进的神经网络架构，它依赖于多个连接的卷积层。传统的 CNN 架构由输出单个标签的卷积层和平坦层组成，而 FCN 模型用 1:1 卷积块替换其中一些平坦层，可以进一步提取有关图像的更多信息。避免使用平坦、密集的层，转而使用卷积、池化或上采样层，使 FCN 网络更容易训练。

上采样和下采样：随着网络收集更多的卷积层，图像尺寸会减小，从而减少空间信息和像素级信息，这一必要过程称为下采样。在此过程的最后，数据工程师通过扩展（或上采样）将创建的特征图恢复为输入图像的形状，以执行图像优化。最大池化：最大池化是从图像区域提取信息并进行分析的过程中的另一个关键工具。最大池化选择正在分析的区域中的最大元素，因此输出可以产生包含前一个特征图中最突出特征的特征图。

U-Net

U-Net 架构是基于 2015 年推出的原始 FCN 架构进行的修改，可以始终取得更好的结果。它由编码器和解码器两部分组成。当编码器堆叠卷积层时，卷积层始终如一地对图像进行下采样以从中提取信息，而解码器则使用反卷积过程重建图像特征。U-Net 架构主要用于医学领域，旨在识别肺部和大脑中的癌性和非癌性肿瘤。

跳过连接：U-Net 向 FCN 引入的一项重要创新称为“跳过连接”，用于将一个卷积层的输出连接到另一个不相邻的层。这种跳过连接流程可减少下采样期间的数据丢失，实现更高分辨率的输出。每个卷积层都经过独立的上采样，并与其他层的特征相结合，直到最终输出结果准确地反映正在分析的图像。

DeepLab

DeepLab 语义分割模型由 Google 于 2015 年开发，旨在进一步改进原始 FCN 的架构并提供更精确的结果。虽然 FCN 模型中的层堆栈可以显著降低图像分辨率，但 DeepLab 的架构使用一种称为“空洞卷积”的过程来对数据进行上采样。通过空洞卷积过程，卷积核可以从图像中删除信息并在核参数之间留出间隙。

DeepLab 的扩张卷积方法将数据从更大的视野中拉出，同时仍然保持相同的分辨率。然后通过完全连接的条件随机场算法 (CRF) 拉取特征空间，以便捕获更多细节并将其用于逐像素损失函数，从而产生更清晰、更准确的分割掩码。

金字塔场景解析网络 (PSPNet)

2017 年，一种新的图像分割算法问世。PSPNet 部署了金字塔解析模块，相较其前代能够以更高的准确率收集环境图像数据集。与前代一样，PSPNet 架构采用编码器-解码器方法，但在提高 DeepLab 应用以执行像素级计算，PSPNet 添加了一个新的金字塔池化层来实现其结果。PSPNet 的多向缩放池化使其能够比其他模型分析更宽的图像信息窗口。

【本文地址】

公司简介

联系我们