读论文:Deep Learning for Image Super 您所在的位置:网站首页 图像分辨率的定义 读论文:Deep Learning for Image Super

读论文:Deep Learning for Image Super

2024-06-14 03:48| 来源: 网络整理| 查看: 265

Abstract 摘要

Image Super-Resolution(SR):图像超分辨率

用来提高图像或者视频的分辨率的重要的图像处理技术。

本文主要研究深度学习在图像超分辨率中的应用。

现有SR技术分类:有监督、无监督、领域特异性SR

1 Introduction

图像超分SR问题定义:从给定的低分辨率图像(low-resolution images,LR)还原它的高分辨率图像(HR)的过程。是计算机视觉领域和图像处理领域的重要技术。

应用: 医学成像、监控和安全领域。 还可以改善其他计算机视觉任务

研究历史:从早期基于卷积神经网络(CNN)的方法(例如,SRCNN)最近有前途的SR方法使用生成对抗网(GAN)(如SRGAN)。

区别、创新点处:一般来说,使用深度学习技术的SR算法家族在以下几个主要方面有所不同:不同类型的网络架构、不同类型的损失函数、不同类型的学习原则和策略。

**基于深度学习的视角回顾SR技术的发展 **

本文主要的贡献:

我们对基于深度学习的图像超分辨率技术进行了全面的回顾,包括问题设置、基准数据集、性能指标、基于深度学习的SR方法家族、特定领域的SR应用等。 我们以层次和结构的方式系统地概述了基于深度学习的SR技术的最新进展,并总结了每个组件对于有效的SR解决方案的优点和局限性。 我们讨论了这些挑战和开放的问题,并确定了新的趋势和未来的发展方向,为社区提供了一个深刻的指导。

  在下面的章节中,我们将介绍在深度学习中图像超分辨率的最新进展的各个方面。图1显示了本次调查中将以层次结构的方式覆盖的图像SR的分类。第2节给出了问题的定义,并回顾了主流数据集和评估指标。第3节模块化地分析了监督SR的主要成分。第4节简要介绍了无监督的SR方法。第5节介绍了一些流行的特定于领域的SR应用程序,第6节还讨论了未来的发展方向和开放的问题。

2 问题设置和术语

Problem setting and terminology

2.1 问题定义

问题定义:图像超分SR目的是从相应的低分辨率图像LR中恢复相应的高分辨率图像HR。

低分辨率图像LR的退化表示:

\[I_x = D(I_y, \delta) \]

其中,\(D\) 为退化映射函数,\(I_y\) 为相应的HR图像,\(\delta\) 为退化过程的参数

盲超分SR问题定义:

通常退化过程是未知的(即\(D\) 和 \(\delta\) ),并且只提供LR图像,这种情况也被称为盲超分(blind SR).

研究人员需要从LR图像 \(I_x\) 中恢复一个接近真实HR图像 \(I_y\) 的高分辨图像HR \(\hat{I_y}\) :

\[\hat{I_y} = F(I_x; \theta) \]

  其中,F为超分模型,\(\theta\) 为超分模型F的参数。

  即使退化过程是未知的并且能够别多种因素影响(比如,压缩伪影、各向异性退化、传感器噪声和散斑噪声),研究人员正在尝试对退化映射建模。

大多数工作都直接将退化建模为一个单一的降采样操作,如下所示:

\[D(I_y; \delta) = (I_y) \downarrow_s,{s}\subset \delta \]

其中,\(\downarrow_s\) 是步长为 \(s\) 的下采样操作

  事实上,大多数通用SR的数据集都是基于这个模式构建的,而最常用的降采样操作是具有抗锯齿的双边插值。然而,还有其他一些工作,将退化建模为几种操作的组合:

\[D(I_y; \delta) = (I_y \otimes k) \downarrow_s + n_\varsigma,\{k, s, \varsigma \} \subset \delta \]

  其中,$ (I_y \otimes k) \downarrow_s$ 表示用HR图像和模糊核\(k\) (Blur Kernel),\(n_\varsigma\)表示标准差为\(\varsigma\)的加性高斯白噪声(Additive White Gaussian Noise).

  最基本的噪声与干扰模型AWGN:AWGN又称加性高斯白噪声(Additive White Gaussian Noise),是最基本的噪声与干扰模型。它的幅度分布服从高斯分布,而功率谱密度是均匀分布的,它意味着除了加性高斯白噪声外,r(t)与s(t)没有任何失真。即H(f)失真的。

  与等式的朴素定义相比、组合的退化模式更接近真实世界的情况,并已被证明对SR更有益。

为此,SR的目标如下:

\[\hat{\theta} = arg minL(\hat{I_y}, I_y) + \lambda \phi(\theta) \]

其中,\(L(\hat{I_y}, I_y)\) 表示 生成HR图像\(\hat{I_y}\) 与 真实图像\(I_y\) 的损失函数,

\(Φ(θ)\) 为正则化项,\(\lambda\) 为平衡参数

  虽然最流行的SR损失函数是像素级的均方误差(例如,像素损失),更强大的模型倾向于使用多个损失函数的组合,3.4.1会讲。

2.2 SR数据集

今天有各种各样的数据集可用于图像超分辨率,它们在图像数量、质量、分辨率和多样性等方面有很大的差异。

其中一些提供LR-HR图像对,而另一些则只提供HR图像,在这种情况下(指成对的数据集),LR图像通常是通过MATLAB中默认设置的不调整函数获得的(即带有抗锯齿的双边插值)。

在表1中,我们列出了一些SR社区常用的图像数据集,具体表示他们的HR图像数量、平均分辨率、平均像素数、图像格式和类别关键字。

数据集 数量 平均分辨率 平均像素数 格式 类别关键字 BSDS300 300 (435, 367) 154,401 JPG 动物、建筑、食物、景观、人、植物等 BSDS500 500 (432, 370) 154,401 JPG 动物、建筑、食物、景观、人、植物等 DIV2K 1000 (1972, 1437) 2, 793, 250 PNG 环境、动植物、手工制品、人、风景等 General-100 100 (435, 381) 181, 108 BMP 动物、日常需要品、食物、人、植物、质地等 L20 20 (3843, 2870) 11, 577, 492 PNG 动物、建筑、景观、人、植物等。 Manga109 109 (826, 1169) 966, 011 PNG 漫画 OutdoorScene 10624 (553, 440) 249, 593 PNG 动物,建筑,草,山,植物,天空,水 PIRM 200 (617, 482) 292, 021 PNG 环境、植物群、自然风光、物品、人等。 Set5 5 (313, 336) 113, 491 PNG 婴儿,鸟,蝴蝶,头,女人 Set14 14 (492, 446) 230, 203 PNG 人、动物、昆虫、花、蔬菜、漫画、幻灯片等。 T91 91 (264, 204) 58, 853 PNG 汽车、花、水果、人脸等。 Urban100 100 (984, 797) 774, 314 PNG 建筑、城市、结构、城市等。

1 除了这些数据集外,一些广泛用于其他视觉任务的数据集也被用于SR,如ImageNet[51]、MS-COCO[52]、VOC2012[53]、CelebA[54]。此外,结合多个数据集进行训练也很受欢迎,如结合T91和BSDS300[26]、[27],[55]、[56],结合DIV2K和Flickr2K[31],[57]。

用到的时候到论文里找

2.3 图像质量评估

Image Quality Assessment, IQA

图像质量是指图像的视觉属性,侧重于对观众的感知评估。

​  一般来说,图像质量评估(IQA)方法包括基于人类感知的主观方法(即图像看起来的真实程度)和客观的计算方法。前者更符合我们的需要,但往往是耗时和昂贵的,因此后者是目前的主流。

  然而,这些方法之间不一定一致,因为客观方法往往不能非常准确地捕捉人类的视觉感知,这可能导致IQA结果的较大差异。

  此外,客观IQA方法进一步分为三种类型[58]:使用参考图像进行评估的全参考方法,基于提取特征比较的简化参考方法,以及无任何参考图像的无参考方法(即盲IQA)。接下来,我们将介绍几种最常用的IQA方法,包括主观方法和客观方法。

2.3.1 峰值信噪比

Peak Signal-to-Noise Ratio,PSNR

  峰值信噪比(PSNR)是有损变换(如图像压缩、图像嵌入绘制)中最常用的重建质量测量方法之一。对于图像的超分辨率来说,PSNR是通过图像之间的最大像素值(记为L)和均方误差(MSE)来定义的。

  给定有\(N\) 个像素的真实图像 \(I\) 和重建图像\(\hat I\) ,\(I\) 和\(\hat I\) 之间的 \(PSNR\) 定义如下:

PSNR

  其中,L等于255,在一般情况下使用8位表示。由于PSNR只与像素级MSE相关,只关注对应像素之间的差异而不是视觉感知,这往往导致在真实场景中表示重建质量的表现不佳,而我们通常更关注人类的感知。然而,由于需要与文献作品进行比较,且缺乏完全准确的感知指标,PSNR仍然是目前SR模型中使用最广泛的评价标准。

2.3.2 结构相似性

Structural Similarity,SS

结构相似性指数,SSIM,structural similarity index

  考虑到人类视觉系统(HVS)高度适合于提取图像结构[59],基于亮度、对比度和结构方面的独立比较,提出了结构相似度指数(SSIM)[58]来度量图像之间的结构相似度。

对于具有N个像素的图像I,亮度 \(\mu_I\) 和对比度 \(\sigma_I\) 分别估计为图像强度的平均值和标准差,即 mu sigma 式中,\(I(i)\) 表示图像 I 的第 i 个像素的强度,其亮度和对比度的比较,分别记为Cl(I,Iˆ)和Cc(I,Iˆ),分别为

c

  其中,\(C_1 = (k_1L)^2\) ,\(C_2 = (k_2L)^2\) , 为避免不稳定的常数,\(k_1



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有