【关注】从人工建模到复合性修复 您所在的位置:网站首页 图片锯齿怎么修复 【关注】从人工建模到复合性修复

【关注】从人工建模到复合性修复

2023-03-28 04:41| 来源: 网络整理| 查看: 265

来源:影视制作

针对重大题材专题片如《英雄儿女》《敢教日月换新天》《领航》等创作中存在的相当比例的退化(如噪声、模糊、色彩丢失等)历史影像素材,借助复合修复和AI技术可以使退化影像素材得到更有效的处理。中央广播电视总台社教节目中心、中央广播电视总台技术局、北京邮电大学、中视奇云(北京)科技有限公司,共同建立了影像修复技术开发团队,研发出一套可靠且高效的修复流程,可以显著提高影像修复的质量和效率。具体而言,结合空洞密集卷积、对抗生成网络、通道注意力等先进技术,我们构建了性能更好、泛化能力更强的修复模型,实现了 AI与现行工业流程的紧密结合,多种真实退化场景中的实验结果表明了提出方法的优越性。

关键词:图像退化 ;图像修复 ;真实退化 ;AI 技术 ;复合性修复

随着近年来中国影视行业和智能技术的蓬勃发展,4K/8K超高清影像技术得到了快速发展与广泛普及。从纪念中国人民志愿军抗美援朝出国作战70周年的《英雄儿女》,到庆祝中国共产党成立100周年的《敢教日月换新天》,再到为迎接中共二十大召开而推出的大型专题片《领航》,片中引用了相当比例的重要人像视频资料,这些历史影像资料,在采集、保存、剪辑等环节中产生了诸多画面问题,无法满足当前大型电视片的播出需求,这类难点给视觉技术人员的后期工作带来了极大的挑战。

对于质量过差的影像,技术人员需要以帧为单位进行多次处理,这毫无疑问需要耗费大量的人力、物力与时间成本。庆幸的是,人工智能(ArtificialIntelligence,AI)技术的逐步成熟,给影像修复开辟了一条全新的道路。

深度学习是目前最先进、最有代表性的实现人工智能的方法。它以一种数据驱动的形式,通过构建大型数据集,免去复杂专一的数学建模,利用计算机GPU强大的浮点运算能力训练出一个性能更好、泛化能力更强的视觉修复模型。

在《英雄儿女》《敢教日月换新天》《领航》等专题片重要人像视觉质量修复过程中,开发团队的技术人员结合传统与深度学习技术来修复优化影像视觉质量的方法,取得了良好的成效,也为将来的视觉质量智能修复工作打下了坚实的技术基础。

01

影像修复需求及难点

影像修复需求

与图像、文字等传统信息载体相比,影像是唯一能够同时呈现时间与空间的动态的信息载体——人们能够通过影像画面中呈现的时代产物与建筑空间直观地感受时间与空间。随着数据传输技术的普及与发展,影像逐渐成为人们生活中不可或缺的部分。

在数字影像制作技术、保存技术不断提升迭代的当下,人们也越来越关注珍贵影像资料的保护与修复。目前,影像修复需求集中表现在电视、电影、资料馆档案三个领域。

电视:

需要修复的素材几乎包含了所有类别的影像资料,主要包括当下实拍素材、高清和假高清(拉伸)、标清(新闻类)、低清(磁带、胶转磁、胶片、网络素材)、图像素材(扫描、特效制作、库存及网络压缩)。较为久远的电视节目视频数据由磁带介质保存,再次播放时画面会出现横线、场纹、边缘锯齿、大面积马赛克等问题。

现今高(超)清电视节目影像素材清晰度要求达到规范标准,若素材质量参差不齐,特别是重要人像素材的视效质量不合标准时,为提升整体节目视效,需对其进行必要的视觉质量修复。

电影:

电影发展初期,视频数据主要储存在胶片介质中。尚不完善的保存技术与不适宜的保存环境使胶片在保存过程中有一定损毁,如胶片上的划痕、污点和霉点等,所储存的影像质量也随之下降,音质差、画面模糊等问题时有发生。除此之外,各类实拍素材、部分数字化后储存的影像文件等都需要专业人员进行修复。

资料馆档案:

资料馆存放着大量的珍贵历史素材,多以磁带、胶片和纸张为保存介质,定期修缮人力物力消耗大,成本高。经过专业技术人员充分修复后对档案进行数字化扫描存档,既可以降低成本,提高效率,也可以在最大程度上保持内容的完整。

修复难点及示例

图像去噪

由于相机电流噪声等因素,自然影像会受到噪声的干扰。传统的图像去噪,常常使用基于退化函数的逆滤波过程来实现。

首先通过先验知识人为地建模出图像的退化函数,再求退化函数的逆滤波函数,最后用逆滤波函数与退化图像做卷积,以此得到清晰图像。

在这个过程中,最为经典的方法有中值滤波、维纳滤波等,但此类简单的建模往往难以取得令人满意的降噪效果。于是,后来又出现了诸如、NL-means[1]、WNNM[2]、BM3D[3]等优秀的去噪模型。这些模型虽然能够去除更多的噪声,但很容易造成边界细节的丢失。

图1:图像去噪方法难点示例

如图1所示,我们给原图像添加方差为30的高斯白噪声,再分别用维纳滤波与BM3D算法进行处理。经过维纳滤波后,图像中还保留有明显的噪声颗粒,而经过BM3D算法后,虽然噪声去除得较为干净,但图像中的边界细节也被丢失。

但是在高标准的影视节目制作过程中,我们需要在提升视频质量的同时,尽可能地保留视频中的原有内容,因此,如何在去噪过程中保留住图像边界细节,是修复过程中的一大难点。

低清影像分辨率提升:

老旧的影像素材,拍摄或者制作的年代相对久远,分辨率很难达到如今视频2K/4K的分辨率标准。为保证影像视频在分辨率播放上的整体一致性,对低清影像的分辨率提升是十分必要的。

针对这一问题,如果直接使用如双三次插值[4]、双线性插值等方法拉伸图像分辨率,输出图像会有很明显的模糊感,影响视觉感受。其余的传统图像分辨率提升算法也存在计算量大、生成图像质量不高的问题。因此,如何提升复原图像的质量以满足实际的应用是目前研究的又一重点。

黑白视频上色:

在视频修复任务中,黑白视频上色是最为繁琐、自动化程度最低的工作之一。传统的视频上色工作需要专业技术人员逐帧对每一张图像做上色处理,需要耗费大量的时间与人力成本。在视觉研究的专业领域范畴内,上色任务本质上是一种一对多的病态任务。

图2:上色任务的一对多特性示例

如图2所示,图像中背景墙的颜色可以是橙色、蓝色等各种颜色,并且都可以满足图像场景的合理性。

如果使用自动化方法进行上色,图像自动生成的颜色结果很可能不符合真实背景,故无法应用到影视节目中。除此以外,视频中各帧的颜色也必须保持时间上的一致性,不能在时间轴上出现颜色的抖动与变化,这些都是在处理视频上色任务中需要重点考虑并解决的技术难点。

02

AI影像修复技术

图像去噪

由于热电流、暗电流噪声等因素,自然图像很容易被噪声所污染,影响图像的成像质量,直观表现为无法满足人们的视觉需求、干扰图像的直接应用,还可能造成图像的特征丢失,不利于后续图像视觉的处理工作。

图像去噪技术,正是消除这些外界干扰,从退化图像获得清晰原始图像的关键。因此,图像去噪在各种图像处理任务中,都是必不可少的一步。图像去噪任务实例如图3所示。

基于深度学习的图像去噪技术可以大致分为已知噪声的去噪[5] [6]与盲去噪[7] [8]两种。两种方法首先在大型图像数据集上添加高斯噪声、泊松噪声、椒盐噪声等构造模拟退化-真实图像对,通过深度神经网络来构造退化图像到噪声的映射,再将噪声与退化图像相减,即得到去噪图像。

不同的是,已知噪声的去噪方法除了噪声图片以外,还会输入估计的噪声强度,人为地控制去噪力度。而盲去噪方法将噪声估计步骤隐式地建模在深度神经网络中,实现完全的自动去噪。

图3:图像去噪任务

图像超分辨率

图像分辨率是指图像中所储存的信息量,一般用每英寸图像内有多少像素来表示,单位是像素每英寸(PPI),人们也会用单位面积内的像素数量来衡量分辨率大小,即“水平点数×竖直点数”。

图像分辨率决定了图像输出的质量,而图像分辨率和图像尺寸一起决定了图像文件的大小。图像超分辨率问题由于其广阔的应用前景而备受研究者青睐。

例如在医学领域,目前的医学图像如CT、MRI、B超扫描图像等记录了原始目标难以直接观察的部位,然而在这个过程中,由于医学成像设备的成像原理、获取条件以及显示设备等因素的限制造成图像的分辨率不够,人眼无法对部分图像做出准确判断,而图像超分辨率技术就可以一定程度改善这种情况,帮助医生进行更好的诊断;此外,在交通、航天、军事等领域也均有非常重要的作用。

基于传统方法的超分辨率算法大概可以分为三类:基于插值的超分辨率重建技术[4] 、基于图像建模的超分辨率重建技术[9] [10] [11]和基于学习的超分辨率重建技术[12] [13] ,其分类框架如下图所示。

图4:传统超分方法分类

基于深度学习的图像超分辨率技术通过向大型图片数据集中添加多种类的模糊、噪声、压缩、形变来构造退化-真实图像对,以训练退化图像到真实图像的映射。

由于真实退化图像在采集、传输、保存过程中可能经历多次干扰,使得退化过程复杂而难以建模。因此,基于深度学习的图像超分网络常利用多次退化来模拟真实退化情景,在各次退化中运用不同的模糊、形变等方法,来构建更为复杂多样的退化模型。

视频上色

AI视频上色是以一段黑白视频为目标,通过分析黑白视频中每一帧、每一部分的纹理、语义特征,得到黑白视频中各个像素到具体颜色的映射,进而着色为彩色视频的过程,如图5所示。

图5:视频上色任务

视频上色技术是计算机视觉领域里长期存在而富有挑战的方向之一,该技术可以应用到如老电影复原、动画上色、红外监控视频增强等领域。由于人工视频上色需要耗费大量的人力与时间,且深度学习技术近年来愈加成熟,基于深度学习的视频上色技术已越来越受到重视。

基于深度学习的视频上色大体可以分为自动视频上色[14] [15] 和基于参考的视频上色[16] [17] 两种。自动视频上色方法识别黑白视频的各个像素的语义,并根据学习到的对色彩的映射来赋予像素颜色。

基于参考的视频上色方法同样识别黑白视频的像素级语义,但根据参考图像的对应颜色来决定像素颜色。鉴于历史影视资料中的颜色往往都有严格的史实约束,基于参考的视频上色方法更加贴合我们的应用要求。

03

复合性修复

简介

复合性修复是将AI影像技术与人工多次监看审核相结合的后期制作工艺流程,解决了现有技术针对磁带类素材、低质量人像视频素材进行画面修复及增强处理时效果不佳的问题。

经复合性修复的影视素材已在多部电视片中广泛使用,通过了超高清电视制播标准严苛的技术审核要求,大量实例表明复合性修复具备可操性与实用性。

其工艺核心是借助AI自动识别视频画面质量的算法,对视频进行降噪、画面修复、黑白还原彩色、超分增强等画面预处理操作,然后由人工监看,审核AI预处理后的图像,对其中计算机的识别错误、修复错误提出反馈意见。

监审制作流程中的每一个节点,对画面中新增的问题进行分类处理,完善细节和图像要表达的视觉效果,在自然、真实的基础上进一步提升图像清晰度质量,如图6所示。

图6:复合性修复流程图

经此工艺所修复制作的视频素材,各项参数均符合超高清电视标准制作要求,在广播级4K/8K大屏幕上播放的视觉效果清晰亮丽,在移动端的小屏幕和网络PC端中型屏幕上的显示效果明显优于原素材。

逐隔行重制

逐隔行扫描是采集图像,在显示屏上“绘制”视频图像的两种常用方法。已往电视领域使用隔行扫描较多,每幅画面分奇数场和偶数场扫描两次,相互补充,成为完整的画面,如图7所示。

图7:逐隔行扫描示意图

但隔行扫描也存在一些不足之处,例如易出现行间闪烁、并行现象以及垂直边沿锯齿化等问题,如图8所示。

图8:隔行扫描成像(图源自《领航》节目组)

数字电视发展后,人们为得到高质量的图像,大多选择使用逐行扫描,逐行扫描的每一帧图像由电子束顺序地进行扫描,与隔行扫描相比,画面显示的稳定性较强,平滑自然无闪烁。

在不同的设备放映影像时,为显示最佳的画面质量,有时需要逐隔行重制。当逐隔行扫描转换不当时,最突出的问题就是会给画面蒙上一层场线。

基础场线一般是因为格式不统一导致的,相对容易解决。压缩场线相对较为严重,素材保存前的压缩转码会导致压缩场线的出现,造成画面清晰度极低、画面信息不全等严重问题。

此次专题片的制作为保证画面的协调性和一致性,需要对使用的老旧素材进行逐隔行重置,先由AI系统对图像基本问题进行预处理,使场线问题在数量上大幅度减少,质量有所提高后,再由人工进行关键参数调控,最后呈现出的效果会比原素材有显著提升。

人像清晰度提升

清晰度指人眼看到图像的清晰程度,即人物图像细节和边缘的清晰程度,是由拍摄设备的系统性能、后期处理和图像显示设备综合决定的。影响图像清晰度的主要因素有分辨率、比特率和编码,其中分辨率是影响清晰度的直接因素。

重大题材专题片的制作涉及大量的历史影像资料,占全片制作内容比例高,这些由胶片、磁带或数据压缩保存的影像资料,若要达到播出标准,需要将原视频资料拉伸,放大到高清视频要求的分辨率。

原本就存在的马赛克、噪点、场纹等画面质量问题,经过放大后细节丢失严重,不仅影响观看体验,有些甚至无法使用。特别是辨识度较高的人像特写镜头,直接放大后出现人物边缘模糊不清的问题,严重影响人物形象的视觉质量。

AI修复可以明显去除画面上存在的场纹、边缘锯齿等问题,提升画质清晰度,人像细节则由人工进行处理,如对面部五官细节进行阈值调控。这样在最大程度地提升清晰度的同时使人像更加自然、有活力,如图9所示。

图9:人像清晰度提升对比图(图源自《领航》节目组)

04

技术创新要点

图像去噪

如前所述,为了得到更优秀的去噪性能,学者在这些经典逆滤波方法的基础上做改进和提升,提出了诸如NL-means [1]、WNNM[2]、BM3D [3]等优秀的去噪模型。这些模型虽然能够得到较好的去噪效果,但是却有一些十分明显的缺陷:

(1)需凭经验,手动设置参数;

(2)运行速度较慢,需结合优化算法;

(3)单一模型往往针对特定类型噪声;

(4)易造成边界细节丢失。

由于盲去噪方法不可控而已知噪声的去噪方法需要额外的人为估计,为在自动估计噪声强度的同时,也能够保留可控性,智能计算研究团队提出了一套新的去噪网络架构,如图10所示,该模型的创新点包括:

·采用两阶段式盲去噪网络,以提高模型泛化性;

·首次提出结合Sobel算子与通道注意力模块 [18]的机制,以增强细节特征。

图10:细节增强的图像去噪网络框架

图像超分辨率

如前文所述,基于传统的超分辨率算法主要分为三类,然而传统的算法普遍存在:计算量大、生成图像质量不高的问题。

为此,如何提升复原图像的质量以满足实际的应用是目前研究的重点。借助GAN[19] 技术与通道注意力机制 [18],智能计算研究团队提出了一种新的超分网络结构,如图11所示,该模型的创新点包括:

·首次提出基于对抗生成的密集连接空洞卷积结构,以提取更多高可辨特征;

·提出一种新的损失函数,以优化网络训练。

图11:总体网络框架图与特征提取部分的密集空洞卷积网络结构

视频上色

视频上色除目前的方法在空间维度上大多基于局部的特征提取,且在时间维度上只维持一帧或少量几帧的连续性,对于一些需要更大感受视野的运动场景鲁棒性较差。

基于该缺陷,智能计算团队首次构建了一种新颖的深度网络,如图12所示,该模型的创新点包括:

·结合时间长期依赖的语义匹配算法,以维持时间维度上颜色的连续与合理性;

·结合空间长期依赖的语义匹配算法,以增强空间维度上颜色的准确与协调性。

图12:结合长期依赖的基于参考的视频上色网络框架

05

实验与修复成果展示

实验方法

方案设计:

首先,整体说明我们的处理流程,为使老旧影像有更好的视觉效果,我们设计了一套完整的系统方案,其流程图如图13所示。

图13:实验整体流程图

数据流(老旧影像)输入后,分别经过去噪、超分、上色模型进行相应的处理,其中去噪、超分、上色模型是通过前文提出的三个设计网络(网络框架如图10、图11、图12所示)并行训练得到的深度模型,处理结束后得到最终的修复图像。

模型训练:

基于深度学习的人工智能算法需要庞大的数据集来支撑模型的学习。对于视频上色任务及图像超分辨率任务,智能计算研究团队结合了视频修复数据集与学术界使用最为广泛的DAVIS[20]、Videvo[21]、DIV2K[22]与Flickr2K[23]所支撑的数据来构造训练数据集。同样,对于图像去噪任务,我们选用广泛应用的BSD500[24]、Waterloo Exploration Database[25] 数据集与大量视频修复数据。

同时,使用加性高斯噪声与泊松噪声来构造真实-噪声图像对。在实验中,我们运用pytorch框架来构造神经网络模型,并在训练中使用Adam[26] 优化器、混合损失函数、图像增强技术来加速与优化训练过程。

部分成果展示

图像去噪:

如图14所示,左侧是降噪前后图像对比,右侧我们框选出了一些局部内容做放大处理,以更好地观察图像细节。

图14:图像去噪结果对比示例

(图中数据源自《领航》节目组)

降噪前图像中,噪声与蒲公英的柔毛混叠,如若使用传统去噪方法,很容易在去噪的同时,造成线条的模糊甚至丢失。

利用我们的细节增强图像去噪模型,图像在去除噪声的同时,柔毛的纹理仍然清晰可见,保留了足够的边界细节信息,这些保留下来的细节信息,也为后续的修复工作提供了重要的参考。

图像超分

如图15所示,左侧是超分前后图像对比,右侧是局部放大图像。

图15:图像超分结果对比示例(图中数据源自

《敢教日月换新天》节目组)

例如导弹车的头部,建筑的表面,在经过超分处理后视觉效果得到了明显的提升。需要注意的是,使用超分技术提升细节并不意味着在图像去噪过程中就可以忽视细节信息的保留。如果在去噪时丢失了细节,在超分模型中是无法对细节做提升的。

视频上色

如图16视频截选帧的上色前后对比,左侧是原始黑白图像,右侧是上色后结果,可以看出上色后图像的内容辨识度与视觉质量得到了显著的提高。

图16:视频截选帧上色结果对比示例 

(图中数据源自《英雄儿女》节目组)

除此之外,我们的上色结果整体协调自然,符合人的主观感受,并且通过提供上色参考的方式,保证上色结果中各处颜色的准确度,能够与真实场景相吻合。

针对制作重大题材如《英雄儿女》《敢教日月换新天》及《领航》中所面临的修复技术难点,节目组总导演、执行导演、分集导演与开发团队技术人员进行了多次的沟通与交流,详细分析与探讨了片中所存在的技术问题与难点。

在此基础上,多方技术团队通力合作,将AI智能影像修复技术成功地应用到片中的影像资料修复中。不难看出,在人工智能技术席卷数字图像处理领域的当前背景下,将前沿学术成果落地到实际工程任务上,是对高新技术的重要探索,也是我们面临的最大挑战。

党的二十大报告指出,加强全媒体传播体系建设,其中信息技术的广泛深入应用,是媒体融合发展的关键。我们会继续积极探索相关超高清影视修复制作技术,以期降低超高清影视节目的制作成本,提高制作效率,扩大超高清制作技术标准的应用范围。

具体参考文献详见 《影视制作》2 期《面向电视节目创作中退化影像的智能修复技术研究与应用》

更多AI修复创意技术揭秘,见《影视制作》2023年2月刊



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有