(新SOTA)UNETR++:轻量级的、高效、准确的共享权重的3D医学图像分割 您所在的位置:网站首页 3d预测最准确 (新SOTA)UNETR++:轻量级的、高效、准确的共享权重的3D医学图像分割

(新SOTA)UNETR++:轻量级的、高效、准确的共享权重的3D医学图像分割

2023-03-07 19:54| 来源: 网络整理| 查看: 265

(新SOTA)UNETR++:轻量级的、高效、准确的共享权重的3D医学图像分割 0 Abstract

由于Transformer模型的成功,最近的工作研究了它们在3D医学分割任务中的适用性。在Transformer模型中,与基于局部卷积的设计相比,自注意力机制是努力捕获远程依赖性的主要构建块之一。然而,self-attention操作具有平方复杂性,这被证明是一个计算瓶颈,特别是在三维医学成像中,输入是具有大量切片的3D图像。在本文中,我们提出了一种名为UNETR++的3D医学图像分割方法,该方法既提供高质量的分割masks,又在参数和计算成本方面具有效率。我们设计的核心是引入一种新颖的高效配对注意(EPA)块,该块使用一对基于空间和通道注意的相互依赖的分支来有效地学习空间和通道方面的判别特征。我们的空间注意力公式是高效的,相对于输入的序列长度具有线性复杂度。为了实现以空间和通道为中心的分支之间的通信,我们共享query和key映射函数的权重,这些函数提供了互补的好处(配对注意力),同时还减少了整体网络参数。我们对 Synapse、BTCV 和 ACDC 这三个基准进行了广泛的评估,揭示了所提出的贡献在效率和准确性方面的有效性。在Synapse数据集上,我们的UNETR++以87.2% 的Dice相似度得分创下了新的SOTA水平,同时与文献中最好的现有方法相比,在参数和FLOPs方面都明显高效,减少了71%以上。

1 Introduction

3D分割是医学成像中的一个基本问题,具有众多应用,包括用于诊断目的的肿瘤识别和器官定位。该任务通常通过使用类似编码器-解码器架构的U-Net来解决,其中编码器生成3D图像的分层低维表示,解码器将此学习表示映射到体素分割。早期的基于CNN的方法分别在编码器和解码器中使用卷积和反卷积,但可能由于其有限的局部感受野而难以获得准确的分割结果。另一方面,基于Transformer的方法本质上是全局的,并且最近以增加模型复杂性为代价展示了具有竞争力的性能。

最近,几项工作 [Swin UNETR、UNETR、nnformer] 探索了设计混合架构以结合局部卷积和全局注意力的优点。虽然一些方法[UNETR] 使用基于Transformer的编码器和卷积解码器,但其他方法[Swin UNETR、nnformer] 旨在为编码器和解码器子网络设计混合块。然而,这些工作主要集中在提高分割精度,这反过来又在参数和FLOPs方面大大增加了模型的大小,导致鲁棒性不尽如人意。我们认为,这种不令人满意的鲁棒性可能是由于它们低效的self-attention设计,这在3D医学图像分割任务中变得更加成问题。此外,这些现有方法没有捕捉到可以提高分割质量的空间和通道特征之间的显式依赖关系。在这项工作中,我们的目标是在一个统一的框架中同时提高分割精度和模型效率。

贡献: 我们提出了一种用于3D医学图像分割的高效混合层次结构,名为 UNETR++,它力求在参数和FLOP方面实现更好的分割精度和效率。基于最近的UNETR框架,我们提出的UNETR++分层方法引入了一种新颖的高效配对注意力 (EPA) 块,通过在两个分支中同时使用空间和通道注意力有效的捕获丰富的相互依赖的空间和通道特征。我们在EPA中的空间注意力将key和value投射到固定的低维空间,使自注意力计算与输入tokens的数量成线性关系。另一方面,我们的通道注意力通过在通道维度中执行query和key之间的点积运算来强调通道特征图之间的依赖关系。此外,为了捕获空间和通道特征之间的强相关性,query和key的权重在分支之间共享,这也有助于控制网络参数的数量。相反,value的权重保持独立,以强制在两个分支中学习互补特征。

我们通过对三个基准进行综合实验来验证我们的UNETR++方法:Synapse、BTCV 和 ACDC。定性和定量结果都证明了UNETR++的有效性,与文献中的现有方法相比,在分割精度和模型效率方面具有更好的性能。在Synapse上,与基线 UNETR 相比,我们的 UNETR++ 实现了高质量的分割Mask(见图 1 左),在Dice相似度得分方面的绝对增益为8.9%,同时显着降低了模型复杂性,参数减少了54%,FLOPs减少了 37%。此外,UNETR++优于现有最好的 nnFormer方法,在参数和 FLOP 方面都有相当大的减少(参见右图 1)。

在这里插入图片描述

图1. 左图: 基线 UNETR [13] 和我们的 UNETR++ 在Synapse 之间的定性比较。我们展示了两个包含多个器官的例子。每个不准确的分割区域都用白色虚线框标记。在第一行中,UNETR 难以准确分割右肾 (RKid) 并将其与胆囊 (Gal) 混淆。此外,胃 (Sto) 和左肾上腺 (LAG) 组织的分割不准确。在第二行,UNETR 努力分割整个脾脏并将其与胃 (Sto) 以及门静脉和脾静脉 (PSV) 混合。此外,它对某些器官(例如,PSV 和 Sto)进行了过度分割。相比之下,我们的UNETR++在提出的 EPA 块中有效地编码了丰富的相互依赖的空间和通道特征,准确地分割了这些示例中的所有器官。图像最好放大看。其他定性比较显示在图4和补充材料中。右图: Synapse 上的准确性(Dice 分数)与模型复杂性(FLOP 和参数)比较。与现有的最佳 nnFormer相比,UNETR++ 实现了更好的分割性能,同时将模型复杂度显着降低了 71% 以上。

2 Related Work

基于 CNN 的分割方法: 自从引入U-Net设计以来,几种基于 CNN 的方法[D-Unet、Unet3+、Unet++等] 已经针对各种医学图像分割任务扩展了标准 U-Net 架构。

在 3D 医学图像分割 [3D UNet,Automatic multi-organ segmentation on abdominal ct with dense v-networks(TMI),V-net, MedT] 的情况下,整个体积图像通常作为 2D切片序列进行处理。几项工作探索了层次框架来捕获上下文信息。 VNet提出通过将体积下采样到较低分辨率来使用体积图像的3D表示,以保留有益的图像特征。 3D Unet通过将2D操作替换为对应的3D操作,从稀疏注释的体积图像中学习,将 U-Net 架构扩展到体积分割。 Isensee 等人介绍了一个名为 nnUNet 的通用分割框架,它可以自动配置架构以在多个尺度上提取特征。

Hierarchical 3d fully convolutional networks for multi-organ segmentation.提出了一个多尺度 3D 全卷积网络来学习来自多器官分割的不同分辨率的表示。此外,文献中已经做出多项努力,使用例如图像金字塔 、大卷积核、扩张卷积和可变形卷积在基于 CNN 的框架内对整体上下文信息进行编码。

基于 Transformers 的分割方法: Vision Transformers (ViTs) 最近受到欢迎,因为它们能够对远程依赖项进行编码从而在各种视觉任务上取得有希望的结果,包括分类和检测。 Transformer 架构中的主要构建块之一是自注意力操作,它对图像块序列之间的交互进行建模,从而学习全局关系。最近很少有工作探索如何减轻 transformer框架内标准自注意力操作的复杂性问题。然而,这些最近的工作大多主要集中在分类问题上,并没有针对密集预测任务进行研究。

在医学图像分割的背景下,最近的工作很少研究纯Transformer设计。Convolution-free medical image segmentation using transformers[MICCAI 2021]提出将体积图像划分为 3D 块,然后将其展平以构建1D嵌入并传递给主干以进行全局表示。 Swin Unet介绍了一种用于2D医学图像分割的具有移位窗口的架构。在这里,图像被分成小块并送入U形编码器解码器以进行局部-全局表示学习。

混合分割方法: 除了纯 CNN 或基于变换器的设计之外,最近的几项工作探索了混合架构以结合卷积和自注意力操作以实现更好的分割。 TransFuse提出了一种带有BiFusion模块的并行 CNN-transformer 架构,以融合编码器中的多级特征。 MedT在 self-attention 中引入了门控位置敏感轴向注意机制来控制编码器中的位置嵌入信息,而解码器中的 ConvNet 模块产生分割模型。 TransUNet结合了transformer和 U-Net 架构,其中变换器对来自卷积特征的嵌入图像块进行编码,解码器将上采样编码特征与高分辨率 CNN 特征相结合以进行定位。

Ds-transunet利用基于 Swin transformer的双尺度编码器来处理多尺度输入,并通过自注意力对来自不同语义尺度的局部和全局特征表示进行编码。 Hatamizadeh 等人介绍了一种 3D 混合模型 UNETR,它将transformer的远程空间依赖性和 CNN 的归纳偏置结合到一个“U 形”编码器解码器架构中。 UNETR 中的变换器块主要用于编码器中以提取固定的全局表示,然后在多个分辨率下与基于 CNN 的解码器合并。 Zhou 等人介绍了一种名为 nnFormer 的方法,它采用了 Swin-UNet架构。在这里,卷积层将输入扫描转换为 3D 补丁,并引入基于体积的自注意力模块来构建分层特征金字塔。

在实现有前途的性能的同时,与 UNETR 和其他混合方法相比,nnFormer 的计算复杂度要高得多。

我们的方法: 如上所述,与纯 CNN 和基于transformer的对应方法相比,最近的混合方法(例如 UNETR和 nnFormer)实现了改进的分割性能。

然而,我们注意到,这种通过这些混合方法提高分割精度是以更大的模型为代价的(在参数和 FLOP 方面),这可能进一步导致不令人满意的鲁棒性。例如,与现有最好的基于 CNN 的 nnUNet 相比,UNETR 实现了良好的精度,但包含的参数多了2.5倍。此外,nnFormer 获得了优于 UNETR 的性能,但参数进一步增加了 1.6 倍,FLOPs 增加了 2.8 倍。此外,我们认为,上述这些混合方法难以有效地捕获特征通道之间的相互依赖关系,以获得对空间信息和通道间特征依赖关系进行编码的丰富特征表示。在这项工作中,我们着手在一个统一的混合分割框架中共同解决上述问题。

3 Method

动机: 为了实现我们的方法,我们首先区分了在设计高效而准确的混合框架时要考虑的两个理想属性。

Efficient Global Attention: 如前所述,大多数现有的混合方法采用自注意力操作,在tokens数量方面具有平方复杂性。在3D医学分割的情况下,这在计算上是昂贵的,并且在混合设计中交错窗口注意力和卷积组件时变得更成问题。与这些方法不同,我们认为跨特征通道而不是体积维度计算自注意力有望将体积维度的复杂性从平方降低到线性。此外,通过将key和value的空间矩阵投影到低维空间中,可以有效地学习空间注意力信息。

Enriched Spatial-channel Feature Representation: 大多数现有的混合3D医学图像分割方法通常通过注意力计算来捕获空间特征,并以编码不同通道特征图之间的相互依赖关系的形式忽略通道信息。有效地结合空间维度中的相互作用和通道特征之间的相互依赖性有望提供丰富的上下文空间通道特征表示,从而改进mask预测。

3.1.总体架构

图 2 展示了我们的 UNETR++ 架构,包括分层编码器-解码器结构。

我们的 UNETR++ 框架基于最近推出的 UNETR,在编码器和解码器之间具有跳过连接,然后是卷积块(ConvBlocks)来生成预测掩码。我们的 UNETR++ 没有在整个编码器中使用固定的特征分辨率,而是采用分层设计,其中特征分辨率在每个阶段逐渐降低两倍。在我们的 UNETR++ 框架中,编码器有四个阶段,其中第一阶段包括Patch嵌入以将体积块输入划分为3D补丁,然后是我们新颖的高效配对注意 (EPA) 块。

在这里插入图片描述

图 2. 我们的具有分层编码器-解码器结构的 UNETR++ 方法概述。3D的Patch被馈送到编码器,然后编码器的输出通过跳过连接连接到解码器,然后是卷积块以产生最终的分割掩码。我们设计的重点是引入高效的配对注意 (EPA) 块(第 3.2 节)。每个 EPA 块使用具有共享keys-queries和不同值层的并行注意模块执行两项任务,以有效地学习丰富的空间通道特征表示。如EPA框图(右侧)所示,第一个(顶部)注意力模块通过线性方式对投影特征进行加权和来聚合空间特征,以计算空间注意力图,而第二个(底部)注意力模块模块强调通道中的依赖关系并计算通道注意力图。最后,两个注意模块的输出被融合并传递给卷积块以增强特征表示,从而产生更好的分割Mask。

在块嵌入中,我们将每个3D输入(体积)x ∈ RH×W ×D 分成不重叠的块 xu ∈ RN×(P1,P2,P3) ,其中 (P1, P2, P3) 是每个块的分辨率patch 和 N = ( H/P1 × W/P2 × D/P3 ) 表示序列的长度。然后,将patch投影到C通道维度,生成大小为 H/P1 × W/P2 × D/P3 ×C 的特征图。我们使用与nnformer中相同的Patch分辨率 (4, 4, 2)。对于每个剩余的编码器阶段,我们采用使用非重叠卷积的下采样层将分辨率降低两倍,然后是 EPA 块。

在我们提出的 UNETR++ 框架中,每个 EPA 块包含两个注意模块,通过使用共享keys-queries方案对空间和通道维度的信息进行编码来有效地学习丰富的空间通道特征表示。编码器阶段通过跳跃连接与解码器阶段连接,以合并不同分辨率的输出。这使得能够恢复在下采样操作期间丢失的空间信息,从而预测更精确的输出。与编码器类似,解码器也包括四个阶段,其中每个解码器阶段都包含一个上采样层,使用反卷积将特征图的分辨率提高两倍,然后是 EPA 块(最后一个解码器除外)。每两个解码器级之间的通道数量减少两倍。因此,最后一个解码器的输出与卷积特征图融合以恢复空间信息并增强特征表示。

然后将生成的输出馈入 3×3×3 和 1×1×1 卷积块以生成体素方面的最终mask预测。接下来,我们详细介绍我们的 EPA 块。

3.2. Efficient Paired-Attention Block

提出的EPA块执行高效的全局注意力并有效地捕获丰富的空间通道特征表示。 EPA 块包括空间注意力和通道注意力模块。空间注意模块将自注意力的复杂性从平方降低到线性。另一方面,通道注意力模块有效地学习了通道特征图之间的相互依赖关系。EPA块基于两个注意模块之间的共享keys-queries方案,相互通知以生成更好、更有效的特征表示。这可能是由于通过共享key和query但使用不同的value层来学习互补特征。

如图 2(右)所示,由大小为 H/4 × W/4 × D/2 × C 的块嵌入 x 生成的特征图被直接馈送到连续的 EPA块中,然后是三个编码器阶段。 Q和K线性层的权重在两个注意力模块之间共享,并且每个注意力模块使用不同的 V 层。两个注意模块计算如下:

在这里插入图片描述

Xs、Xc分别表示空间和通道注意力图,SA是空间注意力模块,CA是通道注意力模块。 Qshared、Kshared、Vspatial、Vchannel分别是共享query、共享key、空间value层、通道value层的矩阵。

空间注意: 我们在这个模块中努力通过将复杂度从 O(n2) 降低到 O(np)来有效地学习空间信息,其中n是token的数量,p是投影向量的维度,其中 p



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有