论文阅读基于端到端卷积神经网络的双平面x射线膝关节三维重建 您所在的位置:网站首页 膝关节CT检查技术和三维重建 论文阅读基于端到端卷积神经网络的双平面x射线膝关节三维重建

论文阅读基于端到端卷积神经网络的双平面x射线膝关节三维重建

2024-07-12 19:28| 来源: 网络整理| 查看: 265

End-To-End Convolutional Neural Network for 3D Reconstruction of Knee Bones From Bi-Planar X-Ray Images 基于端到端卷积神经网络的双平面x射线膝关节三维重建

相关链接: 1、专栏 2、PSIP

摘要

我们提出了一种端到端的卷积神经网络(CNN)方法,直接从两个双平面x射线图像三维重建膝关节。在临床上,获取骨的三维模型对于手术规划、种植体拟合和术后评估至关重要。与计算机断层扫描(CT)相比,x射线成像显著减少了患者受到电离辐射的暴露,而且与磁共振成像(MRI)相比,x射线成像更常见也更便宜。然而,从这样的2D扫描中检索3D模型是极具挑战性的。与统计建模每个骨骼形状的普通方法不同,我们的深度网络直接从训练图像学习骨骼形状的分布。我们使用由CT扫描生成的数字重建射线图(DRR)图像,用监督损失和非监督损失训练我们的模型。为了将我们的模型应用到x射线数据中,我们使用样式转换在x射线和DRR模态之间进行转换。因此,在测试时,无需进一步优化,我们的解决方案直接从一对双平面x射线图像输出三维重建,同时保留几何约束。我们的结果表明,我们的深度学习模型是非常有效的,泛化很好,产生高质量的重建。

1、介绍

膝关节的三维重建是各种临床应用的重要步骤。它可用于外科计划、精确的植入物选择、患者特定的植入物制造或手术中完全符合解剖结构的夹具打印。与CT扫描仪相比,X射线图像因其可获得性广、价格较低、扫描时间短和电离辐射水平较低而经常使用。然而,由于X射线图像仅提供对于二维信息,必须结合一些先验知识来提取缺失的维度。以前的方法【5,17,8,7】使用统计形状模型(SSM)或统计形状和强度模型(SSIM)从X射线图像重建骨骼。然而,可变形模型参数的优化可能会很慢,需要一个良好的初始化点来避免局部极值【22,15】。

【5】Active shape models-their training and application.主动形状模型–它们的训练和应用。 【17】Atlas-based 3d-shape reconstruction from x-ray images.基于地图集的x射线图像三维形状重建。 【8】Shape, pose and density statistical model for 3d reconstruction of articulated structures from x-ray images.基于x射线图像的关节结构三维重建的形状、姿态和密度统计模型。(2019) 【6】Fast generation of virtual x-ray images for reconstruction of 3d anatomy用于三维解剖重建的虚拟x射线图像的快速生成

本文提出了一种新的端到端深度学习方法,用于从两幅双平面X射线图像中重建膝关节的三维结构。整个方案如图1所示。最近,CNN已被证明对各种类型的任务非常有效【18】,包括图像分割和分类。然而,使用深度学习方法从两个或更多个2D图像实现3D重建仍然是一项具有挑战性的任务,这是因为很难用标准可区分层来表示多视图设置中的维度放大。此外,由于X射线图像的透明性质,与标准的多视图设置相比,匹配多视图之间的曲面点以进行密集重建极具挑战性【11】。 在这里插入图片描述

图1:一般方案:膝关节的AP和侧位X光扫描被复制到3D阵列中,每个阵列都在不同的通道上(绿色和红色用于说明)。然后,CNN预测用于骨骼的3D重建的骨骼类别的3D分割图

为了解决这些问题,我们引入了一种维放大方法,即给定两个双平面x射线后投影,将每一对对应的极线投射到一个双通道的极面中。这就产生了一个包含从两张x射线图像中观察到的所有信息的3D体,同时保留了双视图的几何约束。我们将这种表示与深度学习架构结合起来,输出不同骨骼的3D模型。实验结果表明,该方法可用于膝关节的三维重建。我们坚信,我们的方法为未来基于深度学习的x射线扫描骨骼三维建模研究铺平了道路。与基于SSM的方法相比,我们的方法不需要初始化,运行时间为0.5秒,而一个膝关节的标准SSM优化大约需要4.88秒。

2、相关工作 Deformable models 可变形模型

基于x射线图像的三维骨骼重建多采用SSM【5,17,6,1】进行骨表面建模,SSIM【8,7】进行骨密度进一步建模。我们请读者参【22,9】以获得现有方法的全面概述。其基本原理是对一组三维模型进行严格对齐,并对它们的非刚性相互主成分进行表征。然后,给定一幅或多幅x射线图像,通过优化模型参数,最大限度地提高其渲染版本与输入x射线图像之间的相似性,实现骨骼的三维重建。最近,【15】使用了一种深度学习方法来检测x射线图像中的地标,并将它们三角化到3D点上。然而,他们的网络并不直接输出骨骼重建,检测到的3D地标只用于初始化3D可变形模型。因此,仍然需要进行SSM优化,大约需要1分钟。

【15】3d reconstruction of leg bones from x-ray images using cnn-based feature analysis.利用基于cnn的特征分析,从x射线图像中三维重建腿骨。(2019) 【1】2d–3d shape reconstruction of the distal femur from stereo x-ray imaging using statistical shape models利用统计形状模型从立体x线成像中重建远端股骨的2d-3d形状 【9综述】(看一下1)3d modeling of x-ray images: A review.x射线图像的三维建模:综述(2015) 【22综述】(看一下2)Review of 2-d/3-d reconstruction using statistical shape and intensity models and x-ray image synthesis: Toward a unified framework.回顾2-d/3-d重建使用统计形状和强度模型和x射线图像合成:朝向一个统一的框架。(2018IEEE) 【6】3d shape reconstruction of bone from two x-ray images using 2d/3d non-rigid registration based on moving least-squares deformation.基于移动最小二乘变形的二维/三维非刚体配准对两幅x射线图像进行骨三维形状重建。

Reconstruction from multiple images 多幅图像重建

最近的一些方法[24,26]使用深度学习方法从单个图像重建形状,用于预定义的对象[27]。几何上,通过使用两幅或更多的图像,可以通过三角剖分相应的点,假设摄像机的相对位置已知[11],来重建一个三维表面。通过匹配点[20]或线[28,14,2]描述符可以计算出相机的相对位姿。最近的几篇论文使用深度学习方法从两张或更多的图像中重建形状。3D- R2N2[4]和LSM[13]使用RNN融合多幅图像的特征,重建一个二值体素掩码(voxels mask)来表示3D模型。相比之下,[29]从每个图像重建一个体积,并在上下文感知层中融合它们。[25]通过[24]从其中一个视图初始化网格,并通过在其3D坐标上重复应用图卷积层,从多个图像上的3D点的投影中采样学习到的2D特征来改进它。[3]利用深度网络对单个脊柱模拟的双平面x射线图像进行三维模型重建,利用二维卷积层将图像编码为特征向量,然后解码为三维卷积层重建。相比之下,我们的方法使用了更有效的、几何一致的网络架构,使用端到端带有跳跃连接的3D卷积层,使多类骨骼的重建更快、更准确,如4.2节所示。

【24】Y.G.: Pixel2mesh: Generating 3d mesh models from single rgb images.Pixel2mesh:从单一rgb图像生成三维网格模型。(2018) 【29】Pix2vox: Context-aware 3d reconstruction from single and multi-view images.Pix2vox:从单视图和多视图图像中感知上下文的3d重建。(2019) 【26】3d shape reconstruction via 2.5 d sketches.通过2.5 d草图进行三维形状重建 【27】3d shapenets: A deep representation for volumetric shapes. 3d shapenets:对体积形状的深度表示。 【11】Multiple view geometry in computer vision.计算机视觉中的多视图几何。 【4 voxels mask】3d-r2n2: A unified approach for single and multi-view 3d object reconstruction.3d-r2n2:一种单视图和多视图三维对象重建的统一方法。(2016) 【13 voxels mask】Learning a multi-view stereo machine 学习多视点立体声机器 【3很相关】Using bi-planar x-ray images to reconstruct the spine structure by the convolution neural network.利用双平面x线图像,利用卷积神经网络重建脊柱结构。(2019)

Computed Tomography from X-ray images 计算机断层扫描从x射线图像

虽然从数学上讲,从少量图像中生成计算机层析成像是一个不适定问题,但对扫描对象的先验知识可以近似自由参数。X2CTGAN【30】使用端到端深度学习方法从x射线图像重建CT。[23]训练一个特定于患者的深度网络,从单个x射线图像中提取CT体积。[12]利用深度网络从单个x射线图像重建不同哺乳动物物种的计算机断层扫描。然而,这些方法只是估计CT体积,而另一个具有挑战性的分割步骤是提取解剖物体的三维重建。

【30】X2ct-gan: reconstructing ct from biplanar x-rays with generative adversarial networks. X2ct-gan用生成对抗网络重建双平面x线ct。 【23】Patient-specific reconstruction of volumetric computed tomography images from a single projection view via deep learning. 通过深度学习,从单个投影视图重建患者特定的体积计算机断层扫描图像。

3、方法 3.1 Network Architecture 网络体系结构

给定两张尺寸均为128 × 128的侧位和前后位(AP)双平面x线图像,我们首先创建一个尺寸为128 × 128 × 128的双通道体表示。如图1所示,该volume有两个通道,每个通道包含一个视图(横向或AP),在一维上(分别为0,1)被复制128次。假设输入图像是由正交视图校正的正交投影,则该体块中的每个轴向切片包含一个外极面(epipolar plane),由对应的两个外极线的像素反向投影出体素。因此,这种3D表示在几何上与输入图像一致。(不理解1)

其余的架构灵感来自【21】,如图2所示。我们使用大小为3×3×3的3D卷积,并跳过编码层和解码层之间的连接。最后一层是1×1×1卷积块,有5个输出通道,代表5个输出类,然后是一个Softmax激活。0-4级代表膝关节的解剖划分(见图3(e))。 在这里插入图片描述

图2:我们的深度网络架构和损失函数如第3节所述。

在这里插入图片描述

图3e:骨骼类型及其分配的标签。

【21】V-net: Fully convolutional neural networks for volumetric medical image segmentation. V-net:用于体积医学图像分割的全卷积神经网络。(2016)

3.2 traing

虽然具有地面真实三维分割的CT图像是可用的,但成对的x射线图像与相关的地面真实三维重建非常罕见。此外,每个ground truth重建与x射线图像的几何对齐都需要2D-3D配准过程,这本身具有挑战性,容易出错。相反,我们使用带注释的CT扫描,通过渲染DRR来创建合成x射线图像。这样,每一对合成x射线图像都与对齐的地面真实重建相关联。

在受Fidel等人[10]启发的监督损失函数中,我们对交叉熵损失进行了空间加权,以赋予具有挑战性的近表面体素更多的重要性。对于每个训练样本,我们定义一个空间3D距离权重DWM,它有一个地面真实体积的大小,其在体素i上的值由定义: 在这里插入图片描述

d:其中d是一个距离变换,指定每个体素与任何骨骼表面的对应距离γ、σ:对所有训练样本,γ、σ分别设为常数8、10。

图3d给出了一个可视化示例。然后应用DWM对体素交叉熵损失进行如下加权:

在这里插入图片描述

i:体素的索引N:是体素的总数k是类标签qk (i)∈{0,1},pk(i)∈(0,1)分别是体素i被标记为k的ground truth和network prediction probability

在这里插入图片描述

图3(d):距离权重映射(DWM)切片在3个不同的轴(正面、侧面、水平面)上。

【10】Multiclass weighted loss for instance segmentation of cluttered cells. 多类别加权损失,例如分割杂乱的细胞。

我们进一步定义了一个无监督重建损失,以对齐网络预测的骨骼概率图与输入的x射线图像。尽管输入的x射线图像包含骨骼和其他解剖元素,但骨骼的图像梯度是相当重要的。因此,预计输入的x射线具有与预测的骨骼概率图中的drr相对相关的梯度。重构损失定义为: 在这里插入图片描述

NGCC是归一化梯度互相关【详见补充材料】

IAP、ILat分别为AP和侧视图的输入x线图像DRRAP、DRRLat 是 DRRs应用于最大骨通道的网络预测。

这种损失鼓励网络使用输入图像的可用信息,这些信息实际上可以在推理时使用,在没有监督可用的情况下。我们观察到,这种损失改善了网络对不可见图像的泛化(见第4.1节)。我们的总体损失函数是: 在这里插入图片描述 在训练网络时,使用Adam优化器,初始学习率为10−2,每10 epoch除以10倍。我们分别使用了188次、10次和20次的训练、验证和测试集,这些扫描来自膝关节CT扫描和相关GT分割和重建。每次扫描都以随机角度(−5,5)进行随机旋转,并投射到2个双平面drr中,这些drr被用作合成输入x射线。我们把网络训练了23个epoch。

3.3 Domain adaptation

x射线图像的外观与drr不同。为了将我们的深度模型应用到x射线图像上,我们训练了一个基于CycleGAN[31]的网络来将它们传输成drr风格的外观。在训练期间,在每次迭代中,模型使用两个非对应图像Ixray&IDRR来生成两个假图像:IDRR→x射线,IXray→DRR。为了生成drr风格的图像,并与输入的x射线图像完全对齐,我们使用了原始的CycleGAN和附加的内容保存丢失功能:

在这里插入图片描述 其中ZNGCC为零归一化梯度交叉相关系数2。我们使用370/57对膝关节双平面x线图像的训练/验证集,对样式转移模型进行了30个时期的训练。在补充材料中,我们展示了风格转换过程的视觉效果。

4、Experiments 4.1、DRR输入

我们在20次扫描的测试集上测试了我们的方法(见第3.2节),并使用地面真实3D分割和重建来评估结果。每一对双平面drr被用作3.1节中描述的深度网络的输入。对于每个测试样本,我们使用Marching Cubes算法[19]从预测的体积标签中提取一组3D骨骼网格。定性结果如图3a-3c所示。计算了每种骨类型的定量指标,如表1所示。骰子(越高越好)在预测的体素图上计算,而 Chamfer(越低越好)在最终重建上直接计算。

在这里插入图片描述

图3:测试DRR输入图像的定性结果集(a-c)和训练数据可视化(d-e)。

a:来自测试集的双平面输入drr。b:我们的重建是从不同的角度出发的。c:我们的重建结果显示在参考CT扫描,在三个不同的轴。

在这里插入图片描述

表1:给定双平面drr输入的结果的评估指标。结果是平均超过测试集的看不见的20次扫描。

4.2 Real X-ray test cases真实x射线测试案例

我们评估了28例x线影像测试病例。每对侧位x射线图像和AP x射线图像由专家手工裁剪,包含一对双平面矫正的膝关节图像,当调整大小为128 × 128像素时,像素大小为1 mm。即使x射线图像的视图方向不能保证完全正交,我们的方法,训练纯正交输入,成功地处理了这种情况。我们采用域自适应程序对其风格进行变换,如第3.3节所述,并将网络应用于变换后的x射线图像。在图4中,我们给出了给定输入的双平面真实x射线图像的三维重建的定性结果。由于x射线图像无法获得3D ground truth,我们对每个案例使用专家标注的2D双平面ground truth多类掩模进行评估:将每个重建的3D模型投影到2个x射线视图上,相对于GT掩模计算评估指标。

在这里插入图片描述

图4:真实x射线的定性结果。(a)双平面输入x射线。(b)从不同视角显示三维重建结果。©在输入x射线上显示的重建投影的边界

我们将我们的性能与两种基线方法[16]的股骨SSIM模型(只有他们的股骨模型有代码)和[3]的单骨重建深度网络进行比较,使用我们的训练集进行股骨重建训练,并使用真实的x射线测试图像进行测试(应用我们的域自适应后)。数量比较见表2。因为[16]需要对SSIM模型进行初始化,所以我们尽我们所能手动初始化它。[16]的优化在4.88秒后收敛,而我们的方法在不进行任何初始化的情况下,在0.5秒内重构了4种骨类型,取得了更好的结果。一个骨头重建需要45秒。演示初始化的敏感性[16],针对每种情况的测试用例,我们应用一个随机扰动手动初始化:我们改变了位置参数的20毫米,尺度参数乘以系数范围[0.985,1.015],并计算平均结果(见表2,“Perturbed”)。扰动初始化的平均运行时间从4.88秒增加到6.05秒,而34%的扰动情况根本没有收敛。我们在表3中进一步展示了一个消蚀研究,在没有几个组件的情况下运行模型来评估它们的重要性。

在这里插入图片描述

表2:28对真实x线输入的定量评估,并与[16]和[3]的股骨重建进行比较。在测试集上取平均值。髌骨指标仅在侧位视图计算(AP视图的GT注释不可用)。

技术细节 我们在一台装有MS Windows 10 64位操作系统、Intel i7 7700K CPU和Nvidia GeForce GTX 1070显卡的电脑上进行了所有的实验。数据由第三方提供,并已获得研究使用的同意

5、结论

我们提出了一种有效的端到端深度网络,用于膝关节三维重建的双平面x线扫描。我们使用了一种新的表示,从合成数据训练和领域自适应,以实现高效,鲁棒和准确的方法。在未来,我们希望将我们的方法扩展到更多的骨骼重建设置,并将我们的模型的几何2D-3D表示扩展到额外的x射线投影模型。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有