TransFuse融合变换和神经网络
广点通求职招聘交流QQ群 http://nvrenjkw.com/nxzx/5715.html

摘要:医学图像分割--大量临床需求的前提--随着卷积神经网络(CNN)的最新进展而得到显著发展。然而,它在建模显式长程关系方面表现出普遍的局限性,并且现有的治疗方法借助于构建深度编码器和激进的下采样操作,导致冗余的加深网络和局部细节的丢失。因此,分割任务等待着一个更好的解决方案,以提高全局上下文建模的效率,同时保持对低层细节的强大把握。在本文中,我们提出了一种新的并行分支体系结构--TransFuse,以应对这一挑战。TransFuse以一种并行的方式组合了Transformers和CNN,其中全局依赖项和低级空间细节都可以以浅得多的方式有效地捕获。此外,还提出了一种新的融合技术-BiFusion模块,有效地融合了两个分支的多层次特征。大量实验表明,TransFuse在二维和三维医学图像集上都取得了最新的最新结果,包括息肉、皮肤病变、髋部和前列腺分割,参数显著减少,推理速度得到提高。

关键词:医学图像分割,Transformers,卷积神经网络,Fusion

1、引言

卷积神经网络(CNN)在许多医学图像分割任务中取得了无与伦比的性能[9,12],如多器官分割、肝脏病变分割、脑3DMRI等,因为它被证明能够通过端到端的训练来建立分层的特定于任务的特征表示。尽管基于CNN的方法取得了巨大的成功,但其在获取全球背景信息方面缺乏效率仍然是一个挑战。感知全局信息的机会与效率的风险相等。因为现有的工作通过生成非常大的感受野来获取全局信息,这需要连续下采样和堆叠卷积层直到足够深。这带来了几个缺点:1)非常深的网络的训练受到特征重用递减问题的影响[23],其中低级特征被连续乘法洗掉;2)随着空间分辨率逐渐降低,对密集预测任务(例如逐像素分割)至关重要的局部信息被丢弃;3)用小型医学图像数据集训练参数繁重的深度网络往往不稳定且容易过拟合。一些研究[29]使用非局部自注意力机制来模拟全局上下文;然而,这些模块的计算复杂度通常随空间大小呈二次方增长,因此它们可能仅适用于低分辨率地图。

Transformer最初用于对NLP任务中的序列到序列的预测进行建模[26],最近在计算机视觉领域引起了极大的兴趣。第一个纯粹基于自我注意的视觉转换器(VIT)在[7]中被提出,它在对大量外部数据集进行预训练的前提下,在ImageNet[6]上获得了与之竞争的结果。在传统的基于编解码器的网络中,SET[32]将编码器替换为transformers,从而成功地在自然图像分割任务中获得了最先进的(SOTA)结果。虽然Transformer擅长对全局环境进行建模,但它在捕捉细粒度细节方面存在局限性,尤其是对于医学图像。我们独立地发现,由于在建模局部信息时缺乏空间感应偏差(也在[4]中报道),基于SETR型pureTransformer的分割网络的性能不能令人满意。

为了享受两者的好处,人们已经努力将CNN与Transformers相结合,例如TransUnet[4],它首先利用CNN来提取低级特征,然后通过Transformers来模拟全局交互。结合Skip-Connection,TransUnet在CT多器官分割任务中创造了新的记录。然而,以往的工作主要集中在用Transformers层代替卷积或将两者以顺序的方式叠加。为了进一步释放CNN+Transformers在医学图像分割中的作用,本文提出了一种不同的架构--TransFuse,它并行运行基于浅层CNN的编码器和基于Transformers的分割网络,然后我们提出了BiFusion模块,将两个分支的特征融合在一起,共同进行预测。Fusion具有以下几个优点:1)既能有效捕获低层空间特征,又能有效捕获高层语义上下文;2)不需要很深的网络,缓解了梯度消失和特征递减重用的问题;3)大大提高了模型规模和推理速度的效率,不仅可以部署在云上,也可以部署在边缘上。据我们所知,TransFuse是第一个综合了CNN和Transformer的并行分支模型。实验证明,与其他竞争的SOTA作品相比,该算法具有更好的性能。

2、方法论

如图1所示,TransFuse由两个并行处理信息的分支组成:1)CNN分支,逐渐增加感受野,将特征从局部编码到全局;2)Transformer分支,从全局自注意力开始,最后恢复局部细节。从两个分支中提取的具有相同分辨率的特征被输入到我们提出的BiFusion模块中,其中应用自注意力和双线性Hadamard积来选择性地融合信息。然后,结合多级融合特征图,使用门控跳跃连接[20]生成分割。提出的并行分支方法有两个主要好处:首先,通过利用CNN和Transformer的优点,我们认为TransFuse可以在不构建非常深的网络的情况下捕获全局信息,同时保持对低级上下文的敏感性;其次,我们提出的BiFusion模块可以在特征提取过程中同时利用CNN和Transformer的不同特性,从而使融合表示功能强大且紧凑。

图1:TransFuse概述(最好用彩色查看):两个平行分支-CNN(右下)和transformer(左)由我们提出的BiFusion模块融合。

Transformer分支。Transformer分支的设计遵循典型的编码器-解码器架构。具体来说,首先将输入图像均匀划分为个块,其中S通常设置为16。然后将块展平并传递到输出维度为D0的线性嵌入层,得到原始嵌入序列。利用空间之前,将相同维度的可学习位置嵌入添加到e。生成的嵌入是Transformer编码器的输入,它包含L层多头自注意力(MSA)和多层感知器(MLP)。我们强调,作为Transformer的核心原理的自我注意(SA)机制通过在每一层全局聚合信息来更新每个嵌入式补丁的状态:

其中是投影矩阵,向量

分别是z和q的第i行。MSA是SA的扩展,它连接多个SA并将潜在维度投影回,而MLP是密集层的堆栈(有关MSA和MLP的详细信息,请参阅[7])。层归一化应用于最后一个transformer层的输出以获得编码序列。对于解码器部分,我们使用渐进上采样(PUP)方法,如SETR[32]。具体来说,我们首先将ZL重新整形为

,这可以看作是具有D0通道的2D特征图。然后我们使用两个连续的标准上采样卷积层来恢复空间分辨率,我们分别获得

和。保存不同尺度t0、t1和t2的特征图,以便与CNN分支的相应特征图进行后期融合。

CNN分支。传统上,特征被逐步下采样到,并且在深度CNN中使用数百层来获取特征的全局上下文,这导致非常深的模型耗尽资源。考虑到Transformer带来的好处,我们从原始的CNN管道,并利用Transformer分支来获取全局上下文信息。这不仅为我们提供了更浅的模型,而且还保留了更丰富的本地信息。例如,基于ResNet的模型通常有五个块,每个块将特征图下采样两倍。我们将第4个()、第3个(

)和第2个()块的输出与Transformer的结果融合(图1)。此外,我们的CNN分支非常灵活,可以应用任何现成的卷积网络。

BiFusion模块。为了有效地结合CNN和Transformers的编码特征,我们提出了一个新的BiFusion模块(参见图1),它结合了自我注意和多模式融合机制。具体地说,我们通过以下操作获得融合特征表示fi,i=0,1,2:

其中是Hadamard积,Conv是3x3卷积层。按照[10]中的SE-Block建议的那样实施通道注意,以促进来自Transformer分支的全局信息。采用CBAM[30]块中的空间


转载请注明:http://www.bdnnq.com/sdxryf/45549.html


当前时间:
冀ICP备2021020411号-6