admin 管理员组文章数量: 1086019
1.论文介绍
Unleashing the Potential of SAM for Medical Adaptation via Hierarchical Decoding
通过分层解码释放 SAM 在医学适应方面的潜力
2024年 arxiv
Paper Code
2. 摘要
SAM 因其强的分割能力和直观的基于提示的工作流程而受到广泛关注。 然而,它在医学成像中的应用提出了挑战,要么需要大量的培训成本和广泛的医学数据集来进行完整的模型微调,要么需要高质量的提示以获得最佳性能。 本文介绍了 H-SAM:一种 SAM 的无提示改编,旨在通过两阶段分层解码过程对医学图像进行高效微调。 在初始阶段,H-SAM采用SAM的原始解码器来生成先验概率掩模,指导第二阶段更复杂的解码过程。 具体来说,我们提出了两个关键设计:1)类平衡、掩模引导的自注意力机制,解决标签分布不平衡的问题,增强图像嵌入; 2)可学习的掩模交叉注意机制,基于先前的掩模在空间上调制不同图像区域之间的相互作用。 此外,H-SAM 中包含的分层像素解码器增强了其捕捉细粒度和局部细节的能力。 这种方法使 SAM 能够有效地整合学习到的医学先验知识,从而有助于增强对有限样本的医学图像分割的适应能力。
Keywords:SAM,无提示,分层解码器,交叉注意力
3.Introduction
SAM 在训练期间缺乏接触医学图像,因为其广泛的训练围绕自然图像进行,所以在医学领域表现较差。虽然专门在医疗数据集上训练 SAM 是一种潜在的解决方案,但它会产生大量的训练成本和过度拟合单个数据集的风险。 以前的工作主要侧重于将适配器层插入到图像编码器中,并以最小的解码器更改。 大多数这些努力都采用提示 SAM 适应,在测试期间使用来自GT的点或边界框生成提示。 然而,创建准确的提示需要医学专家的领域知识,而这些知识通常是有限的、耗时的,并且容易产生噪音,从而影响分割的准确性。 作为回应,出现了无提示 SAM 适应方法 ,但由于缺乏提示提供的医学知识,与提示方法相比,它们通常产生较差的结果。
本文提出了 H-SAM,它是SAM 的无提示变体,旨在通过简化的两级分层掩模解码器集成医学知识,同时保持图像编码器冻结。 最初,输入图像由适用于 LoRA 的图像编码器进行处理。 H-SAM在第一阶段采用SAM原创的轻量级掩模解码器来生成先验概率掩模,指导更复杂的第二解码阶段。 这个过程有两个关键设计支撑:1)类平衡、掩模引导的自注意力机制使用先前掩模的自注意力重新校准图像嵌入,通过噪声增强确保跨类别的平衡表示。 2)可学习的掩码交叉注意机制采用先前的掩码在后续 Transformer 解码器内空间调制交叉注意,从而衰减不太相关的背景噪声。 此外,分层像素解码器补充了分层 Transformer 解码器,增强了模型的精度和捕获局部细节的能力。
4.网络结构详解
给定大小为 W ×H 的图像 I,我们的目标是预测其相应的 W × H 分割图。该图中的每个像素都被分配给预定义类别列表中的一个类别,旨在与地面实况 gt 最大程度地对齐。 我们的分割框架 H-SAM 建立在 SAM 之上,集成了适合 LoRA 的图像编码器和简单但有效的两级分层解码器。
LoRA 适配的图像编码器
H-SAM 利用 SAM 的原始图像编码器并冻结所有层以保留预先学习的知识。 然后,采用与 SAMed 相同的 LoRA 实现来添加一个由两个低秩矩阵组成的更小、可训练的旁路。 与 LoRA 一致,这些旁路首先将变压器特征压缩到低秩空间中。 随后,他们重新投影这些压缩特征以匹配冻结变压器块的输出特征通道。 仅更新这些旁路矩阵在训练期间,允许进行微小但有效的模型调整。 对于提示编码器,H-SAM不需要任何提示,只需在训练期间更新默认嵌入即可。
解码器
原始的 SAM mask 解码器由 Transformer 解码器和像素解码器组成。 Transformer 解码器处理从图像编码器提取的图像嵌入,采用自注意力机制来评估各个图像区域的重要性,并采用交叉注意力机制来关注相关区域进行分割。 随后,像素解码器细化该输出,生成详细的分割图,并为每个像素分配一个类或类别。
分层解码
H-SAM 引入了更复杂的两阶段分层解码过程。 在第一阶段,H-SAM 采用 SAM 的原始解码器来创建先验(概率)掩码,该掩码将用于指导第二阶段中更复杂的解码。第二阶段镜像了原始阶段,同时具有 Transformer 解码器和像素解码器。 为了增强图像嵌入输入并优化第二个 Transformer 解码器中的交叉注意力,我们引入了两个新颖的模块。 首先,提出了一种类平衡、掩模引导的自注意力机制来纠正标签分布不平衡的问题,从而增强第二阶段 Transformer 解码器的图像嵌入。 其次,我们在第二个 Transformer 解码器中加入了可学习的掩模交叉注意机制。 这种机制在来自先前掩模的信息的指导下,巧妙地调节各个图像区域之间的空间动态,从而增强分割过程。 这些解码器共同构成了分层 Transformer 解码器框架。 此外,受 U-Net 架构的启发,我们提出了一种分层像素解码器,以补充分层 Transformer 解码器并进一步细化分割结果。 具体来说,第二阶段的像素解码器通过跳跃连接集成了第一阶段像素解码器的特征,从而能够生成高分辨率预测。
通过类平衡掩模引导自注意力增强图像嵌入
采用了类平衡 Mask-Guided Self-Attention (CMAttn) 块来增强图像嵌入作为第二阶段 Transformer解码器的输入。 这在类别不均衡时有效; 我们使用一个掩码特征,该特征是通过直接乘以图像嵌入而无需从第一解码器进行上采样来获得的,作为CMAttn的输入掩码特征。 在自注意力块之前,采用了类平衡增强,以给数量少的类别引入更多的变化。为了解决类别不均衡问题,用高斯噪声扰动掩码特征,高斯噪声的方差与类别样本频率成反比:
其中
P
∈
R
N
×
C
×
H
×
W
P ∈ R^{N×C×H×W}
P∈RN×C×H×W是归一化的输入掩码特征。gt是调整大小为相同大小的真值掩码。N是添加的高斯噪声。方差列表是离线计算的,并存储为var。
在自注意之后,采用一个线性层来压缩通道维数,并使用Hadamard乘积矩阵将得到的掩码特征结合到输入图像嵌入中。设计了一条残留路径来保留初始图像嵌入的信息。
可学习的掩码交叉注意
Mask-attention是Mask 2Former中首次提出的交叉注意的变体。与关注全局上下文的交叉关注不同,掩码关注仅对预测掩码内的区域进行操作。Original mask-attention通过以下方式将转换后的二进制掩码添加到交叉注意操作:
其中X是Transformer块的输入查询特性。K、Q、V是交叉关注中的关键、疑问和价值。t(M)是将二值化输入{0,1}映射到{−∞,0}的函数。该掩模公式具有两个限制:(1)掩模M的梯度通过t(M)消失;(2)二值化掩模M不区分地处理所有前景像素,限制了其从掩模先验解释进一步信息的能力。
为了解决这些限制,我们建议在第二解码阶段使用可学习的掩码交叉关注,如图4所示,其可以公式化为:
其采用未变换的概率图M,该概率图M被调整大小为与交叉注意中的显著图相同的空间分辨率。利用掩模和显著图之间的元素乘积,通过乘以接近零的概率来忽略被掩模的区域。这种新的公式减轻了上述限制,并促进快速收敛和更好的性能。我们在第二阶段Transformer解码器中的可学习掩码交叉注意利用了来自概率图的更多信息,并且可以为不同的前景区域分配不同程度的重要性。
分层像素解码器
作为对Transformer解码器的补充,SAM的原始像素解码器直接将图像嵌入到H/4×W/4的分割图中。我们认为,这种解决方案是不能够捕捉到一些复杂的局部细节和小规模的医学图像分割的医学对象需要使用U形网络与多个跳跃连接。为了增强分割输出中的细节,我们仅在具有跳过连接的像素解码器中采用U形架构,以便以可接受的计算成本有效地处理医学图像中的多尺度对象。在我们的H-SAM分层解码中,第二阶段Transformer解码器经历精心制作的掩码引导设计,以将先前的掩码从第一阶段传播到下一阶段(如第12节所示)。3.2与次级3.3)。在这里,我们提出了分层像素解码器,旨在补充丰富的对象从Transformer解码器派生的查询。与分层Transformer解码器类似,分层像素解码器也由两个连续的像素解码器组成,战略性地结合跳过连接以将第一个像素解码器的特征整合到第二个像素解码器,并进一步将分辨率从H/4×W/4上采样到全分辨率H×W。受益于跳过连接的局部化特征,分层像素解码器将补充有Transformer解码器,以输出具有增强分辨率的丰富表示。
训练损失
训练损失结合了每个分段预测的像素分类损失和二进制掩码损失:
其中像素分类损失Lce和Ldice分别表示二进制交叉熵损失和骰子损失。对于我们的2阶段分层结构,2阶段中的每个损失也有一个λw。最终损失
L
t
o
t
a
l
L_{total}
Ltotal是λwLstage1和(1 − λw)Lstage2之和。参数λw被设置为以指数衰减的方式从0.8逐渐减小,衰减系数为0.005。第一个解码器输出由1/4分辨率地面实况监督,第二个输出由全分辨率监督。最后的输出是通过取两个输出的概率平均值来合成的。
5.说明
我读下来创新点在于:
- LoRA矩阵微调SAM的Image Encoder(不是新的,别人的);
- 无提示(其实好多都没提示,只不过别人淡化了这个概念本文提了);
- 解码器有两个,并且把第一个的上采样后的图像嵌入与第二个cat上了,第二个解码器,基于类间不均衡问题,把类别少的mask feature加了高斯噪声,增加多样性,还设计了个mask交叉注意力;
- 损失计算了两个解码器输出结果的损失。
网络图画得很一般。
本文标签: 笔记 论文 potential Unleashing sam
版权声明:本文标题:【论文阅读笔记】Unleashing the Potential of SAM for Medical Adaptation via Hierarchical Decoding 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://roclinux.cn/b/1738257814a1952106.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论