U-Net 3+: 全尺度的跳躍連線的 UNet

點選上方“

3D視覺工坊

”，選擇“星標”

乾貨第一時間送達

前言：

U-Net

由Olaf Ronneberger等人在在2015年MICCAI上提出。

U-Net在神經元結構分割方面取得了巨大的成功，由於功能在層之間傳播，因此其框架是突破性的。

後續在U-Net的基礎上湧現了許多優秀的架構如：U-Net++，

Attention U-Net，U2-Net等，今天我們將介紹新的

U-Net

結構：

U-Net++

+。

透過增強

U-Net

架構，在多個數據集上

U-NET 3+效能優於

Attention UNET

，

PSPNet

，

DeepLabV2

，

DeepLabV3

和

DeepLabv3 +

。這是發表2020 ICASSP的

一篇論文，

UNet++

使用巢狀和密集跳過連線，但它沒有從全尺度探索足夠的資訊。在 UNet 3+ 中，使用了全面的跳過連線和深度監督：

全尺度跳躍連線

：將來自不同尺度特徵圖的低階細節與高階語義結合起來。

全尺度的深度監督

：

從全尺度聚合特徵圖中學習分

層表示。

進一步提出了

混合損失函式

和

分類引導模組（CGM）

UNet 3+提供更少的引數，但可以產生更準確的位置感知和邊界增強的分割圖。

論文：

UNet 3+： A Full-Scale Connected UNet for Medical Image Segmentation

論文連結

：

https：//arxiv。org/abs/2004。08790

程式碼連結

：

https：//github。com/ZJUGiveLab/UNet-Version

全尺度跳躍連線

U-Net，

-Ne

++，

-Ne

3+ 結構圖：

左：UNet，中UNet++，右：UNet 3+

無論是

普通的連線U-Net還是密集連線的U-Net ++都缺乏從全尺度探索足夠資訊的能力，因此不能明確地得知器官的位置和邊界。

U-Net 3+ 中的每個解碼器層都融合了來自編碼器的較小和相同尺度的特徵圖以及來自解碼器的較大尺度的特徵圖，它們

捕獲了全尺度下的細粒度語義和粗粒度語義

。

全尺度跳躍連線示例

為了構建

特徵圖，類似於

U-NET

，

直接接收來自相同尺度編碼器層的特徵圖

。

與

U-Net 相比

，一組編碼器-解碼間跳躍連線透過非重疊最大池化操作將

來自較小

尺度編碼器層

和

進行池化下采樣，以便傳遞底層的低階語義資訊。

透過

一系列內部解碼器跳躍連線利用雙線性插值傳輸來自大尺度解碼器層

和

的高階語義資訊。

UNet 3+ 中的引數少於

UNet

和

UNet++ 中的引數

。（這裡有數學證明，有興趣的可以閱讀論文。）

全尺度的深度監督

2.1 深度監督

UNet 3+ 從每個解碼器階段（Sup1 到 Sup5）產生一個

切分側邊輸

出，由真實的分類結果監督。

為了實現深度監督，每個解碼器階段的最後一層被送入一個普通的 3 × 3 卷積層，然後是一個雙線性上取樣和

一個 sigmoid 函式。

2.2 損失函式

多尺度結構相似性指數（MM-SSIM）損失用於為模糊邊界分配更高的權重。

Focal loss起源於

RetinaNet

，用於處理類不平衡問題。

使用標準IoU 損失。

因此，開發了一種混合損失用於在三級層次結構（畫素級、補丁級和圖片級）中進行分

割，它能捕獲大尺度的和精細結構清晰

的邊界，混合分割損失被定義為：

2.3. 分類引導模組 (CGM)

具有分類引導模組（CGM）的全面深度監督

非器官影象中存在誤報。

這可能是

由於來自背景的噪聲資訊

保留在較淺層中，導致過度分割現象。

為了解決這個問題，增加了一個額外的分類任務，用於預測輸入影象是否有器官。

如在上面

的圖所示，經過一系列的操作包括dropout，卷積，maxpooling，sigmoid，最後有兩個值代表有/沒

有器官的機率，最深層次的二維張量

，其中每一個代表的有/

無器官的機率。

在argmax 函式的幫助下，二維張量被轉換為 {0，1} 的單個輸出，表示有/無器官。

隨後，單分類輸出與側分

割輸出相乘。由於二值分類任務的簡單性，該模組透過最佳化二值交叉熵損失函式，輕鬆獲得準確的分類結果，實現了對非器官影象過分割的指導。

實驗結果

3.1

Datasets

肝臟分割資料集來自ISBI LiTS 2017 Challenge。它包含 131 幅對比增強的 3D 腹部 CT 掃描，其中 103 卷和 28 卷分別用於訓練和測試。

來自醫院的脾臟資料集，包含 40 和 9 個 CT 卷用於訓練和測試。

影象被裁剪為 320×320。

3.2

與

UNet

和

UNet++

的

比較

肝臟和脾臟資料集

測試了

VGGNet

和

ResNet

主幹。沒有深度監督的 UNet 3+ 實現了超越

UNet

和

UNet++ 的

效能，在兩個資料集上執行的兩個主幹之間獲得了 2。7 和 1。6 點的平均改進。UNet 3+結合全面深度監督進一步提升0。4分。

紫色區域：真陽性（TP）；

黃色區域：假陰性（FN）；

綠色區域：假陽性（FP）。

UNet3+不僅能準確定位器官，還能產生連貫的邊界，即使是在小物體的情況下。

3.3 與其他方法比較

肝臟和脾臟資料集

所有結果直接來自單模型測試，不依賴任何後處理工具。

透過考慮畫素級、補丁級、地圖級最佳化，所提出的混合損失函式極大地提高了效能。

此外，UNet 3+利用分類指導模組（CGM），巧妙地避免了複雜背景下的過度分割。

最後，UNET 3+效能優於

Attention UNET

，

PSPNet

，

DeepLabV2

，

DeepLabV3

和

DeepLabv3 +

。