ICLR 2021 | 協同調製生成對抗網路,輕鬆幫你實現任意大區域影象填充

編者按:影象填充是深度學習領域內的一個熱點任務。儘管現有方法對於小規模、稀疏區域的填充可以取得不錯的效果,但對於大規模的缺失區域始終無能為力。為解決這一問題,微軟亞洲研究院提出了協同調製生成式對抗網路——一種通用的方法,跨越了條件與無條件影象生成領域之間的鴻溝。這一方法不但能夠高質量、多樣地填充影象任意規模的缺失區域,同時也能被應用於更廣泛的影象轉換任務。此外,考慮到影象填充領域內缺乏良好的指標,研究員們還提出了配對/無配對感知器辨別分數(P-IDS/U-IDS)以更加魯棒、直觀、合理地衡量模型效能。該相關工作已被 ICLR 2021 接受為 Spotlight Presentation。

如何對殘缺影象進行修復?傳統方法需要使用修圖軟體中的畫筆、圖章、加深減淡……等工具,如果有美觀/美顏的需求,還得請“專家”上手。近日,微軟亞洲研究院的研究員們在 ICLR 2021 大會上發表了一項工作:“Large Scale Image Completion via Co-Modulated Generative Adversarial Networks”(透過協同調製生成對抗網路進行大規模影象填充),能夠實現一鍵修圖。

讓我們先來看看它的修復“手藝”吧!

下面這兩張圖片,左圖是原圖,右圖是修復過的影象。與左圖相比,右圖中的裂縫是不是沒有了?

ICLR 2021 | 協同調製生成對抗網路,輕鬆幫你實現任意大區域影象填充

不僅如此,遮擋物也能修復!將左邊的原圖經過處理後,右圖呈現出的景物更加完整。

ICLR 2021 | 協同調製生成對抗網路,輕鬆幫你實現任意大區域影象填充

殘缺的圖片也可以自動補全啦!原來破敗的房子,處理之後,煥然一新。

ICLR 2021 | 協同調製生成對抗網路,輕鬆幫你實現任意大區域影象填充

技術思想:影象生成能力

事實上,影象填充是深度學習領域內的一個熱點任務。儘管現有方法對於小規模、稀疏區域的填充可以取得不錯的效果,但對於大規模的缺失區域始終無能為力。為解決這一問題,微軟亞洲研究院的研究員們提出了協同調製生成式對抗網路,其研究主要思想是:解決大規模影象填充的關鍵在於需要充分的影象生成能力。

考慮一個極端情況——如果一張影象絕大部分的面積被遮擋,那麼這一情況下影象填充的難度就幾乎等價於無條件的影象生成。由此可以推斷,充足的影象生成能力將能夠極大地助力大區域的影象填充。

當前,越來越多基於條件生成對抗網路(conditional GAN)的影象填充方法被提出。因為這一任務極具挑戰性,大量研究者都在針對這一具體任務來最佳化網路結構,如利用中間表徵資訊(邊緣、結構等)來構建多階段的生成網路。但即便如此,這些方法在面對大規模的缺失區域時仍然無法生成合理的、與已知部分協調的影象內容。而利用影象的生成能力則能夠在一定程度上解決這個挑戰。

技術核心:協同調製生成對抗網路

目前,以 StyleGAN、BigGAN 為代表的無條件生成對抗網路藉助調製(modulation)的方法(如圖1 (a)),可以在無條件影象生成任務(如隨機生成人臉)中取得非常好的結果。然而,在以影象為條件的生成任務(如影象填充)中,大多數工作仍然無法突破普通影象條件生成器(圖1 (b))帶來的瓶頸。即便有些工作嘗試利用輸入圖片進行條件調製(圖1 (c)),但這種完全依賴於條件輸入、缺乏隨機性的生成器結構導致其無法泛化到需要弱條件生成能力的任務上,尤其是大區域的影象填充。

ICLR 2021 | 協同調製生成對抗網路,輕鬆幫你實現任意大區域影象填充

圖1:不同生成式網路架構對比——(a) 無條件調製生成器,(b) 普通影象條件生成器,(c) 有條件調製生成器,(d) 協同調製生成器。

因此,微軟亞洲研究院的研究員們提出了協同調製生成對抗網路(如圖1 (d)),協同地將條件輸入與隨機潛向量經過對映網路產生的風格表徵對每個卷積層進行調製,從而跨越了條件與無條件影象生成領域之間的鴻溝,輕鬆實現任意大區域的影象填充(見圖2、圖3),並能夠應用於更一般的影象轉換(image-to-image translation)任務中(圖4)。

ICLR 2021 | 協同調製生成對抗網路,輕鬆幫你實現任意大區域影象填充

圖2:從小規模(左)到大規模(右)的缺失區域,協同調製生成對抗網路始終可以創作出高質量、多樣的填充內容。

ICLR 2021 | 協同調製生成對抗網路,輕鬆幫你實現任意大區域影象填充

圖3:不同影象填充方法之間的比較。協同調製生成對抗網路的填充結果(右一)顯著優於其它經典方法,即使面對大面積且不規則的缺失區域,它的效果依舊出色。

ICLR 2021 | 協同調製生成對抗網路,輕鬆幫你實現任意大區域影象填充

圖4:協同調製生成對抗網路應用於影象轉換任務。在 Edges2Handbags 資料集上,協同調製生成對抗網路表現出嚴格優於其它經典方法的影象質量(FID)與影象多樣性(LPIPS)之間的權衡曲線。

技術評價:配對/無配對感知器辨別分數

研究員們還注意到影象填充領域內缺乏良好的評價指標。此前的研究多采用畫素級相似度指標(如 l_1、l_2、SSIM、PSNR 等)或直接採用影象生成領域內如 FID、KID 等的指標。前者更加青睞模糊的生成影象,而後者則完全忽略了影象的配對關係(原影象—填充後圖像)。

因此,研究員們提出了新的配對/無配對感知器辨別分數(P-IDS/U-IDS),透過計算生成影象與真實影象在感知器特徵空間中的線性可分程度,反映了生成影象的保真度。實驗驗證了該指標的魯棒性、直觀性、與合理性:

1)P-IDS/U-IDS 在少量資料的情況下能夠快速收斂(如圖5);

2)P-IDS 能夠敏銳地捕捉影象的微小差距(如圖6);

3)P-IDS 與人類偏好有著高相關度——FID 與人類偏好的負相關度為0。765,而 P-IDS 的正相關度高達0。870。

ICLR 2021 | 協同調製生成對抗網路,輕鬆幫你實現任意大區域影象填充

圖5:相較於 FID,P-IDS/U-IDS 在資料量少的情況下收斂迅速。

圖6:P-IDS 能夠捕捉影象的細微差距。在 512×512 大小的影象中,一定數量(橫軸)的畫素被刪除並進行了最近鄰插值。

協同調製填補了條件與無條件影象生成之間的空缺,可輕鬆實現任意大區域的影象補全,還可以被拓展至更廣泛的影象轉換任務。同時,配對/無配對感知器辨別分數(P-IDS/U-IDS)評價指標的諸多良好效能也使其在領域內有著極高的潛力。研究員們希望協同調製生成對抗網路架構能夠成為領域內的基準方法,繼續推動這一領域的前進。

論文:Large Scale Image Completion via Co-Modulated Generative Adversarial Networks

論文連結:https://arxiv。org/pdf/2103。10428

GitHub:https://github。com/zsyzzsoft/co-mod-gan

Demo:http://comodgan。ml/

本文作者:趙晟宇、崔仁、盛翊倫、董玥、梁霄、張益肇、許燕