ICLR 2021 | 協(xié)同調制生成對抗網絡,輕松幫你實現(xiàn)任意大區(qū)域圖像填充
編者按:圖像填充是深度學習領域內的一個熱點任務。盡管現(xiàn)有方法對于小規(guī)模、稀疏區(qū)域的填充可以取得不錯的效果,但對于大規(guī)模的缺失區(qū)域始終無能為力。為解決這一問題,微軟亞洲研究院提出了協(xié)同調制生成式對抗網絡——一種通用的方法,跨越了條件與無條件圖像生成領域之間的鴻溝。這一方法不但能夠高質量、多樣地填充圖像任意規(guī)模的缺失區(qū)域,同時也能被應用于更廣泛的圖像轉換任務。此外,考慮到圖像填充領域內缺乏良好的指標,研究員們還提出了配對/無配對感知器辨別分數(shù)(P-IDS/U-IDS)以更加魯棒、直觀、合理地衡量模型性能。該相關工作已被 ICLR 2021 接受為 Spotlight Presentation。
如何對殘缺圖像進行修復?傳統(tǒng)方法需要使用修圖軟件中的畫筆、圖章、加深減淡……等工具,如果有美觀/美顏的需求,還得請“專家”上手。近日,微軟亞洲研究院的研究員們在 ICLR 2021 大會上發(fā)表了一項工作:“Large Scale Image Completion via Co-Modulated Generative Adversarial Networks”(通過協(xié)同調制生成對抗網絡進行大規(guī)模圖像填充),能夠實現(xiàn)一鍵修圖。
讓我們先來看看它的修復“手藝”吧!
下面這兩張圖片,左圖是原圖,右圖是修復過的圖像。與左圖相比,右圖中的裂縫是不是沒有了?
不僅如此,遮擋物也能修復!將左邊的原圖經過處理后,右圖呈現(xiàn)出的景物更加完整。
殘缺的圖片也可以自動補全啦!原來破敗的房子,處理之后,煥然一新。
現(xiàn)在這項研究成果已經可以在線體驗啦!點擊閱讀原文,即可上手嘗試。
技術思想:圖像生成能力
事實上,圖像填充是深度學習領域內的一個熱點任務。盡管現(xiàn)有方法對于小規(guī)模、稀疏區(qū)域的填充可以取得不錯的效果,但對于大規(guī)模的缺失區(qū)域始終無能為力。為解決這一問題,微軟亞洲研究院的研究員們提出了協(xié)同調制生成式對抗網絡,其研究主要思想是:解決大規(guī)模圖像填充的關鍵在于需要充分的圖像生成能力。
考慮一個極端情況——如果一張圖像絕大部分的面積被遮擋,那么這一情況下圖像填充的難度就幾乎等價于無條件的圖像生成。由此可以推斷,充足的圖像生成能力將能夠極大地助力大區(qū)域的圖像填充。
當前,越來越多基于條件生成對抗網絡(conditional GAN)的圖像填充方法被提出。因為這一任務極具挑戰(zhàn)性,大量研究者都在針對這一具體任務來優(yōu)化網絡結構,如利用中間表征信息(邊緣、結構等)來構建多階段的生成網絡。但即便如此,這些方法在面對大規(guī)模的缺失區(qū)域時仍然無法生成合理的、與已知部分協(xié)調的圖像內容。而利用圖像的生成能力則能夠在一定程度上解決這個挑戰(zhàn)。
技術核心:協(xié)同調制生成對抗網絡
目前,以 StyleGAN、BigGAN 為代表的無條件生成對抗網絡借助調制(modulation)的方法(如圖1 (a)),可以在無條件圖像生成任務(如隨機生成人臉)中取得非常好的結果。然而,在以圖像為條件的生成任務(如圖像填充)中,大多數(shù)工作仍然無法突破普通圖像條件生成器(圖1 (b))帶來的瓶頸。即便有些工作嘗試利用輸入圖片進行條件調制(圖1 (c)),但這種完全依賴于條件輸入、缺乏隨機性的生成器結構導致其無法泛化到需要弱條件生成能力的任務上,尤其是大區(qū)域的圖像填充。
圖1:不同生成式網絡架構對比——(a) 無條件調制生成器,(b) 普通圖像條件生成器,(c) 有條件調制生成器,(d) 協(xié)同調制生成器。
因此,微軟亞洲研究院的研究員們提出了協(xié)同調制生成對抗網絡(如圖1 (d)),協(xié)同地將條件輸入與隨機潛矢量經過映射網絡產生的風格表征對每個卷積層進行調制,從而跨越了條件與無條件圖像生成領域之間的鴻溝,輕松實現(xiàn)任意大區(qū)域的圖像填充(見圖2、圖3),并能夠應用于更一般的圖像轉換(image-to-image translation)任務中(圖4)。
圖2:從小規(guī)模(左)到大規(guī)模(右)的缺失區(qū)域,協(xié)同調制生成對抗網絡始終可以創(chuàng)作出高質量、多樣的填充內容。
圖3:不同圖像填充方法之間的比較。協(xié)同調制生成對抗網絡的填充結果(右一)顯著優(yōu)于其它經典方法,即使面對大面積且不規(guī)則的缺失區(qū)域,它的效果依舊出色。
圖4:協(xié)同調制生成對抗網絡應用于圖像轉換任務。在 Edges2Handbags 數(shù)據(jù)集上,協(xié)同調制生成對抗網絡表現(xiàn)出嚴格優(yōu)于其它經典方法的圖像質量(FID)與圖像多樣性(LPIPS)之間的權衡曲線。
技術評價:配對/無配對感知器辨別分數(shù)
研究員們還注意到圖像填充領域內缺乏良好的評價指標。此前的研究多采用像素級相似度指標(如 l_1、l_2、SSIM、PSNR 等)或直接采用圖像生成領域內如 FID、KID 等的指標。前者更加青睞模糊的生成圖像,而后者則完全忽略了圖像的配對關系(原圖像—填充后圖像)。
因此,研究員們提出了新的配對/無配對感知器辨別分數(shù)(P-IDS/U-IDS),通過計算生成圖像與真實圖像在感知器特征空間中的線性可分程度,反映了生成圖像的保真度。實驗驗證了該指標的魯棒性、直觀性、與合理性:
1)P-IDS/U-IDS 在少量數(shù)據(jù)的情況下能夠快速收斂(如圖5);
2)P-IDS 能夠敏銳地捕捉圖像的微小差距(如圖6);
3)P-IDS 與人類偏好有著高相關度——FID 與人類偏好的負相關度為0.765,而 P-IDS 的正相關度高達0.870。
圖5:相較于 FID,P-IDS/U-IDS 在數(shù)據(jù)量少的情況下收斂迅速。
圖6:P-IDS 能夠捕捉圖像的細微差距。在 512×512 大小的圖像中,一定數(shù)量(橫軸)的像素被刪除并進行了最近鄰插值。
協(xié)同調制填補了條件與無條件圖像生成之間的空缺,可輕松實現(xiàn)任意大區(qū)域的圖像補全,還可以被拓展至更廣泛的圖像轉換任務。同時,配對/無配對感知器辨別分數(shù)(P-IDS/U-IDS)評價指標的諸多良好性能也使其在領域內有著極高的潛力。研究員們希望協(xié)同調制生成對抗網絡架構能夠成為領域內的基準方法,繼續(xù)推動這一領域的前進。
論文:Large Scale Image Completion via Co-Modulated Generative Adversarial Networks
論文鏈接:https://arxiv.org/pdf/2103.10428
GitHub:https://github.com/zsyzzsoft/co-mod-gan
Demo:http://comodgan.ml/
本文作者:趙晟宇、崔仁、盛翊倫、董玥、梁霄、張益肇、許燕
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。