IEEE TNNLS｜GAN的生成器反演

均方差用什麼字母表示

作者 | 於浩清

編輯 | 龐超

今天給大家介紹帝國理工學院的Antonia Creswell等人在IEEE Transactions on Neural Networks and Learning Systems上發表的文章” Inverting the Generator of a Generative Adversarial Network”。生成性抗網路（Generative Adversarial Network，GAN）能夠生成新的資料樣本。生成模型可以從選定的先驗分佈中提取的潛在樣本來合成新的資料樣本。經過訓練，潛在空間會顯示出有趣的特性，這些特性可能對下游任務（如分類或檢索）有用。不幸的是，GAN沒有提供“逆模型”，即從資料空間到潛在空間的對映，這使得很難推斷給定資料樣本的潛在表示。在這篇文章中，作者介紹了一種技術：反演（Inversion），使用反演技術，我們能夠識別訓練後的神經網路建模和量化神經網路效能的屬性。

一、研究背景

GAN是一類生成模型，能夠合成新穎、逼真的人臉、數字和街道號碼影象。GAN包括兩個網路：生成器G和鑑別器D。生成器G從先驗分佈P（Z）中提取的隨機向量z作為輸入，訓練生成合成影象。通常選擇正態或均勻分佈為先驗分佈。GAN可以學習一種“豐富的線性結構”，這意味著在Z空間中的代數運算經常產生在影象空間中語義上有意義的合成樣本。由於在Z空間中表示的影象通常是有意義的，所以直接訪問Z空間中給定圖片的對映，對於諸如檢索或分類的辨別任務可能是有用的。人們也希望能夠訪問Z空間，以便處理原始影象。因此，我們可能希望反轉生成器。

反演（inversion）：對目標影象x，推斷出Z空間中的一個z，把z輸入給生成器時產生一個與x非常相似的影象。從x推斷z的過程稱為反演。每個z值對映到單個影象x，單個x值可能存在多個可能的z來表示。

具體演算法如下圖1所示。對於不同的資料分佈，構造L時可能需要新增正則項，詳見原文。

圖1。反演演算法

二、模型與方法

作者在三個資料集上進行了實驗。

Omniglot資料集由來自50種不同字母表的字元，其中每種字母表至少有14個不同的字元。Omniglot資料集有一個背景資料集，用於訓練和測試資料集。背景集由來自30個書寫系統的字元組成，而測試資料集由來自其他20個書寫系統的字元組成。訓練和測試資料集中的字元來自不同的書寫系統。我們使用維度d = 100的潛在表示來訓練DCGAN 和WGAN。WGAN是GAN的一個變體，更容易訓練，更不容易遭受模式崩潰。圖2a為GAN的生成結果，b為WGAN的生成結果。

圖2。生成的Omniglot樣本

Shoes資料集包括50000雙RGB顏色的鞋，來自四個不同的類別和3000多個不同的子類別。影象尺寸為128×128。作者留下1000個樣本進行測試，其餘的用於訓練。在這個實驗中，作者測試了不同解析度的圖片進行訓練的效果。圖3為Shoes資料集的生成樣本結果。

圖3。 DCGAN生成的樣本在（a）較低解析度（64 × 64）影象、（b）較高解析度影象（128 × 128）和（c）來自WGAN的樣本。

CelebA資料集由250000張名人臉組成，顏色為RGB。這些影象的尺寸為64 × 64畫素。作者留下1000個樣本進行測試，其餘的用於訓練。作者訓練了三個模型，一個用衰減噪聲訓練的DCGAN和WGAN，一個不用噪聲訓練的DCGAN。圖4為CelebA生成的樣本。

圖4。 DCGAN生成的（a）無噪聲樣本（b）有噪聲樣本（c）WGAN的生成樣本

三、實驗結果

圖5為Omniglot資料集的實驗結果。

圖5。 Omniglot資料集的實驗結果

圖6為Shoes資料集的實驗結果。

圖6。 Shoes資料集實驗結果

圖7為CelebA資料集的實驗結果。

圖7。 CelebA資料集實驗結果

3.1 效能評估

經過訓練的GAN表現出的常見問題包括：（1）模式崩潰，針對不同輸入合成相似影象樣本；（2）模式丟棄，GAN僅捕獲資料生成分佈中的某些高密度區域；（3）訓練樣本記憶，GAN記住了訓練資料中見過的樣本，並重復生成。

如果一個模型表現出這些症狀，我們就說它有過擬合；然而，這些症狀通常很難被發現。如果一個GAN經過良好的訓練，並且沒有出現上述三個問題，那麼應該可以使用反演技術對大多數測試樣本進行反演以找到合適的表示。然而，如果GAN確實表現出上述三個問題中的任何一個，則反演變得具有挑戰性。因此，我們可以反演來比較GAN的效能。

如果對原圖與生成影象再求一個均方差MSE，這就屬於該方法可對GAN網路模型進行定量分析。所以可以利用該方法來對兩個GAN模型進行評估對比。表1為不同模型在三個資料集上的MSE。

表1。不同模型在三個資料集上的MSE

四、總結

GAN的生成器學習對映G ： Z → X，在Z空間中某個的z值產生在影象空間中和影象x相似的樣本。本文提出了一種方法，將樣本x映射回它們的潛在表示z。本文的反演技術提供了一個方法來提供某些定性的資訊，透過這種方法可以瞭解到什麼特徵被一個GAN的潛在空間所捕獲。作者展示瞭如何使用目標影象和生成影象之間的均方差重構誤差來定量比較模型。在本文的實驗中，作者使用反演方法來定量比較在三個資料集上訓練的三個模型。本文提出的反演方法可以作為一種工具，用於比較各種生成模型，並指導模型的修改，幫助開發新的生成方法。

參考文獻

A。 Creswell and A。 A。 Bharath， “Inverting the Generator of a Generative Adversarial Network，” in IEEE Transactions on Neural Networks and Learning Systems， vol。 30， no。 7， pp。 1967-1974， July 2019， doi： 10。1109/TNNLS。2018。2875194。

程式碼

https：//github。com/ToniCreswell/InvertingGAN

農林漁牧網

IEEE TNNLS｜GAN的生成器反演

相關文章