AIGC：自動化內容生成，AI 的下一個引爆點？

怎麼從遊戲裡提取cg

隨著5G大頻寬網路時代的到來，人們對更具有視覺表現力的數字內容越來越渴望。傳統數字內容的生成效率已成為新時代的瓶頸。

作為下一個探索熱點，

「AI自動化內容生成」激發了大量行業需求，也讓我們看到了人工智慧技術新的引爆點

。

自動化內容生成並不是第一天誕生。但過去的2D/3D非結構化內容生成效果不盡人意，而且遺留了很多歷史問題給創業者去解決。

近年來，AI在CG領域的應用，尤其是若干革命性模型的提出，給整個方向帶來全新思路，其影響還在持續發酵中

。

但技術終將服務於商業。我們也看到，AI內容生成技術正在各類顯性的商業場景中落地，創造越來越多的現實價值

。

本期晨思將闡述AI與內容生成的發展現狀，探究目前技術的難點和機會，同時也會帶大家從不同角度看未來的商業價值，歡迎行業內的公司一起來探討。

作者 | 吳文超晨山資本副總裁

關注

| 底層技術創新/數字互動/資訊保安

郵箱

| wenchao@chenshancapital。com

自動化內容生成並不是第一天出現

2022百度世界大會上，百度首席技術官王海峰展示了利用AI「補全」《富春山居圖》讓歷史畫作重現當代。

風格與現存真

跡的一致程度也讓專家大為震撼。

▲

浙江博物館館藏《富春山居圖·剩山圖》區域性（左），臺北故宮博物院館藏《富春山居圖·無用師卷》區域性（右）

▲

AI補全《富春山居圖》並題詩（上圖紅框處）

李彥宏在大會上分享了

將走過的三個發展階段：

AIGC(AI Generated Content)

，AIGC輔助人類進行內容生產；

第一階段是「助手階段」

，AIGC以虛實並存的虛擬人形態出現，形成人機共生的局面；

第二階段是「協作階段」

，AIGC將獨立完

成內容創作。

第三階段是「原創階段」

AIGC這個詞聽上去比較時髦，但自動化內容生成並不是個很新的概念

近年來，承載內容的媒介越來越豐富，從最早的文字到圖文、影片到3D內容。

同時也帶來了對內容快速生產的更大訴求，激發了大家持續探索自動內容生成的動力。

。利用計算機輔助人類進行內容生產其實很早就出現，比如在計算機程式設計領域IDE的程式碼提示、使用Office Word編輯內容的錯誤修正，到後來利用NLG自動化文字生成等都可以算作這個範圍。

。

讓傳統的透過規則、資料的富媒體內容生

成方法逐步延伸到基於深度學習的內容生成。

這也是目前大家狹義理解的AIGC概念。

深度學習的出現和發展，進一步帶來了從CV(Computer Vision)延展到CG(Computer Graphics)領域的各種新嘗試

2D/3D非結構化內容生成更具有挑戰性

數字內容的載體越來越豐富，針對各種形態的AI內容生成的研究也越來越多，包括文字的NLG（自然語言生成）、圖片/影片的自動風格遷移和生成、透過點雲/圖片資訊自動生成3D內容等。

毋庸置疑，2D最常見的表現形式是影象，影片本質上是多幀的連續影象。

傳統的2D影象生成的主流方式是透過攝像頭拍攝的方式物理採集實景圖片，或者透過Photoshop等設計/繪圖工具繪製數字圖片。

實景拍攝圖片受限於環境、光照和拍攝技術等因素，導致優質圖片的生成難度較高。

而數字圖片更多是體現作者的繪畫和美術功底。

本文更加關注和深度學習演算法更加契合也更有視覺表現力的「2D和3D非結構化內容生成」。

。

2D內容生成

3D內容生成更加複雜。

要理解3D內容生成，首先可能還是得明確下什麼是3D內容。

D是dimension的縮寫，顧名思義，3D是指物體本身的3個緯度（X-Y-Z）。

在物理世界比較好理解，大家能看到的空間中所有物體都是三維的，因為我們的空間就存在XYZ三個緯度。

如何透過既有素材快速且批次生產可用優質圖片，也是近年來2D內容生成的重要研究方向，而這裡面大放異彩的深度學習演算法莫過於GAN（對抗神經網路）

其實很簡單，以我們常見的3D建模軟體為例，我們建立的模型雖然是在2D螢幕上呈現，

3D內容生成

。

所以多角度的概念才是我們通常理解的3D數字內容。

如果要在體驗上有真正的3D感，需要突破2D螢幕的限制，那就只能等待AR/VR、全息顯示等新互動裝置的發展了。

▲

Blender中的三維模型可以按XYZ三個座標軸多維變化

除了幾何形狀，完整的3D內容還包含材質（貼皮），再結合光照，最終透過渲染形成多角度的RGB圖片。

▲

3D內容是將形狀和外觀進行組合渲染形成多維度視角的2D圖片

但在2D平面的計算機世界3D又該如何理解？

。

但你可以按照計算機設定的XYZ三個座標軸進行移動(Move、Rotate、Scale)來從各個角度看到物體的各個面

。

常見的幾何表達包括顯式和隱式兩類。

顯式更多的是指以肉眼可見

的方式來表達幾何圖形。

常見的顯式表達方式包括在機器視覺應用較多的點雲（Point Cloud）、在遊戲場景應用較多的體

素（Voxel，類似Roblox）和3D建模軟體中常用的網格（Mesh）。

隱式表達則是用引數化方程的方式來描述一個3D幾何，比較知名的如有向距離場（SDF），透過每個畫素（體素）記錄自己與距離自己最近物體之

間的距離來表達，如果在物體內，則距離為負，正好在物體邊界上則為0。

3D內容生成的本質是如何構建物體的幾何、材質和光照。元素的多樣性和複雜性，讓3D內容生成成為CG領域的一個難點

。

▲

多樣的3D幾何表徵方式

傳統3D內容生成需要設計師使用Maya、3DMax、工程建模CAD等3D建模軟體手動建模/渲染出來，

但軟體學習成本高

、建模本身

效率低等原因導致該方案難以快速批次生成3D內容。

以第一步的幾何形狀的表達來看，業內目前沒有統一的表達方式

。

傳統三維重建方式為透過鐳射掃描生成目標物體的點雲資料後進行三維重建，但這種方式採集的點雲資料是離散並且無嚴格拓撲關

系的，導致無法生成高解析度的模型。

不同的3D表達方式沒有統一的規範，導致3D內容的生成和製作與2D相比難度更上一層樓

。

基於圖片的3D內容生成可以理解為下面的流程，透過現有2D圖片（輸入）進行3D幾何、材質等重建，再結合光照渲染能力重新恢復2D高畫質的多維度圖片。

雖然2D圖片採集相對容易，但問題在於，很難把物體任意維度的資料都拍得很完整，而且有些物體反光、透明等原因導致拍攝的圖片質量不高。

如何在有限的資料量和有限質量的資料下根據先驗知識構建成一個完整的多維資料，正是深度學習擅長的問題。

除了靜態的人/物體/場景本身，如何構建更加複雜的動態內容也是內容生成的重要部分。

以人舉例，3D內容包

含人的動

作、物理碰撞模擬（物理引擎）等也都是AI內容生成需要進一步解決的問題。

當然問題越多，給予創業企業突破創新的機會也才越多。

一種創新方法是透過既有2D資料自動重建3D模型

AI給CG領域帶來全新的技術變革

近年來，AI給二維和三維的內容生成帶來了許多新變化。

目前AIGC研究的重點方向，是透過若干2D圖片以計算機視覺演算法重建方式來生成更多的3D內容

在二維領域，最重大突破便是Goodfellow在2014年提出的GAN神經網路。

GAN包含有兩個模型，一個是生成模型（generative model），一個是判別模型（discriminative model）。

可以通俗理解為：

。

利用GAN網路衍生的如CycleGAN、StyleGAN等神經網路模型，就可以透過既有圖片進行圖片的風格遷移、人臉編輯、影象修復、補全等操作而形成新的內容。

前文中提到《富春山居圖》的補全也一定程度上是這類演算法的延伸。

▲

GAN網路生成器和判別器「對抗訓練」

在三維領域，因為表達形式的複雜性，業界圍繞不同表達形式也在各個方向進行探索。

GAN神經網路

由於採集成本高、遮擋等問題，點雲無法連續採集物體表面的資訊，而更加容易表徵空間定位資訊。

生成模型像「一個造假團伙，試圖生產和使用假幣」，而判別模型像「檢測假幣的警察」

。要生成更加稠密包括適合視覺觀測的3D內容的表面，需要生成更加稠密的點來補充離散點雲的稀疏問題。這其中也有些研究者利用深度學習的方法，透過特徵擴充套件、GAN擴充套件網路等方式生成更加稠密的點雲資訊。

▲

深度學習+點雲進行3D表面重建

生成器(generator)試圖欺騙判別器(discriminator)，判別器則努力不被生成器欺騙。模型經過交替最佳化訓練，兩種模型都能得到提升，但最終我們要得到的是效果提升到很高很好的生成模型（造假團伙），這個生成模型（造假團伙）所生成的產品能達到真假難分的地步

從2D圖片重建3D模型並非在近年來AI大發展之後才出現，比較早的演算法如Str

ucture From Motion（SFM，1979年前）、Multi-View Stereo（MVS，2006年以前）、PMVS（2010）和COLMAP（2016）等。

以效果還不錯的PMVS演算法舉例，從圖片裡面提取特徵再做三角測量的點，獲得點雲資料，然後根據這些點重建物體表面，並進行紋理對映，就可以還原出三維場景和物體了。

▲

結合SFM和MVS的PMVS演算法

但這種方法同樣因為噪聲、點雲稀疏問題無法形成完整的幾何結構，需要更多的人工加工，才能真正為圖形學使用。

而一個完美的影象渲染過程需要一個完美的多幾何結構和材質，所以這種方式很難達到渲染需要的質量。

▲

點雲稀疏問題導致無法形成完美質量的3D幾何結構

點雲重建

點雲3D重建在自動駕駛、機器人等空間定位和掃描場景應用更多，並不太適合用於視覺表現

。

隨著近年來不同深度學習模型的提出，大家逐步關注到如何把深度神經網路應用在CG領域。

傳統圖片3D重建

。

顯式表達

近年來湧現出不少優秀的研究成果：

GQN（2018）、CodeSLAM（2018）、DeepVoxels（2019）、Neural Volumes（2019）、Latent Fusion（2020）。

但顯式表達最大的問題在於幾何表徵本身是離散的，幾何拓撲關係難以最佳化。

導致生成的三維內容的解析度受到比較大的限制。

基於AI演算法的圖片3D重建

。

隱式表達中，最容易想到的便是對現有隱式表達利用深度學習改造，如DeepSDF模型，但受限於表達方式的缺陷，效果也不盡如人意。

2020年，

深度學習等AI演算法的提出，最先解決了計算機視覺領域中物體識別、內容理解等問題

。

NeRF的提出激發了大量的後續研究，原始研究文獻實現了增長極快的引用率，迄今NeRF的引用量已破千。

我們來一探這個可能開啟CG領域新時代的深度學習演算法：

NeRF是Neural Radiance Fields的縮寫，其中的Radiance Fields是指一個函式，也就是前面提到的隱式表達中的表達函式，當然除了表徵幾何，Radiance函式同樣帶上顏色資訊來完成對材質-貼圖的表徵。

NeRF將場景表示為空間中任何點的volume density σ（簡單理解為不透明度）和顏色值c 。

有了以NeRF形式存在的場景表示後，就可以對該場景進行渲染，生成新視角的模擬圖片。

NeRF的輸入為空間點的位置和方向，透過求解穿過場景的任何光線的顏色，從而渲染合成新的影象。

▲

NeRF的簡單描述（輸入是空間位置資訊，輸出是透明度+顏色）

要進行3D重建，首先要解決的便是幾何的表徵方式選擇問題，即選擇顯式還是隱式表達

。

▲

NeRF網路和現有深度神經網路效果對比

為了獲得更加準確、高解析度的3D內容，隱式表達方式開始成為大家主要研究的方向

谷歌研究院的Pratul Srinivasan、Benjamin Mildenhall等提出的NeRF方法引爆了整個3D重建領域

。

因此，圍繞後NeRF時代的神經網路模型和方法也層出不窮。

透過將GAN和NeRF兩大內容生成的AI技術相結合的GRAF9（Generative Radiance Fields）。

2021年CVPR的最佳論文GIRAFFE透過GAN網路實現NeRF的可控編輯等。

可以看出NeRF最大的創新在於對場景的隱式表徵方式的創新，透過連續的隱式表徵，可以用少量的圖片渲染重建出更加逼真的三維內容

NeRF也不是沒有缺點

。

除了外形表現，人更重要的是靈活的動作/表情的表達和互動，只有配合動作/表情，人物的「神」和「態」才能完整地被表達出來。

——由於需計算大量的點位資訊導致推理過程過於耗時而很難實現實時渲染；缺乏顯示錶徵而帶來內容編輯難度較高

。

模型建立雖然有不同層次的成本，但始終可以透過手工或者半自動的方式完成，

製作門檻並不高。

但如何生成符合人體運動學的動作和表情則更加需要資料的支撐，也非常適合利用AI演算法來進行模型的訓練。

AI+Motion

現實世界是在敘事基礎上建立，而敘事由人物關係展開，所以人是現實世界最重要的元素

。

近年來，隨著動捕技術發展、影片內容資料的豐富，動作資料的積累也變得更加簡單。

大量圍繞動作驅動的AI工作也陸續被大家提出。

2019年以後大量的工作基於RNN網路進行動作預測（Motion Prediction）、基於 RL（Reinforcement Learning，增強學習）的動作控制演算法（Motion Control）和Ginosar、Alexanderson等人提出的基於語音、文字甚至音樂的多模態動作驅動的CNN模型（Cross-modal motion synthesis）。

▲

透過語音驅動手勢動作示例

可以說，沒有動作的人物模型毫無意義

AI+CG的價值落地明確並且正在發生

我們並沒有必要過多討論具體的演算法，更應該關注的是，

動作

。

首先我們來看看CV領域的趨勢，在2012年AlexNet被提出以前，計算機視覺中的檢測、目標識別其實已經有超40年的發展歷史，但由於技術成熟度的原因遲遲沒有很好的商業落地。

隨著深度學習等AI技術被驗證，大量的相關工作在隨

後的6-7年內被提出，隨之而來的是AI被應用在各個商業場景。

這其中首先有殺手級的應用——人臉識別，在支付、安防、身份認證等領域都得到了廣泛的應用。

除了人臉相關，我們再擴充套件到物體的視覺檢測方向，有工業視覺檢測、機器視覺等行業應用。

這些應用帶來了大量的生產力提升，同時也創造了極大的社會價值和投資機會。

那AI+CG領域是否存在同樣的機會呢？

從技術發展的角度看，CG似乎和CV領域一樣，正迎來AI在CG領域的大爆發的前期。整個發展路徑非常類似，其中比較有代表性的兩類模型是GAN和NeRF以及大量的延伸工作，但提出的時間比AlexNet和ResNet等晚了3-5年，技術仍處於爬坡期。然而我們更需要關注

的是，目前具有一定AI技術成熟度的CG領域，未來到底有多少商業價值呢？

無論是2D還是3D，更多是為了視覺而服務，我們能想到或者日常能夠體驗到的視覺場景大致包括以下幾類：

生成的難度在於如何用相對標準化的方式來驅動不同外形的人物，同時模型本身足夠的協調和自然。這不僅是指動作本身的協調程度，更重要的是還要和語音、文字等多模態輸入能夠完美結合

。

網際網路時代開啟後，營銷是流量企業最主要變現方式之一。

。

首先從影片類（圖文類似）內容生成成本角度來看，傳統的營銷類影片以拍攝+後期製作的方式為主。

影片的生產過程都耗費大量的人力，並且影片多樣化往往需要簡單重複勞動來獲得。

舉個最簡單例子，同一個產品營銷類影片，產品在不同的國家進行售賣，可能需要當地風格的模特進行影片表現，但如果使用GAN系列模型透過AI生成和風格遷移的方式，可以較為完美地進行人物風格切換，快速降低內容製作成本。

▲

由GAN網路生成的不同圖片風格

其次從效果來看，傳統線上影片類營銷往往以產品介紹、特點宣傳為主。

和線下營銷關注「人貨場」的概念差別比較大，這其中最大的差別在於如何在二維的螢幕模擬出3D的沉浸感，給人以3D式的營銷體驗。

而要有3D沉浸感首先得有3D可互動的內容。

在當前技術成熟度下AI+CG能創造多大的商業價值

。

3D人可以賦予影片內容中人物更加多角度、更多動作、更加可控的展現形態，疊加上深度圖效果和語言，讓人物更加具有表現力。

當然如果能做成「老黃」那樣超寫實的虛擬人就更加能夠以假亂真了。

而這其中就可以利用前面提到的AI的方式進行3D模型和動作的生成，當然僅僅透過AI實現超寫實的3D人物構建，在效果上目前還是有些難度，而表情和動作的生成已經做的非常逼真。

視覺內容營銷、線上的商業服務、行業模擬和新的互動方式帶來的泛娛樂內容的需求

。

▲

3D數字人給營銷以更加強的表現力

視覺內容營銷

。品牌方透過拍攝多角度照片，利用AI+3D重建來進行3D商品展示的方式已經越來越普遍，細節表現力也更強。隨著NeRF等演算法的改進，重建成本逐步降低，未來商品的3D化也將是趨勢。

▲

某電商品牌的3D內容展示

而承載營銷最重要的方式便是更加具有視覺衝擊力的圖文、影片等富媒體內容

。透過線上空間3D化，可以讓參與者更加有沉浸感。這就涉及到如何進行空間的建模，透過AI+點雲/機器視覺重建的工作已經在一些領域被大家提出和應用。

從「人」的角度來看，就涉及到現在比較火的3D數字人的生成

近年來，從傳統的工業到線下服務業，大家開始使用硬體機器人來替換重複勞動的工作以達到降本增效的目的。

但我們往前一步看，

晨山投資的中科深智便在人物表情和動作生成方面具有多年的積累，並且較早就在行業得到廣泛應用

。

舉個例子，大家看天氣預報，會因為主持人換了而不看天氣預報的可能性有多大？

而且他們原生就在線上輸出服務，擁有的數字基礎其實更好。

▲

機器替人的場景在不可逆地發生

很明顯，數字員工在降低勞動成本，全天候工作提升工作效率，填補人才缺口，降低人員流動風險等方面有天然的優勢。

中科深智

。這些都是是需要根據具體場景，結合進一步的技術驅動來完成的，其中的工作量不容小覷。

或許很多人都會說擬人畢竟還是假人，尤其是虛擬人不夠形象，但時代在變，大家的習慣也在變化。

對大部分95後、00後來說，二次元或許更受他們青睞。

據統計，B站使用者平均年齡為21歲，這些人成年後依然保持著對虛擬人物和二次元文化的熱愛。

從「貨」的角度來看，大家或許已經發現，某些電商平臺的內容展示更加立體，會從各個角度來呈現客戶想要購買的商品

根據最終用途，模擬類應用大致分為管理類模擬和設計類模擬。

在「場」的層面，如何重現線下體驗，追求品牌的「永久線上」，是現在很多平臺在探索的方向

。

▲

數字孿生vs。工業設計

無論數字孿生還是工業設計，歷史上的生產方式還是依靠大量的人力在進行內容的建模。

這其中不僅僅有重複勞動，而且無論宏觀如數字孿生還是微觀如工業結構件，其中的模型數量都非常大。

如何透過AI快速生產內容、更好地渲染，都是大家目前在努力的方向。

線上商業服務

這個方向一直反覆成為投資人追捧的熱點。

線上重複的服務工作如客服、電商/電視的主播、播報員甚至部分節目主持人，未來同樣有被虛擬機器器人替換的可能

。

這個趨勢雖然跌跌撞撞，但它卻在悄然發生。

2020年釋出的Oculus Quest 2已達

到消費級水平，在顯示引數、外觀設計和價格等方面均滿足了VR使用者的基本需求。

據IDC資料顯示，2021年全球VR出貨量達1，095萬臺，已突破年出貨量一千萬臺的行業重要拐點。

但前提是如何透過AI的方式結合3D人物生成、更加靈活的動作驅動、更加平滑的解決使用者問題，實現更加擬人化甚至無差別化服務

。

Oculus為代表的內容數量也在快速提升，截止2022年4月，Oculus Rift、Quest、APP Lab平臺分別擁有1，381、357、1，074款應用。

這其中的內容包括VR遊戲、沉浸式社交等各種3D內容構建的場景。

未來VR加速發展離不開內容的快速生成，

行業模擬

。

這其中Meta已經做出了表率：

2021年10月，Meta宣佈設立1，000萬美元的「創作者基金」，鼓勵更多內容創作者進行VR內容創作。

至於AR，大家似乎都在等另一個巨頭的聲音。

對應到我們經常聽到的概念便是數字孿生和工業設計軟體。二者除了應用方向的區別外，在技術上，前者更加關注效果和資料的結合，而後者關注的更多是物理/幾何世界的數字化模擬

。

AR/VR

。

農林漁牧網

AIGC：自動化內容生成，AI 的下一個引爆點？

相關文章