ChatGPT，背後的核心是什麼？

方框加問號的符號怎麼打

2022年12月份的時候，ChatGPT還只是個被人各種撩的聊天工具。但進入2023年後，已經向著效率工具邁進了。

微軟宣佈正和ChatGPT開發團隊OpenAI進行洽談，投資百億美元，並計劃把這個工具整合到雲服務、搜尋引擎、甚至office中。海外高校、學術機構，也興起了關於用ChatGPT寫論文是否合規的大討論；諮詢公司也開始擔憂是否會被搶飯碗。

毫無疑問，ChatGPT的應用熱情，已經被點燃；應用場景也不斷拓展。但ChatGPT並不是一蹴而就，以更廣闊的的視野來看，這背後是AIGC“智慧湧現”的大浪潮。那麼，AIGC的發展節點有哪些？企業競爭靠什麼？

AIGC是如何一步步突破的？

AI懂創作、會畫畫，可以說是人工智慧的一個“跨越式”提升。雖然人工智慧在生活中不斷普及，比如我們習慣了機器代替人去搬運重物、製造精密的產品、完成複雜的計算等等。但是，如果人工智慧更接近人，那就必須具備人類“創作”的能力。這就是AIGC的意義。

AI能力的提升，並不是一蹴而就，而大部分則經歷了“模型突破-大幅提升-規模化生產-遇到障礙-再模型突破-大幅提升”的迴圈發展。而要實現落地、走進人類生活，則必須具備“規模化生產”的能力，在資源消耗、學習門檻等方面大幅降低到平民化。

比如以AI畫畫為例，則經歷了三個關鍵節點：

第一個節點，早期突破：2014年，對抗生成網路（GAN）誕生，真正“教會”AI自己畫畫。

GAN包含兩個模型，一個是生成網路G、一個是判別網路D。G負責把接收到的隨機噪聲生成圖片，D則要判斷這張圖是G畫的、還是現實世界就存在的。G、D互相博弈，能力也不斷提升，而當D不再能判斷出G生成的圖片時，訓練就達到了平衡。

GAN的開創性在於，精巧地設計了一種“自監督學習”方式，跳出了以往監督學習需要大量標籤資料的應用困境，可以廣泛應用於影象生成、風格遷移、AI藝術和黑白老照片上色修復。

但其缺陷也正來源於這一開創性：由於需要同步訓練兩個模型，GAN的穩定性較差，容易出現模式崩潰。以及另一個有趣的現象“海奧維提卡現象”（the helvetica scenario）：如果G模型發現了一個能夠騙過D模型的bug，它就會開始偷懶，一直用這張圖片來欺騙D，導致整個平衡的無效。

模型也會躺平，這雞賊的特性，真是有人的風格。

第二個節點，大幅提升：2020年，一篇關於擴散模型（Diffusion Model）的學術論文，大幅提升AI的畫畫水平。

擴散模型的原理是“先增噪後降噪”。首先給現有的影象逐步施加高斯噪聲，直到影象被完全破壞，然後再根據給定的高斯噪聲，逆向逐步還原出原圖。當模型訓練完成後，輸入一個隨機的高斯噪聲，便能“無中生有”出一張影象了。

這樣的設計大大降低了模型訓練難度，突破了GAN模型的侷限，在逼真的基礎上兼具多樣性，也就能夠更快、更穩定的生成圖片。

擴散模型在AI業界的“起飛”源於2021年1月，Open AI基於此開發出DALL·E文字生成圖片模型，能夠生成接近真實生活但並不真實存在的圖片，讓AI業界震了三震。但由於在畫素空間進行了大量計算，這一模型仍存在程序緩慢、記憶體消耗大的缺陷。

第三個節點，批次生產：2022年夏天誕生的Stable Diffusion，讓高大上的學術理論變得“接地氣”。

去年8月，Stability AI將擴散過程放到更低維度的潛空間（Latent Diffusion），從而開發出了Stable Diffusion模型。這個模型帶來的提升，在於資源消耗大幅降低，消費級顯示卡就可以驅動的，可以操作也更為方便，普通人也可以體會到人工智慧驚豔的創作能力。而且開發團隊還把所有程式碼、模型和權重引數庫都進行了開源，踐行了Geek的共享精神、去中心化主義。

門檻降低、效果提升，因此，大受歡迎。釋出10天后，活躍資料達到了每天1700萬張，如果都用A4紙打印出來疊一起，相當於一座52層高的大樓。

共享，也是Stability AI的另一特色。在開源社群中，除了更小的記憶體和更快的速度，Stable Diffusion收穫了更完善的指南與教程、共享提示詞、新UI，也依靠集體的智慧，走進了Photoshop、Figma等經典軟體，匯入創作者們的既有工作流中。可謂是，依靠群眾、回饋群眾。

從技術實現突破、到技術提升、再到規模化降低門檻，AI創作能力也不斷提升。2022年10月，美國一名男子用AI繪畫工具Midjourney，生成了一幅名為《太空歌劇院》的作品，並獲得了第一名。這引起了一波不小的爭論，也終於形成了一條新賽道。於是，2022年以AI繪畫為代表的各種生成式AI工具，如雨後春筍般瘋狂冒尖，比如盜夢師、意間AI、6pen、novelAI等等。

而在文字AI領域也是如此。如今大火的ChatGPT則是基於GPT3。5模型，已經迭代了4次。而對話一次的平均成本為0。01-0。2美元，也就是六毛到一塊錢人民幣，成本依然需要不斷降低。但整體而言，無論畫畫、還是聊天，AI已經體現出智慧湧現。

如何成為浪潮寵兒？

Stability AI的創始人Emad認為，影象才是殺手級應用。

影象模型可以迅速創造，並引導人們迅速消費，同時又能以較低成本快速整合到不同領域，從而快速普及，掀起浪潮。而事實上，確實許多創業者湧入了這些領域。AIGC成為了幣圈之後的投資新焦點。在 GPT-3 釋出的兩年內，風投資本對 AIGC 的投資增長了四倍，在 2022 年更是達到了 21 億美元。

公司增多，投資增多，但並不是每家企業都能活得很好。比如2022年底，僅創立4個月的AI繪畫公司StockAI就停止了運營。公司CEO表示，主要是因為商業化模式不成熟，目前的付費使用者群體無法覆蓋高昂的運營成本。雖然他也表明會在今年1月份推出全新的平臺，但從透露的資訊來看，新平臺已不會有需要大量算力的AI圖片生成功能了。

那麼，什麼樣的企業，才是這波浪潮的“寵兒”？

首先，無疑是掌握核心前沿技術的行業引領者。全球TOP3的人工智慧研究機構，都在各出奇招、爭奪AIGC主導地位。

OpenAI是文字生成領域的領航員。不光吸引了“生成對抗網路之父”Ian Goodfellow加盟，還早早獲得了微軟的10億美元投資。從GPT到GPT3。5，OpenAI不斷迭代，也不斷帶給行業驚喜。這一次的ChatGPT更加獲得了微軟的認可。而透過開放GPT-3受控API的模式，OpenAI也將賦能更多公司和創業者。

DeepMind是通用型AI的探路人。2016年，AlphaGo擊敗人類圍棋的最高代表韓國棋手李世石，Go背後正是谷歌旗下的DeepMind。但DeepMind的目標並不是下棋，而是通用型AI，比如能預測蛋白質結構的AlphaFold、能解決複雜數學計算的AlphaTensor等等。但這些AI始終面臨著一個瓶頸，即無法像人類一樣進行“無中生有”的創作。

這兩年，DeepMind終於向通用型AI又推近了一步。在對話機器人Sparrow、劇本創作機器人Dramatron等背後的語言大模型中找到靈感，構建了會聊天、會幹活、會玩遊戲的Gato。

Meta在加速AI的商業化落地。重組調整AI部門，將其分散式地下放到各實際業務中，而FAIR被併入元宇宙核心部門Reality Labs Research，成為新場景探索者的一員。

也許同行相輕，Meta首席人工智慧科學家Yann LeCun對ChatGPT的評價並不高，他認為從底層技術上看，ChatGPT並不是什麼創新性、革命性的發明，除了谷歌和Meta，至少有六家初創公司擁有類似的技術。

當被問及Meta的AI願景時，LeCun為FAIR畫下了“生成藝術”的大餅。他提出，Facebook上有1200萬商鋪在投放廣告，其中多是沒有什麼資源定製廣告的夫妻店，Meta將透過能夠自動生成宣傳資料的AI幫助他們做更好的推廣。

其次，另一類寵兒，則是押對應用場景的企業們，在“繪畫”之外吸納了不少資本支援與人才投入。

在所有內容生成式AI中，輸出文字和音樂的已經先一步找到了財富密碼。最早出現的AI生成文字在遍歷了寫新聞稿、寫詩、寫小劇本等頗受關注的應用方式後，終於在營銷場景找到了能夠穩定變現的商業模式，成為寫作輔助的效率工具，幫助從業者寫郵件、文案、甚至策劃。專注於音樂的LifeScore，則讓人工智慧學會了即時編曲，按照場景、長度的需要，組織藝術家同事人工創作、演奏的音樂素材，在人類的創作流程中找到了自己的位置。

能夠互動的聊天機器人，則在客服和遊戲這兩個相去甚遠的行業分別“打工”。區別於當下只會提供預設問題解答，有時還會答非所問的“智慧客服”，真正的AI需要結合使用者的行為和上下文來理解人類的真正意圖。在遊戲領域，AI則被用來協助人類，高效地創造內容豐富、體驗良好的遊戲內容，從而延長使用者的遊戲時間。

顯然，寵兒是少的。而經歷了過去一年多“科技股大回落”後，投資者們也謹慎一些了，當下的AIGC雖然很好，但等大模型出來也許更香。

大模型，也許是企業比拼的護城河

模型是人工智慧的靈魂，本質上它是一套計算公式和數學模型。“引數”可以看做是模型裡的一個個公式，這意味著，引數量越大，模型越複雜，做出來的預測就越準確。

小模型就像“偏科的機器”，只學習針對特定應用場景的有限資料，“舉一反三”能力不足，一些智慧產品被使用者調侃為“人工智障”的情況時有發生。

大模型就是引數量極大的模型，目前業界主流的AIGC模型都是千億級、萬億級引數量的水平。透過學習各行各業各類資料，除了能給出相較於小模型更準確的預測結果之外，它也展現出了驚人的泛化能力、遷移能力，產出內容質量更高、更智慧，這也是當前AIGC工具讓人眼前一亮的原因。

而大模型的快速發展，對行業發展起到了明顯的推動作用。例如ChatGPT是基於GPT-3模型進行最佳化所產生的，引領AI繪畫發展的DALL·E 2也離不開GPT-3的貢獻。類似的還有Deepmind的Chinchilla、百度的文心大模型等等。

大模型，很大機率是行業淘汰與否的判斷要素。

首先，訓練資料量大，OpenAI為了讓GPT-3的表現更接近人類，用了45TB的資料量、近 1 萬億個單詞來訓練它，大概是1351萬本牛津詞典。

GPT-3 訓練資料集一覽

這就帶來了兩個問題：巨大的算力需求與資金消耗。訓練和執行模型都需要龐大的算力，有研究估測，訓練 1750 億引數語言大模型 GPT-3，需要有上萬個 CPU/GPU 24 小時不間輸入資料，所需能耗相當於開車往返地球和月球，且一次運算就要花費450萬美元。

國內也不例外。目前國內自研的大模型包括百度的文心大模型、阿里的M6大模型、騰訊的混元大模型，針對中文語境，國內廠商的表現要比國外大廠要好得多。而且國內的大模型發展速度也很驚人。

採用稀疏MoE結構的M6大模型，2021年3月僅1000億引數，3個月後就達到了萬億級，又過了五個月模型引數達到了十萬億級，成為全球最大的AI預訓練模型。混元模型也是萬億級別，成本大幅降低，最快用256張卡，1天內就能訓練完成。而採用稠密結構（可以粗糙理解是和稀疏相比，密度更大）的文心大模型，2021年，引數規模達到2600億。2022年，百度又先後釋出了數十個大模型，其中有11個行業大模型。

這樣高的研發門檻，註定目前主流的大模型多由大企業、或是背靠大企業的研究機構掌握，中小企業只能望而卻步。因此，大模型，也就成為企業的“護城河”。

但進行大模型的研發只是“成功第一步”，還有三個維度的比拼，也非常重要。

一是資料資源。有研究表明，到2026年就沒有更多高質量的資料可以訓練AI了。此外，基於現實生活中已有的資料來訓練模型只能解決一些已知問題，對於一些我們還沒有發現的、潛在的、未知的問題，現在的模型未必能解決。因此有一些研究人員提出了合成數據的概念，即透過計算機程式人工合成的資料，一方面補充高質量的訓練資料，另一方面填補一些極端或者邊緣的案例，增加模型的可靠性。

二是綠色發展。雖然模型越大效果越好，但無限“大”下去並不經濟，對自然資源消耗、資料資源都帶來巨大壓力。而過高的資源消耗，也不利於平民化普及。

三是應用場景。商業和純理論研究不同，不能拿著技術的錘子，瞎找釘子，而是要結合應用來發展技術。而國內廠商要想拿出Stable Diffusion、ChatGPT這樣的殺手級應用，還需要更多的思考和努力：

跳出“跑分”怪圈，找到應用場景，進行模型“瘦身”，甚至，將模型開源、形成生態，利用群眾的智慧、為群眾服務。

尾聲

隨著微軟對ChatGPT的關注，產業、投資圈都熱了起來，美股BuzzFeed因為要採用ChatGPT技術就實現了兩天漲三倍的壯舉；H股、A股也迎風而動，不少上市公司也表態具備技術積累。

躁動當然是好事兒，科技創新，就是要令人心潮澎湃。我國廣闊的產業，是應用開花的土壤。但與此同時，國內的AIGC也存在著隱憂，比如高算力的晶片，如何造出來？

另一方面，科技創新，也要牢記Gartner曲線揭示的規律：萌發期泡沫期泡沫破裂期穩步發展期穩定產出期。只有躁動，沒有篤定、沒有低谷時的忍耐，也絕不可能成功的。

適度的泡沫，成為驅動力；過度的泡沫，也許會劣幣驅逐良幣。但至少目前，我們和海外相比，幾乎在同一起跑線，值得充滿熱情的期待。

農林漁牧網

ChatGPT，背後的核心是什麼？

相關文章