因果關係是通向強AI的階梯or作用被誇大？

什麼是資料的因果關係

整理 | 夕顏

一直以來，機器學習和統計學之間的界限就比較模糊，比如諾獎得主托馬斯·薩金特就曾經說過人工智慧其實就是統計學，只不過用了一個很華麗的辭藻。但同時也有人認為，機器學習和統計學並不完全互為代名詞。

這裡，我們先不討論機器學習與統計學是否可以相互指代，但當前機器學習的主流是統計機器學習這一點無可否認，也就是透過大量的資料學習到一些隱藏的 patterns，得到資料之間的相關關係，進而進行目標檢測、追蹤、知識問答等處理。然而，統計學習也存在一些問題，比如根據統計規律得出的結論有時並不總是準確的，因此，如果可以建立起資料之間的因果聯絡，那麼機器學習得出的結論將會更有說服力。因果關係的獨特價值，使得這個詞彙近年來在人工智慧研究領域迅速升溫，引起了更多人的關注。

因果關係僅僅是“因為”→“所以”之間的關係嗎？

話說回來，從專業角度來講，因果關係究竟是什麼樣的關係？就是我們平常所理解的那種“因為所以，科學道理”這樣的關係嗎？AI 科技大本營邀請到卡內基·梅隆大學哲學系（機器學習系兼職）副教授，德國馬克思普朗克智慧系統研究所高階研究員張坤，來為我們解答關於因果關係的疑問。

張坤解釋道，通俗地講，科學研究中的因果關係與我們生活中所說的因果關係是一回事。比如我們平時所說的天下雨導致地上溼就是一個典型的因果關係的例子。因果關係抽象出來的定義是這樣的——如果保持系統中其他變數都不變，只改變其中的一個變數（比如透過人工降雨來讓天下雨），然後發現有另一個變數也隨之改變（比如我們發現地上由幹變溼了），那麼我們就說前面一個變數（是否下雨）是後一個變數（地上是否溼）的一個原因。一個典型的因果模型可以透過直觀的圖模型來描述，或者透過從因到果的數學函式來刻畫。

因果與機器學習的結合將帶來突破

實際上，因果關係已不是一個新鮮詞彙，長期以來都有相關的研究在悄然進行著，比如張坤正在進行的因果機器學習研究。

據張坤介紹，因果機器學習的研究範疇主要包含三個方向。

第一個方向是如何從觀測資料中找到背後的因果關係，這就需要用到資料分析或者機器學習的手段

。一個典型例子是如何透過分析人腦的功能性核磁共振（fMRI）訊號來得到各腦區之間的因果連線。近年來，研究者越來越關注更實際的機器學習或者人工智慧問題，比如如何在變化的環境中做遷移學習，在這類問題中研究者需要找到並且利用資料產生過程的性質；而因果關係對資料背後的過程提供了一個很自然的描述。相應地，

第二個研究方向就是如何利用因果的思維方式解決更復雜更實用的機器學習問題

。

第三個研究方向是在已經給定了因果圖結構和觀測到的資料的前提下如何估計一個變數對另一個變數的因果影響

（比如某種新藥物對治癒率的影響），這是傳統的研究方向之一，受到統計學界很多人的關注。在機器學習領域，大部分人更關注前兩個研究方向。

從中可以看到，因果關係可以應對更復雜的環境，那麼，它可以幫助解決哪些複雜環境下的機器學習問題？可以改善機器學習研究中的哪些現存弊端？以及可以達到較好效果的原因和其背後的執行機制是什麼呢？

張坤反問道，人類為何自發地習慣於因果的思維方式？我們有時需要有的放矢地改變這個世界，這當然需要因果的認識；更多情形下，因果的思維方式幫助我們把眼前複雜的世界分解成各個相互沒有聯絡的模組，從而簡單地分而治之；否則，沉醉於萬物皆有聯絡、牽一髮而動全域性的想法，就很難主動地去做好的預測或干預。在機器學習領域亦是如此，只要機器學習的問題脫離了傳統的資料獨立同分布假設，因果的思維方式就可以很自然地幫助我們來理解、應用資料背後的規律來解決問題。

這可以改善傳統機器學習對訓練資料過度依賴的問題。

這類問題包括遷移學習、半監督學習、有標籤噪聲的學習、強化學習，以及如何處理對抗攻擊。張坤錶示，在這類問題中，不能以簡單的方式完全依賴訓練資料，而因果的思維方式可以讓我們理解資料背後的產生規律併為之建模，從而針對待分析資料或待解決的特定問題，我們能得到更有適應性或者更恰當的模型。

因果關係是實現通用人工智慧的階梯

貝葉斯網路之父朱迪亞·珀爾曾在因果關係科普著作《為什麼》中說道，“沿著因果關係之梯，機器便有望擁有強人工智慧”，強調了因果關係在實現機器智慧過程中的重要性。因果關係真的是通向通用人工智慧的階梯嗎？它在實現通用人工智慧上的真正作用和意義是什麼？

張坤認為，實現通用人工智慧的困難至少有兩點。

第一點是如何讓智慧系統學習出整個的環境的性質、它的行為如何與環境互動，並且有能力恰當使用這些學習出來的規律。

環境包括所有需要處理的問題以及所有可能見到的場景，而學習出來的規律需要把這些問題、場景、以及行為內部以及之間的聯絡表述出來。

第二點是需要把“通用”給界定出來

——我們希望人工智慧系統處於什麼環境？處理哪些問題？問題的範疇是什麼？我們對身處的世界以及其中要解決的問題習以為常，但人工智慧系統跟我們的構造、輸入、產生方式都不一樣，我們需要為智慧系統提供一個環境。

為實現通用人工智慧，因果關係至少有兩方面的用途：第一，上面所提到的學習出來的規律往往是因果關係，因為因果關係一般為環境提供了一個緊湊的描述；第二，智慧系統要處理的很多問題本身就是因果問題，比如要做什麼做才能把一瓶水開啟，要解決這些問題就必須認識到事物之間的因果聯絡。

因果關係在機器學習領域最新研究和應用

因果關係與解決遷移學習、弱監督學習、強化學習

當前，因果關係在機器學習上已經有了不少進展，包括如何理解以及解決遷移學習、弱監督學習、和強化學習問題。

張坤錶示，他所在的團隊在這三類問題上都有涉獵，也做出了一些值得思考的結果。這兩年來，張坤團隊在試圖解決一些更實用，同時也比較有難度的問題。

第一個問題是如何從觀察到的資料發現背後的隱變數以及它們之間的關係，

比如如何透過分析大量圖片來找出背後各種概念（如樹、人、大海、身體、四肢、皮毛、車、輪子等）和它們之間的關係。

從因果發現的角度來看，觀測到的變數往往是背後有意義的隱變數或者概念的反映，所以張坤團隊轉變了興趣點——傳統的因果發現往往著眼在尋找觀測變數之間的因果關係，而他們更在意觀測變數背後的隱變數以及它們之間的關係。“從機器學習的角度來看，

這為非監督深度學習以及非模型強化學習提供了新的思路和實現方向

”，張坤說道。

第二個問題是在如何在深度學習系統中防止對抗攻擊。

要解決這個問題，在某個程度上，需要讓機器具備類似於人類的決策過程；否則，我們一定可以以特定方式改變系統的輸入，從而使得在人類的認知不變的前提下，而讓機器的決策改變。

因果關係與小資料驅動

大家都知道，機器學習嚴重依賴於大量資料，但是近年來，由於資料隱私等問題變得日益嚴重，使用大量資料過程中會遇到各種各樣的麻煩，於是，小資料驅動的研究方向開始引起研究者們的興趣。小資料涉及知識、推理、判斷，這些都是這代人工智慧最大的短板，如果在這個方向上有所突破，或許會為人工智慧研究開啟一個新的思路。那麼，小資料驅動的方法有難度嗎？目前還面臨著哪些問題？

對此，張坤錶示，人類的決策系統通常可以遊刃有餘地恰當使用小資料，打個比方，在中國開車靠右行駛（左駕），到英國，我們只看幾眼，就能推斷出他們開車靠左行駛（右駕），以及右側超車。這個能力需要我們理解駕車規則內部以及規則與汽車結構之間的不變性和可變性。對機器來說，小資料驅動的方法當然比傳統的完全基於資料的學習方法更難一些——為了使機器具備與人類似的小資料驅動能力，我們需要讓機器有能力去表述、學習和使用事物內在的不變性以及變化的性質。這種表述手段以及學習和使用的方式就是小資料驅動的難點所在。相應地，張坤團隊近期的研究方向之一，就是如何從非平穩資料中找到因果關係或者資料變化的規律，並正在拓展這個方向的工作，使得系統具備自動發現有意義的隱變數的能力。張坤認為，這個研究方向或許為小資料驅動學習提供了一些可能的思路。

因果關係在機器學習/通用人工智慧領域的潛力

因果關係研究和應用的潛力從中可見一斑，未來，它在機器學習和通用人工智慧領域中的應用還有哪些想象空間呢？張坤也給出了他的預測：將來機器和人應該可以無縫交流和協作。它們可以自然地學習各種因果關係或者精煉的聯絡，自如地回答人類各種有關“為什麼”的問句，在需要它們的領域自發、自動地解決各種設定或突發的問題，並且它們的知識有可能給人類啟迪。

“因為機器與人構造不同，輸入方式相異，各種能力的限制也有明顯差異，它們應該可以幫助我們耐心、專注地完成我們需要的工作，顯著地擴大我們的世界，也給予我們更多的自由和樂趣。”張坤暢想道。

以人為本，預防“多數暴政”

而對於因果關係和通用人工智慧的未來，張坤持謹慎樂觀態度：“因果關係或者類似的精煉關係會更容易學習和使用，智慧系統會更自洽，與我們的交流會是雙方受益，身體或心理上需要照顧的人也會生活得更有尊嚴。以人類為中心來看，這樣的世界有些接近歷史上的烏托邦，不同之處是，因著智慧系統的輔助，它可被實現。”

但是在這個過程中，張坤強調一定要確保以人為本。“使用系統時，要明確哪些人群和行業受益，哪些可能受到傷害，以及受益或傷害的點在哪裡，對人工智慧系統的建立和使用一定要有必要的、透明的立法和監管。人工智慧的使用必須要預防‘多數暴政’。一部分人，或者大部分人在享受人能智慧帶來的便利時，不應坐視它為少數人可能帶來的不便。比如打車軟體方便了很多人，但同時，若沒有尊重少數人的意識，對那些沒有國內銀行卡，或者沒有安裝軟體，甚至不使用手機的人來說，他們可能突然遇到打車困難，這對他們很不公平。”

“對人類來說，不管技術多強大，它也是工具。只要是工具，就應該注意它的使用目的和使用方式，”張坤的這番話道出了技術的本質，無論 AI 最終擁有多麼強大的能力，從根本上來說，它應該是一個服務於人的工具，就像智慧手機應該是我們的交流和通訊工具，而不是反過來被它奴役。

想要更多精彩內容，來BDTC 2019吧！

看到這裡，相信大家對於因果關係這個 AI 領域最近火起來的概念有了一些瞭解，想要了解更多關於因果關係相關最新研究成果和應用嗎？這裡就有一個不容錯過的機會。

2019 年 12 月 5 日至12 月 7 日，在

北京長城飯店

舉辦的

2019 中國大資料技術大會（BDTC 2019）的大資料時代的因果推斷論壇

上，張坤教授將帶來更加詳細的解讀，並與更多來自海內外著名高校與企業的科學家一起，交流大資料因果推斷的算法理論、技術平臺設計以及應用。

因果推斷，AI研究的熱潮

時間：

2012 年 12 月 6 日 9:00-12:00

論壇主席：

宮明明，墨爾本大學數學和統計學院講師、博士生導師

長期從事人工智慧與資料科學方面的的科研工作。其研究方向主要集中於從大資料中發現因果關係以及基於因果模型進行高效的遷移學習和弱監督學習。擔任美國自然科學基金委（NSF）資訊與智慧學科評審專家，國際人工智慧會議AAAI高階程式委員，以及10多個CCF A類會議和期刊的程式委員與審稿人。在人工智慧與大資料的頂級會議及期刊，例如NeurIPS、ICML、CVPR、 AAAI上發表論文30餘篇。

此外，本論壇主席宮明明還邀請到數位來自大資料因果推斷研究前沿的工業界和學術界專家，他們分別是：

張坤

，卡耐基梅隆大學哲學系（機器學習系兼職）副教授，同時擔任德國馬克思普朗克智慧系統研究所高階研究員。他的主要研究方向是機器學習和人工智慧，特別專注於因果發現和因果機器學習的研究。在機器學習頂級會議和期刊發表論文100餘篇，並擔任如NeurIPS，ICML等多個頂級會議的領域主席。

演講議題：因果關係和通用人工智慧

演講簡介：

抽菸導致肺病嗎？我們能透過分析兩個變數的觀測值找出它們之間的因果關係嗎？在我們的日常生日和科學研究中，為了理解以及恰當的控制系統，人們常常試圖回答這樣的因果性問題，而過去幾十年，在機器學習、統計和哲學領域的都有一系列相關進展。另一方面，我們經常遇到複雜環境下的機器學習問題。比如，非平穩環境下我們如何做最優預測？我們如何達到所謂的通用人工智慧？有意思的是，最近幾年我們發現因果效能幫助和理解一系列機器學習問題，包括遷移學習和半監督學習。這個報告著眼在如何從被動觀測資料中找出因果關係，為何因果性可幫助解決機器學習問題，以及如何實現。最後，我會討論因果描述與通用人工智慧關係何在。

陳志堂，

華為諾亞方舟實驗室主任工程師，2010 年本科畢業於中山大學自動化系，2014 年在香港中文大學計算機科學與工程系獲得博士學位。現為華為諾亞方舟實驗室主任工程師。其研究興趣包括核方法，深度學習，因果推理，強化學習，多智慧體系統以及上述研究在通訊網路的應用。

演講議題：基於強化學習的因果結構發現

議題簡介：從觀測資料中發現變數之間的因果關係是很多科學研究的基礎問題。基於評分的傳統演算法透過區域性啟發式演算法搜尋有向無環圖，然而這些演算法效果並不令人滿意。受到近年來神經組合最佳化演算法的啟發，我們提出了一種基於強化學習的方法搜尋最佳評分的有向無環圖。我們提出的自編碼-解碼模型，輸入觀測資料輸出因果圖的鄰接矩陣，並得到對應的評分作為強化學習的獎賞訊號，用於更新強化學習搜尋策略。合成數據和真實資料實驗，證實了我們提出的強化學習搜尋策略的有效性。

宋雨倫，

聯通大資料首席技術官兼資料科學家，宋雨倫博士是一名軟體工程科學家，資料科學家。他於2015年獲得格拉斯哥大學計算科學學院博士學位。目前任職於中國聯通集團全資子公司聯通大資料有限公司，任職CTO、首席資料科學家。他目前的工作重點是將軟體工程理論知識應用在資料科學應用研發領域，並深入探索海量運營商資料服務民生、政務、經濟等領域。宋雨倫博士於2017年被中國軟體行業協會授予年度優秀CTO。2018年入選中國食品藥品監督資料中心大資料領域專家。同時也積極參與資料科學學術研究，併入選中華人民共和國工信部大資料行業委員會專家。國家電網大資料中心特聘專家。持有CMMI所頒發的資料成熟度管理模型認證證書。同時擔任聯通集團科技委主任專家，北京理工大學計算機學院國家自然語言處理重點實驗室企業導師，工信部信通院數字產業發展聯盟數字經濟組副主席，CCF大資料專家委員會委員。中國電力大資料創新聯盟專家委員會專家。

演講議題：探尋大資料價值背後的因果關係是必須的嗎？

議題簡介：

大資料的思維方式對行業推進帶來了更多的可能性。議題從“啤酒尿布”這個老故事切入，具體的剖析了其背後的商業價值與反應的社會問題，進而展開大資料的價值探討，即：價值是相對的，關聯到因果只是虛擬世界物理化不同程度的表現，虛擬世界的取樣正是為了物理世界的還原。而物理世界的虛擬化正如Nyquist取樣一樣讓計算機幫助人類去理解複雜的物理世界。議題後半部分會結合例項重點介紹運營商大資料是如何為行業帶來更豐富的決策依據。

劉春辰，

NEC中國研究院資料分析部部長，女，計算機博士，研究方向包括因果推斷、貝葉斯網路、貝葉斯推斷、可解釋模型、語義分析、最佳化控制等。致力於自動機器學習平臺的搭建、運營，並在市場營銷、零售、製造等垂直領域有著豐富的應用實踐經驗。

演講議題：因果網路發現技術及其應用

議題簡介：

探索事物之間的因果關係、發現因果網路並量化因果作用，不僅是很多科學研究的重要目的，也是最佳化眾多垂直領域工業實踐的必要技術。那麼，因果能夠具體應用於哪些工業實踐？而在利用因果技術指導工業最佳化過程中，又會遇到哪些問題？什麼樣的因果技術具備更強的實戰價值？讓我們一起分享、討論因果及其應用那些事。

董振華，

華為諾亞方舟實驗室高階研究員，研究方向為推薦系統、反事實學習、移動計算，近年來專注反事實學習在推薦系統中的研究和應用。董博士致力於應用先進的機器學習技術為使用者創造價值，其團隊研發的推薦系統技術已經落地到華為應用市場、資訊流、服務直達、廣告CTR預估等場景，在提升使用者體驗和平臺收入的同時，產出了20篇相關高水平論文和19篇專利，並在KDD、SIGAPP等頂級會議擔任程式委員會成員，曾擔任KDD、TOIS、ICDM、SAC的審稿人。董博士本科就讀於天津大學，博士畢業於南開大學計算機系，曾作為訪問學者在明尼蘇達大學GroupLens實驗室訪問交流一年。

演講議題：基於反事實學習的推薦系統研究

演講介紹：推薦系統中，理想的用於學習模型的樣本是：將所有的候選物品機會均等地展示給使用者，從而消除資料偏置和前序模型偏置帶來的影響。但真實的工業級產品由於海量物品和使用者的限制，無法應用如上的方法。為了解決這個問題，我們研發了2種反事實學習技術和框架，引入未觀測樣本和具有非偏性質的資料進行學習，透過在真實資料上的實驗，證明所述方法的有效性。最後探討因果推理和反事實學習技術在推薦系統中的研究方向和個人體會。

更多嘉賓還在確認中，以最終到場嘉賓為準……

除了主論壇之外，由大會主席團組成的組委會還精心策劃了 15 場專題技術和行業論壇，包括新一代資料庫轉型、人工智慧賦能金融科技、AutoML大資料自動化機器學習技術與系統等。

作為大資料領域極具影響力的行業盛會，BDTC 已成功舉辦十二屆，見證了大資料技術生態在中國的建立、發展和成熟。本屆大會將匯聚學術界和工業界的百餘位專家，聚焦智慧時代，大資料技術的發展曲線和大資料與社會各行業相結合的最新實踐進展。

開幕式倒計時1天，大會全議程出爐！

開幕倒計時 1 天！2019 中國大資料技術大會（BDTC）即將震撼來襲！豪華主席陣容及百位技術專家齊聚，十餘場精選專題技術和行業論壇，超強幹貨+技術剖析+行業實踐立體解讀。

農林漁牧網

因果關係是通向強AI的階梯or作用被誇大？

相關文章