農林漁牧網

您現在的位置是:首頁 > 林業

梯度反向傳播的運用

2022-08-03由 科技資訊標杆 發表于 林業

計算梯度是反向傳播嗎

發明無法一蹴而就,它們是經歷反覆實驗、失敗、進入低谷和討論的結果,通常要走很長的路才能實現。人工智慧的前沿陣地也是如此,在接連不斷的新發現的推動下步步向前。20世紀80年代,梯度反向傳播的普及使得訓練多層神經網路成為可能。該網路由成千上萬分層的神經元組成,其間的連線更是數不勝數。每層神經元都會合並、處理和轉換前一層的資訊,並將結果傳遞到下一層,直到在最後一層產生響應為止。這種層次體系結構賦予了多層網路能夠儲存驚人的潛能,我們會在接下來的深度學習部分進行進一步的討論。

不過,在1985年,多層網路的學習過程仍然很難實現。物理學家對完全連線的神經網路(霍普菲爾德網路)和自旋玻璃之間的類比更感興趣,他們認為人腦中有一個聯想記憶模型。普魯斯特透過描繪瑪德蓮蛋糕的形狀、氣味和口感回想相關聯的影象和情感,[插圖]即記憶;而多層網路就是在感知模式的基礎上執行的。多層網路是透過何種機制僅僅從形狀就辨識出瑪德蓮蛋糕的?物理學家還沒有給出答案。

這一切在1986年發生了轉變。特倫斯·謝諾夫斯基發表了一篇探討NetTalk多層網路的技術報告,NetTalk透過反向傳播訓練使機器學習閱讀。該系統將英文文字轉換成一組語音音素(基本語音)後傳到語音合成器,從而實現“閱讀”的功能。將文字語音轉換成法語很簡單,轉換成英語卻十分困難。在訓練的初期,這個系統如同一個剛開始學習說話的嬰兒,隨著訓練的不斷積累,它的發音也越來越好。特倫斯·謝諾夫斯基到巴黎高等師範學院現場做了相關報告,震驚了現場聽眾和業界。隨即,所有人都希望向我取經,因為多層網路突然變得十分流行,我也變成了這個領域的專家。

這一切在1986年發生了轉變。特倫斯·謝諾夫斯基發表了一篇探討NetTalk多層網路的技術報告,NetTalk透過反向傳播訓練使機器學習閱讀。該系統將英文文字轉換成一組語音音素(基本語音)後傳到語音合成器,從而實現“閱讀”的功能。將文字語音轉換成法語很簡單,轉換成英語卻十分困難。在訓練的初期,這個系統如同一個剛開始學習說話的嬰兒,隨著訓練的不斷積累,它的發音也越來越好。特倫斯·謝諾夫斯基到巴黎高等師範學院現場做了相關報告,震驚了現場聽眾和業界。隨即,所有人都希望向我取經,因為多層網路突然變得十分流行,我也變成了這個領域的專家。

在這之前的一年,我發現可以用拉格朗日[插圖]形式從數學的角度反向傳播,這類形式化是傳統機械、量子機械和“最優控制”理論的基礎。我還注意到在20世紀60年代,有一位最優控制的理論家提出了一個類似反向傳播的方法,這個方法被命名為“凱利——布賴森(Kelly-Bryson)演算法”,也被稱為“伴隨狀態法”。在1969年出版的由亞瑟·布賴森(Arthur Bryson)和何毓琦(Yu-Chi Ho)合著的《應用最優控制》(Applied Optimal Control)一書中對其進行了詳細講述。

這些科學家從沒想過將這個方法應用到機器學習或者神經網路領域,他們更感興趣的是系統的規劃和控制。比如,如何控制火箭,使其到達一個精準的軌道並且和另外一個航空器對接,且同時要儘可能減少能源消耗。而從數學的角度來說,這個問題和調整多層神經網路節點的權重問題非常相似,這樣最後一層的輸出結果就會符合預期。

後來,我又瞭解到有好幾位學者的發現都十分接近反向傳播。在20世紀六七十年代,有人發現了反向傳播中梯度的基本單元——“反向——自動微分”。但當時幾乎所有人都用它來尋找微分方程的數值解或者做函式最佳化,而不是用於多層網路的學習,可能只有上過何毓琦課程的哈佛大學的保羅·韋爾博斯(Paul Werbos)是個例外。韋爾博斯於1974年在他的博士論文中提出了使用被其稱為“有序導數”的方法來進行機器學習。直到很久之後,他才測試了他的方法。

1986年7月,應辛頓之邀,我在匹茲堡的卡內基·梅隆大學參加了為期兩週的關於聯結主義模型的暑期課程(見圖2—1)。這次美國之行我其實是有顧慮的,因為當時我的妻子正在孕中,我們的第一個孩子將在我回法國4周後降生。

梯度反向傳播的運用