用機器學習解碼一顆“失聲”15年的大腦，讓它“開口說話”

衰變率怎麼計算

大資料文摘作品

作者：Miggy

對於癱瘓患者來說，最大的苦楚來自無法與外界進行溝通。雖然大腦依然活躍並且希望表達，但是無法驅動發聲肌肉，會讓這類患者的語言機制逐漸蛻化。

來自加州大學舊金山分校神經外科主任Edward Chang正在為失去說話能力的人開發腦機介面技術。他的實驗室致力於解碼與聲道命令相關的大腦訊號，並透過神經植入物，將大腦的語言機能，透過計算機輸出出來。該專案不僅需要當今最好的神經技術硬體，還需要強大的機器學習模型。

最近，這一技術也取得了長足的進步，讓一位因癱瘓“失聲”15年的患者利用電腦開始了與外界的交流。Chang也將這一技術過程記錄了下來，釋出在IEEE上。

一起來看看。

讓一顆15年沒有說話的大腦“開口

電腦螢幕上顯示“你要喝點水嗎？”這個問題。下面，三個小點正在閃爍，隨後一行字出現：“不，我不渴。”

大腦的活動讓溝通發生——值得一提的是，發出這段對話的，是一個超過 15 年沒有說話的失聲者的大腦。15年前，由於一次中風，他的大腦和身體其他部位就“斷聯”了，這位患者與外界的溝通從此停擺。他嘗試使用許多新技術嘗試與外界交流；最近，他使用附在棒球帽上的指標在觸控式螢幕上敲擊單詞，這種方法有效但速度慢。

最近，這位患者自願參加了我的研究小組在舊金山加利福尼亞大學的臨床試驗，希望能探索一種更快的溝通方法。到目前為止，他只在研究期間可以利用大腦產生文字的這套技術系統，但他希望幫助將這項技術開發成像他這樣的人可以在日常生活中使用的東西。

在我們的試點研究中，這位志願者的大腦表面覆蓋了一個薄而靈活的電極陣列。電極記錄神經訊號並將它們傳送到語音解碼器，語音解碼器將訊號翻譯成他想說的話。這是無法說話的癱瘓者第一次使用神經技術從大腦中“廣播”出整個單詞，而不僅僅是字母。

該試驗是十多年來對支配言語的潛在大腦機制研究的成果，我們為迄今為止所取得的成就感到無比自豪。但我們才剛剛開始。

我在 UCSF

的實驗室正在與世界各地的同事合作，使這項技術足夠安全、穩定和可靠，足以滿足家庭日常使用。我們還在努力提高系統的效能，因此值得付出努力。

第一個版本的腦機介面給了志願者一個包含 50 個實用單詞的詞彙。

神經植入物如何工作？

在過去的二十年裡，神經植入物技術取得了長足的進步。用於聽力的假體植入物發展得最遠，其設計與內耳的耳蝸神經介面或直接進入聽覺腦幹。還有大量關於視網膜和大腦植入物的研究，以及為假手提供觸覺的努力。所有這些感官假肢都從外部世界獲取資訊，並將其轉換為電訊號，輸入大腦的處理中心。

上週，文摘菌還報道了一篇透過植入物幫助嗅覺失靈的患者重新感到味覺的案例。

另一類神經假肢記錄大腦的電活動並將其轉換為控制外部世界的訊號，例如機械臂、影片遊戲控制器或計算機螢幕上的游標。BrainGate 聯盟等組織已使用最後一種控制方式來讓癱瘓的人輸入單詞——有時一次輸入一個字母，有時使用自動完成功能來加快輸入速度。

這類透過大腦進行打字的技術並非首創，不過，研究者通常將植入物放置在運動皮層，也即是控制運動的大腦部分。然後透過使用者想象某些物理動作來控制在虛擬鍵盤上移動的游標。另一種方法是我的一些合作者在 2021 年的一篇論文中首創的，它讓一個使用者想象他正拿著筆在紙上寫信，在運動皮層中產生訊號，這些訊號被翻譯成文字。這種方法的打字速度誕生了新的記錄，使志願者每分鐘可以寫大約 18 個單詞。

在我們最新的實驗室研究中，我們採取了更高效率的方法。我們不是解碼使用者移動游標或筆的意圖，而是解碼控制聲道的意圖，包括控制喉部（通常稱為語音盒）、舌頭和嘴唇的數十塊肌肉。

對於癱瘓的人來說，看似簡單的對話設定是由複雜的神經技術硬體和解碼他的大腦訊號的機器學習系統實現的。

十多年前，我開始在這個領域工作。作為一名神經外科醫生，我經常會看到嚴重受傷導致無法說話的患者。令我驚訝的是，在許多情況下，腦損傷的位置與我在醫學院學到的綜合徵不匹配，我意識到我們仍然需要學習很多關於大腦如何處理語言的知識。我決定研究語言的潛在神經生物學，如果可能的話，開發一種腦機介面（BMI）來恢復失去語言的人的交流。除了我的神經外科背景外，我的團隊還擁有語言學、電氣工程、計算機科學、生物工程和醫學方面的專業知識。

肌肉如何幫你說話

語言是使

人類與眾不同

的能力之一。很多其他物種都會發聲，但只有人類以無數不同的方式組合了一組聲音來表達。這也是一種非常複雜的運動行為——一些專家認為這是人們執行的最複雜的運動行為。說話是透過聲道的調製氣流的產物；我們透過在喉部聲帶中產生可聽見的振動並改變嘴唇、下巴和舌頭的形狀來塑造呼吸。

聲道的許多肌肉與基於關節的肌肉（例如手臂和腿部的肌肉）完全不同，後者只能以幾種規定的方式移動。例如，控制嘴唇的肌肉是括約肌，而構成舌頭的肌肉更多地受液壓控制——舌頭主要由固定體積的肌肉組織組成，因此移動舌頭的一部分會改變其形狀別處。控制這些肌肉運動的物理原理與二頭肌或膕繩肌完全不同。

因為涉及的肌肉如此之多，並且它們每一個都有如此多的自由度，所以基本上有無數種可能的配置。但是當人們說話時，事實證明他們使用的核心動作相對較少（在不同的語言中會有所不同）。例如，當說英語的人發“d”音時，他們會把舌頭放在牙齒後面；當他們發出“k”音時，他們的舌根會向上接觸到口腔後部的天花板。很少有人意識到說出最簡單的詞所需的精確、複雜和協調的肌肉動作。

團隊成員 David Moses 檢視患者腦電波讀數［左螢幕］和解碼系統活動顯示［右螢幕］。

我的研究小組專注於向面部、喉嚨、嘴巴和舌頭的肌肉傳送運動命令的大腦運動皮層部分。這些大腦區域是多工的：它們管理產生語言的肌肉運動，以及吞嚥、微笑和接吻的相同肌肉的運動。

研究這些區域的神經活動需要毫米級的空間解析度和毫秒級的時間解析度。從歷史上看，無創成像系統已經能夠提供其中之一，但不能同時提供兩者。當我們開始這項研究時，我們發現關於大腦活動模式如何與最簡單的語音組成部分相關聯的資料非常少：音素和音節。

在這裡，我們要感謝我們的志願者。在 UCSF 癲癇中心，準備手術的患者通常會透過手術將電極放置在他們的大腦表面上幾天，這樣我們就可以繪製出癲癇發作時所涉及的區域。在這幾天的有線停機期間，許多患者自願參加神經學研究實驗，這些實驗利用了他們大腦中的電極記錄，讓我們能夠研究患者說話時的神經活動模式。

所涉及的硬體稱為皮層

電

圖（ECoG）。ECoG 系統中的電極不會穿透大腦，而是位於大腦表面。我們的陣列可以包含數百個電極感測器，每個感測器記錄數千個神經元。到目前為止，我們已經使用了一個具有 256 個通道的陣列。我們在這些早期研究中的目標是發現人們說簡單音節時皮層活動的模式。我們要求志願者說出特定的聲音和單詞，同時記錄他們的神經模式並跟蹤他們的舌頭和嘴巴的運動。有時我們透過讓他們塗上彩色面部彩繪並使用計算機視覺系統提取運動手勢來做到這一點；其他時候，我們使用位於患者頜下的超聲波機器對他們移動的舌頭進行成像。

該系統從覆蓋在患者大腦上的柔性電極陣列開始，以接收來自運動皮層的訊號。該陣列專門捕獲用於患者聲道的運動命令。一個固定在頭骨上的埠引導連線到計算機系統的電線，該系統將大腦訊號解碼並將其翻譯成患者想說的話，再將他們的答案展示在顯示屏上。

我們使用這些系統將神經模式與聲道的運動相匹配。起初，我們有很多關於神經程式碼的問題。一種可能性是神經活動編碼了特定肌肉的方向，大腦本質上就像按下鍵盤上的鍵一樣開啟和關閉這些肌肉，並且透過另一種模式決定肌肉收縮的速度。另一個是神經活動與用於產生某種聲音的肌肉收縮的協調模式相對應。（例如，要發出“aaah”的聲音，舌頭和下巴都需要下垂。）我們發現，有一個表示圖可以控制聲道的不同部分，以及不同的大腦區域。我們可以將二者結合起來，以產生流利的言語。

人工智慧在當今神經技術中的效用

我們的工作取決於過去十年人工智慧的進步。我們可以將收集到的關於神經活動和語音運動學的資料輸入神經網路，然後讓機器學習演算法在兩個資料集之間的關聯中找到模式，進而在神經活動和產生的語音之間建立聯絡，並使用這個模型來產生計算機生成的語音或文字。但是這種技術無法為癱瘓的人訓練演算法，因為我們缺少一半的資料：我們有神經模式，但沒有關於相應的肌肉運動。

我們意識到，使用機器學習的更聰明的方法是將問題分為兩個步驟。首先，解碼器將來自大腦的訊號翻譯成聲道肌肉的預期運動，然後將這些預期運動翻譯成合成語音或文字。

我們稱其為仿生方法，因為它複製了生物學的運動模式；在人體中，神經活動直接負責聲道的運動，僅間接負責發出的聲音。這種方法的一大優勢在於訓練解碼器將肌肉運動轉化為聲音的第二步。因為聲道運動和聲音之間的關係更容易獲取，我們能夠在來自未癱瘓的人的大型資料集上訓練解碼器。

下一個重大挑戰是將技術帶給真正可以從中受益的人。

美國國立衛生研究院（NIH）正在資助

我們的試點試驗

，該試驗於 2021 年開始。我們已經有兩名植入了 ECoG 陣列的癱瘓志願者，我們希望在未來幾年招募更多人。主要目標是改善他們的溝通，我們以每分鐘字數來衡量績效。使用全鍵盤打字的成年人平均每分鐘可以輸入 40 個單詞，最快的打字員可以達到每分鐘 80 個單詞以上的速度。

未來：用聲音代替文字輸出

我們認為，利用語音系統說話的效果會更好。人類講話比打字快得多：說英語的人一分鐘可以輕鬆地說出 150 個單詞。我們想讓癱瘓的人以每分鐘 100 字的速度進行交流。為了實現這一目標，我們還有很多工作要做。

植入程式和其他的植入物類似。首先，外科醫生切除一小部分顱骨；接下來，將柔性 ECoG 陣列輕輕放置在皮層表面。然後將一個小埠固定在顱骨上，並透過頭皮上的一個單獨開口離開。我們目前需要這個埠，它連線到外部電線以從電極傳輸資料，但我們希望將來使系統無線化。

我們考慮使用穿透性微電極，因為它們可以記錄較小的神經群體，因此可以提供有關神經活動的更多細節。但目前的硬體在臨床應用中不如 ECoG 強大和安全。

另一個考慮因素是，穿透電極通常需要每天重新校準才能將神經訊號轉化為清晰的命令，而對神經裝置的研究表明，設定速度和效能可靠性是讓人們使用該技術的關鍵。這就是為什麼我們在建立長期使用

的

“即插即用”系統時優先考慮穩定性的原因。

我們進行了一項研究，觀察志願者的神經訊號隨時間的變化，發現如果解碼器使用多個會話和多天的資料模式，它的效能會更好。在機器學習的術語中，我們說解碼器的“權重”被繼承，產生了整合的神經訊號。

因為我們的癱瘓志願者在我們觀察他們的大腦模式時不能說話，所以我們要求我們的第一位志願者嘗試兩種不同的方法。他首先列出了 50 個對日常生活很方便的單詞，例如“餓”、“口渴”、“請”、“幫助”和“計算機”。在幾個月的 48 次會議中，我們有時要求他想象說出清單上的每個單詞，有時要求他開口嘗試“說出”這些單詞。我們發現嘗試說話會產生更清晰的大腦訊號，並且足以訓練解碼演算法。然後志願者可以使用列表中的這些單詞來生成他自己選擇的句子，例如“不，我不口渴”。

我們現在正在努力擴大詞彙量。為了實現這一目標，我們需要繼續改進當前的演算法和介面，但我相信這些改進將在未來幾個月和幾年內發生。現在已經建立了原理證明，目標是最佳化。我們可以專注於讓我們的系統更快、更準確，並且——最重要的是——更安全、更可靠。現在事情應該進展得很快。

如果我們能夠更好地瞭解我們試圖解碼的大腦系統，以及癱瘓如何改變它們的活動，那麼最大的突破可能會到來。我們已經意識到，無法向聲道肌肉傳送指令的癱瘓患者的神經模式與能夠傳送指令的癲癇患者的神經模式截然不同。我們正在嘗試一項雄心勃勃的 BMI 工程壯舉，同時還有很多關於潛在神經科學的知識需要了解。我們相信，這一切都會匯聚在一起，讓我們的患者交流的能力。

素材來源：

https：//spectrum。ieee。org/brain-computer-interface-speech

農林漁牧網

用機器學習解碼一顆“失聲”15年的大腦，讓它“開口說話”

相關文章