農林漁牧網

您現在的位置是:首頁 > 畜牧業

乾貨:麥克風陣列訊號處理技術

2021-06-29由 社會生活實錄 發表于 畜牧業

載波頻率高低有什麼用

隨著人工智慧與人們的生活越來越近,語音技術的發展也備受關注。傳統的近場 語音已經無法滿足人們的需求,人們希望可以在更遠的距離,更復雜的環境中語音控制智慧裝置。因此,陣列技術成為遠場語音技術的核心。

麥克風陣列(Microphone Array),從字面上,指的是麥克風的排列。也就是說由一定數目的聲學感測器(一般是麥克風)組成,用來對聲場的空間特性進行取樣並處理的系統。早在20世紀70、80年代,麥克風陣列已經被應用於語音訊號處理的研究中,進入90年代以來,基於麥克風陣列的語音訊號處理演算法逐漸成為一個新的研究熱點。而到了“聲控時代”,這項技術的重要性顯得尤為突出。

陣列麥克風對人工智慧的意義:

空間選擇性:透過電掃陣列等空間定位技術可以獲取聲源的有效位置,智慧裝置在獲取精準的聲源位置資訊,讓我們的語音更加智慧,透過演算法獲取高品質的語音訊號質量。

乾貨:麥克風陣列訊號處理技術

在頻率響應中也可以根據時域中波束形成與空間濾波器相仿的應用,分析出接收到語音訊號音源的方向以及其變化。而這些分析都可以由極座標圖以波束形式來顯示語音訊號的強度與角度。

通常在手機(如iphone系列,三星系列等)和電腦(如聯想小Y系列等)中常採用。採用該技術,能利用兩個麥克風接收到聲波的相位之間的差異對聲波進行過濾,能最大限度將環境背景聲音濾掉,只剩下需要的聲波。對於在嘈雜的環境下采用這種配置的裝置,能使聽者聽起來很清晰,無雜音。

麥克風陣列可以自動檢測聲源位置,跟蹤說話人,同時可以獲取多聲源和跟蹤移動聲源的優勢,無論你走到任何位置,智慧裝置都會對你的位置方向進行語音增強。

陣列麥克風增加了空域處理,對多訊號空時頻三維的處理彌補單訊號在噪聲抑制,回聲抑制,混響抑制,聲源定位,語音分離方面的不足,讓我們的智慧裝置在複雜的環境中都可以獲取高質量的語音訊號,提供更好的智慧語音體驗。

麥克風陣列與天線陣列不同的原因

1。語音訊號是寬頻訊號。

2。室內混響或者多徑效應顯著。

3。環境特性和訊號均高度非平穩。

4。噪聲與目標語音訊號可能具有相同的頻譜特性。

5。感測器的數目通常有限。

6。人耳聽力具有極寬的動態範圍,並且對通道衝擊響應的弱拖尾極其敏感。因此,濾波器模型的長度很長。

麥克風陣列技術的技術難點

傳統的陣列訊號處理技術直接應用到麥克風陣列處理系統中往往效果不理想,其原因在於麥克風陣列處理有不同的處理特點:

陣列模型的建立

麥克風主要應用處理語音訊號,拾音範圍有限,且多用於近場模型,使得常規的陣列處理方法如雷達,聲吶等平面波遠場模型不再適用,在近場模型中,需要更加精準的球面波,需要考慮傳播路徑不同引起的幅度衰減不同。

寬頻訊號處理

通常的陣列訊號處理多為窄帶,即不同陣元在接受時延與相位差主要體現在載波頻率,而語音訊號未經過調製也沒有載波,且高低頻之比較大,不同陣元的相位延時與聲源本身的特性關係很大-頻率密切相關,使得傳統的陣列訊號處理方法不再完全適用。

非平穩訊號處理

傳統陣列處理中,多為平穩訊號,而麥克風陣列的處理訊號多是非平穩訊號,或者短時平穩訊號,因此麥克風陣列一般對訊號做短時頻域處理,每個頻域均對應一個相位差,將寬頻訊號在頻域上分成多個子帶,每個子帶做窄帶處理,再合併成寬頻譜。

聲源定位

聲源定位技術在人工智慧領域應用廣泛,利用麥克風陣列來形成空間笛卡爾座標系,根據不同的線性陣列,平面陣列和空間陣列,來確定聲源在空間中的位置。智慧裝置首先可以對聲源的位置做進一步的語音增強,當智慧裝置獲取你的位置資訊可以結合其他的感測器進行進一步的智慧體驗,比如機器人會聽到你的呼喚走到你的身邊,影片裝置會聚焦鎖定說話人等等。瞭解聲源定位技術之前,我們需要了解近場模型和遠場模型。

乾貨:麥克風陣列訊號處理技術

近場模型和遠場模型

通常麥克風陣列的距離為1~3m,陣列處於近場模型,麥克風陣列接受的是球面波而不是平面波,聲波在傳播的過程中會發生衰減,而衰減因子與傳播的距離成正比,因此聲波從聲源到達陣元時候的幅度也各不相同。而遠場模型中,聲源到陣元的距離差相對較小,可以忽略。通常,我們定義2L²/λ為遠近場臨界值,L為陣列孔徑,λ為聲波波長,因此陣元接受訊號不僅有相位延時還有幅度衰減。

聲源定位技術

聲源定位的方法包括波束形成,超分辨譜估計和TDOA,分別將聲源和陣列之間的關係轉變為空間波束,空間譜和到達時間差,並透過相應的資訊進行定位。

電掃陣列

透過陣列形成的波束在空間掃描,根據不同角度的抑制不同來判斷方向。透過控制各個陣元的加權係數來控制陣列的輸出指向,進行掃描。當系統掃描到輸出訊號功率最大時所對應的波束方向就是認為是聲源的DOA方向,從而可以聲源定位。電掃陣列的方式存在一定的侷限,僅僅適用於單一聲源。若多聲源在陣列方向圖的同一主波束內,則無法區分。而這種定位精度和陣列寬度有關-在指定頻率下,波束寬度和陣列孔徑成反比,所以大孔徑的麥克風陣列在很多場合的硬體上很難實現。

超分辨譜估計

如MUSIC,ESPRIT等,對其協方差矩陣(相關矩陣)進行特徵分解,構造空間譜,關於方向的頻譜,譜峰對應的方向即為聲源方向。適合多個聲源的情況,且聲源的解析度與陣列尺寸無關,突破了物理限制,因此成為超分辨譜方案。這類方法可以拓展到寬頻處理,但是對誤差十分敏感,如麥克風單體誤差,通道誤差,適合遠場模型,矩陣運算量巨大。

麥克風陣列能夠解決的主要實際問題

1。噪聲抑制。

2。回聲抑制。

3。去混響。

4。單或多聲源定位。

5。聲源數目估計。

6。源分離。

7。雞尾酒會效應。

陣列技術的未來發展

麥克風陣列技術相對於單麥克風系統有很多優點,已成為語音增強及語音訊號處理的重要部分。語音增強和聲源定位已經成為陣列技術中不可缺少的部分,在影片會議,智慧機器人,助聽器,智慧家電,通訊,智慧玩具,車載領域都需要聲源定位和語音增強。各種訊號處理技術,陣列訊號處理技術都陸續結合到麥克風陣列的語音處理系統當中,並逐漸得到演算法改進和進一步的廣泛應用。在複雜的噪聲環境,混響環境,聲學環境下,強大的硬體處理能力也使得複雜演算法實時處理語音增強成為了可能。在未來,語音和影象的緊密結合會成為人工智慧領域的新的突破口,在人工智慧的風口浪尖,是誰能將語音識別,語音理解,陣列訊號處理,遠場語音,影象識別,人臉識別,虹膜識別,聲紋識別的技術巧妙並有機的結合在一起,並將技術的本質和與人為本的宗旨完美的結合,讓我們拭目以待。