農林漁牧網

您現在的位置是:首頁 > 林業

對話高通發明家Ananth Kandhadai:以技術助力開拓智慧終端新時代

2022-07-18由 人民資訊 發表于 林業

寬框眼鏡怎麼安裝鏡片

本文轉自:環球Tech

對話高通發明家Ananth Kandhadai:以技術助力開拓智慧終端新時代

高通公司多媒體研發高階工程總監Ananth Kandhadai

沉浸式體驗的新時代已經來臨,這在很大程度上得益於計算機視覺技術的引領。無論是模糊使用者背景的虛擬呼叫,還是在公路上成功實現自動駕駛的汽車,計算機視覺技術的進步正在變革人們的生活方式。

二十多年來,高通公司多媒體研發高階工程總監Ananth Kandhadai一直是發明各類計算機視覺和人工智慧技術的領軍人物。自1996年加入公司以來,Ananth的研究領域包括語音編碼、影象處理、深度學習、視覺硬體加速、功率約束的系統設計,以及增強現實/虛擬現實(AR/VR)系統解決方案。目前,他領導著一個工程師團隊,專注於研發面向擴充套件現實(XR)應用的計算機視覺和攝像系統。

Ananth來自印度,在卡利卡特國立技術學院獲得電子工程學士學位後,他前往美國,並在弗吉尼亞理工大學獲得了電子工程碩士學位。在那之後,他面臨著一個選擇:繼續深造並攻讀博士學位,或者在高通開始他的工程師生涯。他選擇了高通,並開始了對移動語音編碼和標準化的研究。Ananth認為他做出了正確的決定,並表示與選擇學術界相比,他在高通學到更多,成長得更快。

多年來,由Ananth引領的一些創新性發明包括:使智慧手機攝像頭能夠基於使用者的環境變化來啟動應用程式,以及在語音編碼和影象與訊號處理領域的大量工作。如果沒有Ananth的技術突破,我們可能無法享有目前的一些智慧終端和豐富的多媒體體驗。

近期我們與Ananth進行了深入交流,談到了他在加入高通技術公司後,在訊號處理和計算機視覺交叉領域的傑出職業生涯。

在加入高通的25年裡,您主要研究哪些技術?

我在高通的一半以上的時間都在從事語音編碼和標準化領域的工作——總體來說,就是面向手機的語音壓縮技術。蜂窩和衛星通訊是我從1996年起就開始從事的工作,後來我轉向了研究影象處理和計算機視覺。

長期以來我一直將訊號處理作為核心研究領域,將其應用於語音編碼、語音壓縮和語音處理。之後,我轉向了影像處理和計算機視覺領域。目前,我正在研究面向XR和一些其他顯示和渲染方面的特定計算機視覺應用。

我的工作變動也反映了高通公司的發展歷程。在我剛加入工作時,無線手機使用者數量要少很多,所以那段時間我長期參與系統擴容。當用戶數量提升之後,我們逐漸開始新的佈局,於是我們說:“好吧,讓我們來增加一些拍照手機。”如果你還記得早期那些翻蓋手機,應該有印象,它們的攝像頭很小。大家最初看到拍照手機爆發式增長的時候,我正在從事相關工作,遇到過許多不同的技術挑戰。

幾年後,當那些攝像頭需要變得更智慧時,我就專注於運用計算機視覺——一種使計算機能夠檢測現實世界中的物體,並對其做出反應的功能。隨著我們邁入應用計算機視覺的新世界,我就轉而研究未來可用於XR(擴充套件現實)應用的技術。我專注研究的技術領域與高通的技術重點同步轉換,這並非巧合。

對於那些可能不太瞭解計算機視覺的人,您能通俗地解釋一下它是什麼以及為何重要嗎?

試想一下人們佩戴眼鏡——比如矯正鏡片,每個人都瞭解矯正鏡片。人們佩戴它,是為了更清晰地觀察世界,對吧?簡單來說,人們在頭上佩戴某些東西是為了更好地觀察和感知世界——在某種程度上,這增強或擴充套件了現實世界。

計算機視覺是一種數字化方式,用於感知、記錄和理解單個攝像頭或一系列攝像頭所生成的可視資料。比如,找到人眼自然識別的模式,或是太微妙、甚至人眼無法察覺的資料模式。無論是自動駕駛汽車的障礙識別功能,還是在虛擬通話中區分前景背景的功能,從根本上來說,它都是透過建立用計算機解釋可視資料的方法來實現的。

隨著終端變得更加智慧,它需要自動分析出這些模式。終端需要像一個數字化的助理一樣,感知使用者及其周圍環境。此類自動感知技術要求終端具備智慧計算機視覺功能——幾乎像第三隻眼睛一樣,來提供無縫使用者體驗。這就是計算機視覺對所有不同的應用都至關重要的原因。

對話高通發明家Ananth Kandhadai:以技術助力開拓智慧終端新時代

在研究應用計算機視覺的過程中,您遇到過哪些技術挑戰?您是如何努力應對挑戰的?

人們可能會說:“哦,這就好像多了一雙眼睛”。但是眼睛本身很容易複製——它只是光的接收裝置。難點在於複製眼睛後面處理資訊的大腦。大腦是神經科學和意識的經典研究領域,人們如何感知現實這個問題甚至尚未被完全瞭解。但這正是我們試圖在機器上覆制的東西。在不經歷數百萬年進化的情況下,研究與人類頭腦具有相同可靠性水平的終端,這是第一個挑戰。

高通正在解決的最重要的問題是,當在使用者在頭上佩戴XR終端這樣的裝置時,需要保證裝置是輕便的,不能過熱,它的功耗也必須非常低。這意味著不能只用大量算力和記憶體來解決計算機視覺和感知等方面的難題。終端必須足夠輕便和涼爽,才能使使用者舒適地將其佩戴於頭部,這歸根結底涉及到功耗效率的創新。

功耗和計算複雜性總是彼此衝突,但可用性要求二者針對不同的消費終端外形進行同步最佳化。

計算機視覺在不同應用中有何不同,比如汽車駕駛輔助、無人機、機器人和XR?

本質上講,這些不同的應用在所處理的基本任務上是相似的。例如,瞭解XR終端使用者的頭部位置或攝像頭的位置,與汽車在自動駕駛時需要了解周圍環境,或無人機在自動駕駛模式下跟蹤物體都非常相似。以上所有產品的攝像頭和視覺系統都需要明確終端周圍的實際情況。因此,將人工智慧(AI)技術用於物體檢測、3D重建、地圖構建、物體識別、頭部追蹤和眼動跟蹤等不同用例,從概念上看都非常相似。無人機用例略有不同,因為在物理上操控者已經脫離機器本身,機器中沒有人。

然而,這裡還存在著其他方面的因素,導致計算機視覺對各個用例來說都有本質的不同。這就是為什麼很難拿出一個萬能的解決方案。可以打個比方,你可以說人類、獵豹和花豹都有四肢和嘴,都是肉食性動物。它們是有相似性的,但又有著需要針對各自不同的環境和情況進行的不同最佳化。

汽車上有牢固安裝的攝像頭,其技術重點是影像的穩定性。汽車通常只在路面上行駛,但它們行駛的速度很快。最重要的是,汽車計算機視覺中,錯誤的代價在車上更具災難性。這讓該項技術變得很難,但也更具可預測性。

相比之下,把一組類似的攝像頭放在使用者頭上就不一樣了:使用者可能身處任何地方,不斷地以不可預測的模式移動頭部,這讓頭部攝像頭看到的場景比車載攝像頭看到的更加難以預測。在這個意義上,XR頭顯和汽車計算機視覺系統提出的假設有些許不同。基本技術保持不變,但它們的工程設計方式使其成為完全不同的問題。

而最終,儘管我們解決問題的方法可能截然不同,但當涉及到我們晶片組的實際架構變化時,這些不同領域之間其實存在著許多協同效應。我們常常發現,在架構層面針對一個用例所做的決定,最終會有助於實現另一個用例。

高通如何支援您的工作,公司透過什麼方式幫助您創造這些計算機視覺技術?

我很幸運能在高通工作,因為我們在連線、應用處理器和智慧手機平臺方面有成熟的業務。這使我們處於一個有利位置,讓我的團隊能夠專注於計算機視覺的技術層面,比如感知和渲染,從而建立有效方式,讓客戶和終端使用者獲得這些技術功能。

高通還與計算機視覺相關領域的主要行業領導者保持著良好的關係,這有助於我們在努力解決的根本性問題上保持一致。我能夠解決很多問題,但其中的大量問題可能不是實際問題。圍繞實際問題進行協作、制定規範是很重要的,而與其他公司保持良好關係有助於我們做到這些。

總體而言,高通積極地推動我們團隊提出的解決方案。公司會採用相關解決方案,尋找方法將其轉化為商機,這需要解決方案的路線圖,並且有助於使我們的產品與其他公司形成差異化。同樣地,業務團隊會給我們帶來一些挑戰。他們與客戶交流獲取市場需求,然後給我們時間去思考和實現這些需求。尤其對於XR這樣的應用,它的業務規模還無法與智慧手機相比。但高通有著長期願景,並且鼓勵我們去實現。這使我們能夠專注於技術,而不是僅僅試圖弄清這些技術如何實現商業化。

最後,高通有許多團隊致力於從各個方面研究和設計行業領先的系統級晶片(SoC),這讓我們能夠與公司其他部門的不同團隊合作,來分享和利用在其他情況下很難獲取的知識。公司的流程允許我們向其他團隊提供建議,並在不同應用中根據不同目的使用他們的工作成果,而協作是這個流程中必須的。結果證明,這樣的協作大有裨益。

對於希望在語音識別或計算機視覺技術領域開展職業生涯的年輕發明家(他們或許還在上學),您會給他們什麼建議?

根據我自己的經驗,我建議將發明看作是解決現實問題的附帶結果。專注於解決難題,並且相信那些難題將把你引向創新性的解決方案。如果你發現了其他人尚未解決的問題,我認為這就值得你花時間去解決。雖然會有風險,人們沒能解決它可能是有原因的,但這些問題通常是值得去研究的。很可能會有貪多嚼不爛的問題,但我認為這不值得擔憂。持續不斷地去調整和改進就好了,永遠不要低估自己的想象力和創造力。某個問題沒有被解決並不能說明什麼——或許它恰好就在等待你去研究。研究任何事物都需要新視角,尤其是那些“尚未解決”的問題。

歸根結底,重要的是去正確地解決問題——不必專注於尋找華而不實或另闢蹊徑的解決方案。根據我的經驗,創新很有可能來自於解決那些難題。在我們申請專利時,這個原則也很有用。專利部門會評估一項技術的創新性和影響力,也會參考其新穎性和實用性。所有這些評估專利是否有用的指標,都以你要解決的問題為基礎。