亞馬遜雲科技陳曉建：實現資料分析和機器學習融合需解決三個問題

天使輪融資什麼意思

【TechWeb】5月6日訊息，企業數字化轉型需求已經從單純的業務“線上化”向業務“智慧化”進化。Gartner預計到2024年，75%的企業將把機器學習技術用於生產，為企業業務賦能。

而這一趨勢背後，正是資料驅動業務所帶來的降本增效力量。福布斯調研報告顯示，如果一家企業成為資料驅動型公司的話，其收入會增加20%，同時成本會減少30%。

亞馬遜雲科技大中華區產品部總經理陳曉建表示，機器學習作為人工智慧的重要分支，其同樣依賴“算力、演算法、資料”三大因素。企業要重塑資料洞察，一定是將資料（大資料技術）和智慧（機器學習技術）進行融合和統一。這種融合，能更加高效地圍繞資料構建和實施專案，使得資料在兩者之間無縫流轉，成員快速具備相關能力，推動公司企業數字化轉型邁向新的高度。

不過現實情況中，企業的資料分析和機器學習融合普遍存在三大問題：

一是，在企業內部，由於數字化發展的歷史原因，資料和機器學習往往由不同部分不同團隊分而治之，這種資料和技術的孤島狀態制約了敏捷迭代。

二是，很多傳統企業存在資料處理能力不足的情況。一個好的演算法如果要產生效果，不只是演算法本身要優秀，還需要有大量業務資料輸入進行不斷迭代，最後才能把演算法最佳化到很好的效果。在現實情況中，很多機器學習的團隊不具備處理海量資料規模的能力，在這樣情況下，如果只有好的演算法，沒有大量的資料，致使預測不準確，無法達到預期業務目標。

三是，資料分析人員對業務的參與度低。現實情況經常是，模型在實驗環節效果良好，但實際使用中卻不盡人意。因為技術人才的實驗環境只是對真實環境的簡單模擬，而真正的生產環境要複雜得多。

如果要實現資料分析和機器學習有效融合，就需要解決上述問題，陳曉建強調：“要實現數智有效融合，企業首先需要建立統一融合的治理底座，如資料質量、資料許可權、資料開發、資料工作流、視覺化；其次，大資料和機器學習之間應該是高效充分的雙向互動，互為支撐，互為因果，形成正向迴圈，最終為企業發展提供新動力。”

談到“融合”，就需要了解企業目前資料分析和機器學習能力的實際情況。有一類企業的技術路徑是機器學習能力完全誕生於大資料團隊；第二類企業進行機器學習和大資料專案創新的時候，它的起步其實是由於深度學習所帶來的，比如影象識別、語音識別，類似這樣的機器學習專案。

對於不同發展路徑的企業，在實現“數智融合”這一共同目標上，陳曉建介紹，亞馬遜雲科技提供了有針對性的服務和工具，來解決上述“遍存在三大問題”。

首先，亞馬遜雲科技能幫助客戶構建統一的資料治理底座，實現大資料和機器學習的資料共享，資料許可權的統一管控，以及兩者統一的開發和流程編排，來打破資料和技術孤島。

其中， Amazon Lake Formation作為“智慧湖倉”架構的核心功能，能夠實現跨部門、跨地域，允許不同組織內的機構共享同一個元資料，實現了資料網格跨部門的資料資產共享，以及基於單元格的最細粒度的許可權控制機制。

Amazon SageMaker Studio可一站式地完成資料開發、模型開發及相關的生產任務，該服務基於多種專門構建的服務，如互動式查詢服務Amazon Athena、雲上大資料平臺Amazon Elastic MapReduce （Amazon EMR）、雲資料倉庫服務Amazon Redshift、Amazon SageMaker等，為大資料和機器學習提供統一的開發平臺。

這些雲中統一的資料治理底座不僅能提升大資料和機器學習的高效融合，還能減少大資料和機器學習重複構建的工作，並且顯著降低成本。

其次，為機器學習提供生產級別的資料處理能力。亞馬遜雲科技提供多種靈活可擴充套件、專門構建的大資料服務，幫助客戶進行復雜的資料加工及處理，應對資料規模的動態變化，最佳化資料質量。其中，Amazon Athena能夠對支援多種開源框架的大資料平臺，包括Amazon EMR、高效能關係資料庫Amazon Aurora、NoSQL資料庫服務Amazon DynamoDB、Amazon Redshift等多種資料來源，對這些資料來源進行聯邦查詢，快速完成機器學習建模的資料加工。以Amazon Redshift、Amazon Managed Streaming for Apache Kafka （Amazon MSK）和 Amazon EMR 為代表的無伺服器分析能力，可以讓客戶無需配置、擴充套件或管理底層基礎設施，即可輕鬆地處理任何規模的資料，為機器學習專案提供兼具效能和成本效益的特徵資料準備。

最後，讓資料分析技術更加低門檻，讓業務人員也能有自主式訓練機器學習模型進行探索創新的能力。例如，在日常分析工具中整合機器學習模型預測能力，其中深度整合機器學習Amazon SageMaker模型預測能力的Amazon QuickSight 、在分析結果中新增基於模型預測的Amazon Athena ML，可幫助使用者使用熟悉的技術，甚至透過自然語言來使用機器學習。

亞馬遜雲科技還提供如Amazon Redshift ML、可視資料準備工具Amazon Glue DataBrew、零程式碼化的機器學習模型工具 Amazon SageMaker Canvas等服務，讓業務人員探索機器學習建模。

IDC中國助理研究總監盧言霞表示：“根據IDC 2022年中國人工智慧及自動化市場的十大預測，人工智慧將無處不在。到2022年，60%的中國1000強公司將在所有關鍵業務的橫向職能中擴大使用AI/ML，如營銷、法務、人力資源、採購和供應鏈、物流等。由於機器學習更加依賴算力、演算法、資料，人工智慧的快速發展拉動了對AI基礎資料服務的需求，預計在未來幾年內將穩步增長。在大資料與機器學習領域，亞馬遜雲科技提供廣泛而深入的服務，透過雲、數、智深度融合迎合市場需求，能夠降低更多行業使用者上雲用數賦智的門檻，更好地開展雲上數智融合之旅。”

據悉，迄今為止，亞馬遜雲科技已經幫助全球數十萬的使用者透過利用大資料和AI技術幫助業務發展。而亞馬遜雲科技在其中主要做的事情有三件，“第一，透過許可權控制以及自由的資料訪問，打破資料以及技能的孤島；第二，將無伺服器資料處理的能力，帶給機器學習的專案真正實現從實驗轉為實踐。第三，透過更智慧化的資料分析工具，將機器學習賦能給業務人員，極大地賦能業務人員進行智慧化的探索和創新。”陳曉建總結道。

農林漁牧網

亞馬遜雲科技陳曉建：實現資料分析和機器學習融合需解決三個問題

相關文章

亞馬遜雲科技陳曉建：實現資料分析和機器學習融合 需解決三個問題

相關文章

亞馬遜雲科技陳曉建：實現資料分析和機器學習融合需解決三個問題