技術標準-4資料倉庫技術(數倉標準)
數倉設計:從業務層和技術層兩方面綜合衡量,既要業務明白資料,方便取用讀取,又要讓資料讀取加工計算高效準確,沒有差錯
Hive是個什麼東東?
Hive是基於Hadoop平臺的數倉工具,具有海量資料儲存、水平可擴充套件、離線批次處理的優點,解決了傳統關係型數倉不能支援海量資料儲存、水平可擴充套件性差等問題,但是由於Hive資料儲存和資料處理是依賴於HDFS和MapReduce,因此
企業何時進行資料治理才是最佳時機
在能力沉澱階段,我們基於前兩個階段所做的業務和技術沉澱,將前期一系列規範形成標準,從業務到產研,自上而下地推動資料治理,並透過建立相應的組織、流程和制度來保障標準在該階段的全面落地實施,並透過建設資料治理平臺來輔助更高質量的執行標準
資料倉庫介紹與實時數倉案例
4.2 Lambda架構隨著大資料應用的發展,人們逐漸對系統的實時性提出了要求,為了計算一些實時指標,就在原來離線數倉的基礎上增加了一個實時計算的鏈路,並對資料來源做流式改造(即把資料傳送到訊息佇列),實時計算去訂閱訊息佇列,直接完成指標增