Hive和Spark究竟是憑藉什麼優勢而大獲成功？

hive是什麼意思中文

全文共

2283

字，預計學習時長

分鐘

圖片來源：pexels。com/photo/sliced-lemon-952354/

Hive和Spark憑藉其在處理大規模資料方面的優勢大獲成功，換句話說，它們是做大資料分析的。本文重點闡述這兩種產品的發展史和各種特性，透過對其能力的比較，來說明這兩個產品能夠解決的各類複雜資料處理問題。

什麼是Hive?

Hive是在Hadoop分散式檔案系統上執行的開源分散式資料倉庫資料庫，用於查詢和分析大資料。資料以表格的形式儲存（就像關係資料庫管理系統一樣）。資料操作可以使用名為HiveQL的SQL介面來執行。Hive在Hadoop之上引入了SQL功能，使其成為一個水平可擴充套件的資料庫，是DWH環境的絕佳選擇。

Hive發展史掠影

Hive（即後來的Apache）最初是由Facebook開發的，開發人員發現他們的資料在幾天內出現了從GBs到TBs的指數級增長。當時，Facebook使用Python將資料載入到RDBMS資料庫中。因為RDBMS資料庫只能垂直伸縮，很快就面臨著效能和伸縮性問題。他們需要一個可以水平伸縮並處理大量資料的資料庫。Hadoop在當時已經很流行了；不久之後，構建在Hadoop之上的Hive出現了。Hive與RDBMS資料庫類似，但不是完整的RDBMS。

為什麼選擇Hive？

選擇Hive的核心原因是它是執行在Hadoop上的SQL介面。此外，它還降低了MapReduce框架的複雜性。Hive幫助企業在HDFS上執行大規模資料分析，使其成為一個水平可伸縮的資料庫。它的SQL介面HiveQL使具有RDBMS背景的開發人員能夠構建和開發效能、使拓展的資料倉庫型別框架。

Hive特性和功能

Hive具有企業級的特性和功能，可以幫助企業構建高效的高階資料倉庫解決方案。

其中一些特性包括：

· Hive使用Hadoop作為儲存引擎，僅在HDF上執行。

· 專門為資料倉庫操作而構建的，不適用於OLTP或OLAP。

· HiveQL作為SQL引擎，能夠幫助為資料倉庫型別操作構建複雜的SQL查詢。Hive可以與其他分散式資料庫（如HBase）和NoSQL資料庫（如Cassandra）整合。

Hive結構

Hive架構非常簡單。它有一個Hive介面，並使用HDFS跨多個伺服器儲存資料，用於分散式資料處理。

Hive是專為資料倉庫操作構建的資料庫，尤其是那些處理萬億位元組或千兆位元組資料的資料庫。與RDBMS的資料庫類似，但不完全相同。如前所述，它是一個水平擴充套件的資料庫，並利用了Hadoop的功能，使其成為一個快速執行的高規模資料庫。它可以在數千個節點上執行，並且可以利用商用硬體。這使得Hive成為一款具有高效能和可擴充套件性的高性價比產品。

Hive整合功能

由於支援ANSI SQL標準，Hive可以與HBase和Cassandra。等資料庫整合。這些工具對SQL的支援有限，可以幫助應用程式對更大的資料集執行分析和報告。Hive還可以與Spark、Kafka和Flume等資料流工具整合。

Hive的侷限性

Hive是一個純資料倉庫資料庫，以表的形式儲存資料。因此，它只能處理使用SQL查詢讀寫的結構化資料，不能用於非結構化資料。此外，Hive也不適合OLTP或OLAP操作。

什麼是Spark?

Spark是一個分散式大資料框架，幫助提取和處理大量RDD格式的資料，以便進行分析。簡而言之，它不是一個數據庫，而是一個框架，可以使用RDD（彈性分散式資料）方法從資料儲存區（如Hive、Hadoop和HBase）訪問外部分散式資料集。由於Spark在記憶體中執行復雜的分析，所以執行十分迅速。

什麼是Spark Streaming？

Spark Streaming是Spark的一個擴充套件，它可以從Web源實時流式傳輸實時資料，以建立各種分析。儘管有其他工具，如Kafka和Flume可以做到這一點，但Spark成為一個很好的選擇，執行真正複雜的資料分析是必要的。Spark有自己的SQL引擎，與Kafka和Flume整合時執行良好。

Spark發展史掠影

Spark是作為MapReduce的替代方案而提出的，MapReduce是一種緩慢且資源密集型的程式設計模型。因為Spark對記憶體中的資料進行分析，所以不必依賴磁碟空間或使用網路頻寬。

為什麼選擇Spark？

Spark的核心優勢在於它能夠執行復雜的記憶體分析和高達千兆位元組的資料流大小，使其比MapReduce更高效、更快。Spark可以從Hadoop上執行的任何資料儲存中提取資料，並在記憶體中並行執行復雜的分析。此功能減少了磁碟輸入/輸出和網路爭用，將其速度提高了十倍甚至一百倍。另外，Spark中的資料分析框架還可以使用Java、Scala、Python、R甚至是SQL來構建。

Spark架構

Spark體系結構可以根據需求而變化。通常，Spark體系結構包括Spark流、Spark SQL、機器學習庫、圖形處理、Spark核心引擎和資料儲存（如HDFS、MongoDB和Cassandra）。

· 閃電般快速的分析

Spark從Hadoop中提取資料並在記憶體中執行分析。資料被並行地以塊的形式拉入記憶體。然後，將最終資料集傳送到目的地。資料集也可以駐留在記憶體中，知道被使用。

· Spark Streaming

Spark Streaming是Spark的一個擴充套件，它可以從大量使用的web源實時傳輸大量資料。由於Spark具有執行高階分析的能力，因此與Kafka和Flume等其他資料流工具相比，顯得尤為突出。

· 支援各種應用程式設計介面

Spark支援不同的程式語言，如在大資料和資料分析領域非常流行的Java、Python和Scala。這使得資料分析框架可以用任何一種語言編寫。

· 海量資料處理能力

如前所述，高階資料分析通常需要在海量資料集上執行。在Spark出現之前，這些分析是使用MapReduce方法進行的。Spark不僅支援MapReduce，還支援基於SQL的資料提取。Spark可以為需要對大型資料集執行資料提取的應用程式進行更快的分析。

· 資料儲存和工具整合

Spark可以與執行在Hadoop上的各種資料儲存（如Hive和HBase）整合。還可以從像MongoDB這樣的NoSQL資料庫中提取資料。與在資料庫中執行分析的其他應用程式不同，Spark從資料儲存中提取資料一次，然後在記憶體中對提取的資料集執行分析。

Spark的擴充套件——Spark Streaming可以與Kafka和Flume整合，構建高效高效能的資料管道。

Hive和Spark的區別

Hive和Spark是大資料空間為不同目的而構建的不同產品。Hive是一個分散式資料庫，Spark是一個用於資料分析的框架。

特性和功能的差異

結論

Hive和Spark都是大資料世界中非常流行的工具。Hive是使用SQL對大量資料執行資料分析的最佳選擇。另一方面，Spark是執行大資料分析的最佳選擇，它提供了比MapReduce更快、更現代的替代方案。

留言點贊關注

編譯組：廖馨婷、宋蘭欣

相關連結：

https：//dzone。com/articles/comparing-apache-hive-vs-spark

如需轉載，請後臺留言，遵守轉載規範

農林漁牧網

Hive和Spark究竟是憑藉什麼優勢而大獲成功？

相關文章