農林漁牧網

您現在的位置是:首頁 > 林業

在九道門成為一名資料分析師是什麼樣的感受

2022-06-29由 九道門聊資料 發表于 林業

九道門資料分析學院怎麼樣

去年看了關於大資料的新聞和相關的書之後,感覺像是發現了寶藏一樣,也因此改變了我的人生軌跡,正式踏上了資料分析的路。

在九道門成為一名資料分析師是什麼樣的感受

成為一名大資料分析師的感受是什麼?

感受就是每天和各種各樣的資料打交道,哪個指標高了,領導問為什麼高?哪個指標低了,領導問為什麼低?

你以為的資料分析師每天的工作是:取數—分析—視覺化—報告—釋出嗎?too young too simple。

為什麼要資料清洗那麼多遍?因為業務方給到的資料都是髒資料,做為資料分析師,就需要處理這些資料,有時候這些資料中會出現資料缺失、異常值、重複值、資料不可用等現象。

01如何處理缺失值

處理缺失值是資料清洗中最棘手也最常見的部分。很多模型可以與其他資料問題和平共處,但大多數模型無法接受缺失資料問題。缺失資料的處理方法主要有三大類:

刪除元組、資料補齊、不處理。

刪除元組

也就是將存在遺漏資訊屬性值的物件(元組,記錄)刪除,從而得到一個完備的資訊表。

刪除元組

資料探勘中常用的有以下幾種補齊方法:

1。人工填寫

2。特殊值填充

將空值作為一種特殊的屬性值來處理,它不同於其他的任何屬性值。如所有的空值都用“unknown”填充。一般作為臨時填充或中間過程。

3。平均值填充

將初始資料集中的屬性分為數值屬性和非數值屬性來分別進行處理。

4。熱卡填充

對於一個包含空值的物件,熱卡填充法在完整資料中找到一個與它最相似的物件,然後用這個相似物件的值來進行填充。

5。最近距離鄰法

先根據歐式距離或相關分析來確定距離具有缺失資料樣本最近的K個樣本,將這K個值加權平均來估計該樣本的缺失資料。

6。使用所有可能的值填充

用空缺屬性值的所有可能的屬性取值來填充,能夠得到較好的補齊效果。但是,當資料量很大或者遺漏的屬性值較多時,其計算的代價很大,可能的測試方案很多。如果沒有任何可以藉助的變數或可參考變數作用很低時可以採用這個方法,方便簡單。

7。迴歸

基於完整的資料集,建立迴歸方程。對於包含空值的物件,將已知屬性值代入方程來估計未知屬性值,以此估計值來進行填充。當變數不是線性相關時會導致有偏差的估計。常用線性迴歸。

8。期望值最大化方法

EM演算法是一種在不完全資料情況下計算極大似然估計或者後驗分佈的迭代演算法。在每一迭代迴圈過程中交替執行兩個步驟:

E步(Excepctaion step,期望步),在給定完全資料和前一次迭代所得到的引數估計的情況下計算完全資料對應的對數似然函式的條件期望;

M步(Maximzation step,極大化步),用極大化對數似然函式以確定引數的值,並用於下步的迭代。演算法在E步和M步之間不斷迭代直至收斂,即兩次迭代之間的引數變化小於一個預先給定的閾值時結束。

該方法可能會陷入區域性極值,收斂速度也不是很快,並且計算很複雜。

9。多重插補

多重填補方法分為三個步驟:

為每個空值產生一套可能的填補值,這些值反映了無響應模型的不確定性;每個值都被用來填補資料集中的缺失值,產生若干個完整資料集合。

每個填補資料集合都用針對完整資料集的統計方法進行統計分析。

對來自各個填補資料集的結果進行綜合,產生最終的統計推斷,這一推斷考慮到了由於資料填補而產生的不確定性。該方法將空缺值視為隨機樣本,這樣計算出來的統計推斷可能受到空缺值的不確定性的影響。該方法的計算也很複雜。

10。C4。5方法

透過尋找屬性間的關係來對遺失值填充。

刪除元組

不處理缺失值,直接在包含空值的資料上進行資料探勘的方法包括貝葉斯網路和人工神經網路等。

上班閒暇的時候常常幻想能做一個非常牛逼的模型,解決所有的問題。

02業務能力是落地的前提

資料分析師同時也需要很強的業務、溝通能力。專業技能是一方面,如果沒有好的業務能力,那就推動不了專案落地。

所以資料分析師經常需要和各個部門的大大小小職位的人溝通,不要太相信資料分析師速成班,一般來說,成為一名專業的資料分析師,如果沒有相關的專案經驗的話,那至少需要2~3年的時間沉澱。

只有真的在實踐領域從事過資料分析工作,就會明白所有分析的重中之重都是業務知識本身。而業務知識的學習和掌握,需要的積累之深,培養一個業務專家,需要的週期之長,都遠遠超過基本的工具技能。

九道門商業資料分析專案實訓學院提供的商業資料分析師二個月企業真實專案實訓,能提供相當於擁有1年工作經驗,帶著專案經驗去面試,順利入職!