資料分析實踐入門（一）：資料預處理

什麼是預處理

作者 | CDA資料分析師

從菜市場買來的菜，總有一些是壞掉的不太好的，所以把菜買回來之後要做一遍預處理，也就是把那些壞掉的不太好的部分扔掉。現實中大部分的資料都類似於菜市場的菜品，拿到手以後會有一些不好的資料，所以都要先做一次預處理。

常見的不規則資料主要有缺失資料、重複資料、異常資料幾種，在開始正式的資料分析之前，我們需要先把這些不太規整的資料處理掉，做資料預處理。

一、缺失值處理

缺失值就是由某些原因導致部分資料是空的，對於為空的這部分資料我們一般是有兩種處理方式的，一種是做刪除處理，即把含有缺失值的資料刪除；另一種是做填充處理，即把缺失的那部分資料用某個值代替。

1、缺失值檢視

對缺失值進行處理，首先要把資料中的缺失值找出來，也就是檢視資料中有哪些列有缺失值。

（1）、Excel實現

在Excel中我們選中一列沒有缺失值的資料，看一下這一列資料共有多少個，然後把其他列的計數與這一列進行做對比，小於這一列資料個數的就代表該列資料有缺失值，差值就是缺失個數。

下圖中非缺失值列的資料計數為5，性別這一列計數為4，這就表示性別這一列是有一個缺失值的。

如果想要看整個資料表中每列資料的缺失情況，則要挨個選中資料中每一列去判斷該列是否有缺失值。

如果資料不是特別多，你想看資料中具體是哪個單元格的缺失，則可以利用定位條件（按快捷鍵Ctrl+G可彈出對話方塊）查詢。在定位條件對話方塊中選擇空值，單擊確定就會把所有的空值選中，如下圖所示：

透過定位條件把資料中缺失值選出來的結果，如下圖所示：

（2）Python實現

在Python中直接呼叫info （）函式的方法就會返回每一列的缺失情況。關於info （）函式方法我們在之前就用過，但是沒有說明這個方法可以判斷資料的缺失情況。

Pythoy中缺失值一般用NaN表示，從用info （）方法的結果來看，資料中性別這一列是3 non-null object，表示性別這一列有3個非null值，而其他列有4個非null值，說明性別這一列有1個null值。

我們在python中還可以用isnull （）方法來判斷哪個值是缺失值，如果是缺失值則返回True，一行中如果不是缺失值則返回False。

2、缺失值刪除

缺失值分為兩種，第一種是一行中某個欄位是缺失值；另一種是一行中的欄位全部為缺失值，即為一個空白行。

（1）Excel實現

在Excel中，這兩種缺失值都可以透過定位條件（按快捷鍵Ctrl+G可彈出該對話方塊），對話方塊中選擇空值就可以找到。

這樣含有缺失值的部分資料就會被選中，包括某個具體的單元格及一整行，然後單擊滑鼠右鍵在彈出的刪除對話方塊中選擇刪除整行選項，並單擊確定按鈕即可實現整行的刪除。

（2）Python實現

在Python中，我們利用的是函式dropna （）方法，函式dropna （）方法預設刪除含有缺失值的行，也就是隻要某一行有缺失值就把這一行刪除。

執行函式dropna （）方法以後，刪除含有NaN值的行，返回刪除後的資料。

如果想刪除空白行，只要給函式dropna （）方法傳入一個引數 how = all 即可，這樣就會只刪除那些全為空值的行，不全為空值的行就不會被刪除。

上表第二行中只有性別這個欄位是空值，所以在利用函式dropna（ how = “all” ）的時候並沒有刪除第二行，只是把全為NaN值的第三行刪掉了。

3、缺失值的填充

上面介紹了資料處理缺失值刪除的方法，但是資料是寶貴的，一般情況下只要資料缺失比例不是過高（不大於30%），儘量還是不要做刪除處理，而是選擇做填充。

（1）Excel實現

在Excel中，缺失值的填充和缺失值刪除一樣，利用的也是定位條件，先把缺失值找到，然後在第一個缺失值的單元格中輸入要填充的值，最常用的就是用0填充，輸入以後按Ctrl+Enter組合鍵就可以對所有缺失值進行填充處理。

缺失值填充前後的對比如下圖所示：

在資料中年齡用數字填充合適，但是性別用數字填充就不太合適，那麼可不可以分開填充呢？答案是可以的，選中想要被填充的那一列，按照填充全部資料的方式進行填充就可以了，只不過如果想要要填充幾列，則需要執行幾次這樣的操作。

上圖是資料填充前後的對比，年齡這一列我們使用平均值進行填充，性別這一列我們使用眾數進行填充。

除了用0填充、平均值填充、眾數（大多數）填充，還有向前填充（即用缺失值的前一個非缺失值填充，比如上個例子中編號A3 對應的缺失年齡的前一個非缺失值就是16）、向後填充（與向前填充對應）等方式。

（2）Python實現

在Python中，我們利用的 fillna （）方法對資料表中的所有缺失值進行填充，在fillna （）後面的括號中輸入要填充的值即可。

在Python中我們也可以按不同列進行填充，只要在函式fillna （）方法的括號中指明列名即可。

上面的程式碼中只針對性別這一列進行了填充處理，資料中其他列均未進行任何更改。

也可以同時對多個列填充不同的值：

二、重複值處理

重複資料就是同樣的記錄有多條，對於這樣的資料我們一般做刪除處理。

假設你是一名資料分析師，你的主要工作是分析你所在公司的銷售情況，現有公司2018年8月的銷售明細（已知一條明細對應一筆成交記錄資訊），你想看一下2018年8月公司整體成交量是多少，最簡單的方式就是看一下這個月有多少條成交明細。但是這裡可能會有重複的成交記錄存在，所以要先做刪除重複項的處理。

（1）Excel實現

在Excel中依次單擊選單欄中的資料>資料工具>刪除重複值，就可以刪除重複資料了，如下圖所示：

資料刪除前後的對比圖如下：

Excel的刪除重複值預設是針對所有值進行重複值判斷，比如資料中有訂單編號、客戶姓名、唯一識別碼（類似於身份證號的欄位）、成交時間這四個欄位，Excel會判斷這四個欄位是否都是相等的，只有都相等時才會做刪除處理，並且會保留第一個值（第一行值）。

你知道了公司2018年8月份成交明細以後，你想看一下2018年8月份總共有多少成交客戶，且每個客戶在2018年8月份首次成交的日期。

檢視客戶數量只需要按客戶的唯一識別碼進行去重就可以了。Excel預設是全選，我們可以取消全選，選擇唯一識別碼進行去重，這樣只要唯一識別碼重複就會被刪除，如下圖所示：

因為Excel預設會保留第一條記錄，而我們又想獲取每個客戶較早成交日期，所以我們需要先對時間進行升序排序，讓較早的日期排在前面。這樣在刪除的時候就會保留較早的成交日期。

刪除前後的對比如下圖所示：

（2）Python實現

在Python中我們利用drop_duplicates （）方法，該方法預設對所有值進行重複值判斷，且預設保留第一個值（或第一行值）。

上面的程式碼是針對所有欄位進行的重複值判斷，我們同樣也可以只針對某一列或某幾列進行重複值刪除的判斷，只需要在drop_duplicates （）方法中指明要判斷的列名即可。

也可以利用多列去重，只需要把多個列名以列表的形式傳給引數subset即可。比如按姓名和唯一識別碼去重。

還可以定義刪除重複項時要保留哪個，預設是保留第一個，也可以預設保留最後一個，或者全部不保留。透過傳入引數keep進行設定，引數keep預設值是first，即保留第一個值；也可以是last，保留最後一個值；還可以是False，即把重複值全部去掉。

三、異常值的檢測與處理

異常值就是相比正常資料而言過高或者過低的資料，比如一個人的年齡是0歲或者100歲都算是一個異常值，因為這和實際情況差距過大。

1、異常值檢測

要處理異常值首先要檢測，也就是發現異常值，發現異常值的方式主要有以下三種：

■根據業務經驗劃定不同指標的正常範圍，超過該範圍的值就可以算為異常值

■透過繪製箱型圖，把大於（小於）箱型圖上邊緣（下邊緣）的點稱為異常值

■如果資料服從正太分佈，則可以利用3σ 原則；如果一個數值與平均值之間的偏差超過3倍標準差，那麼我們就認為這個值是異常值。

箱形圖如下圖所示：

下圖是正態分佈圖，我們把大於μ+3σ的值稱為異常值。

2、異常值處理

對於異常值一般有以下幾種處理方式：

■最常用的處理方式就是刪除

■把異常值當做缺失值來填充

■把異常值當做特殊情況，研究異常值出現的原因

（1）Excel實現

在Excel中，刪除異常值只要透過篩選就把異常值對應的行找出來，然後單擊滑鼠右鍵選擇刪除行即可。

對異常值進行填充，其實就是對異常值進行替換，同樣透過篩選的功能把異常值先找出來，然後把這些異常值替換成要填充的值即可。

（2）Python實現

在Python中，刪除異常值用到的方法和Excel中的方法原理類似，Python中是透過過濾的方法對異常值進行刪除。比如 df 表中有年齡這個指標，要把年齡大於200的值刪掉，你可以透過篩選把年齡不大於200的篩出來，篩出來的部分就是刪除大於200的值以後的新表。

對異常值進行填充，就是對異常值進行替換，利用 replace （）方法可以對特定的值進行替換。

四、資料型別轉換

1、資料型別

（1）Excel實現

在Excel中常用的資料型別就是在選單欄中數字選項下面的幾種，你也可以選擇其他資料格式，如下圖所示。

在Excel中只要選中某一列就可以在選單欄看到這一列的資料型別。

當選中成交時間這一列時，選單欄中就會顯示日期，表示成交時間這一列的資料型別是日期格式，如下圖所示。

（2）Python實現

Pandas不像Excel分得那麼詳細，它主要有6種資料型別，如下表所示。

在 Python 中，不僅可以用 info （）方法獲取每一列的資料型別，還可以透過 dtype方法來獲取某一列的資料型別。

2、型別轉換

我們在前面說過，不同資料型別的資料可以做的事情是不一樣的，所以我們需要對資料進行型別轉化，把資料轉換為我們需要的型別。

（1）Excel實現

在Excel中如果想更改某一列的資料型別，只要選中這一列，然後在數字選單欄中透過下拉選單選擇你要轉換的目標型別即可實現。

下圖就是將文字型別的資料轉換成數值型別的資料，數值型別資料預設為兩位小數，也可以設定成其他位數。

（2）Python實現

在Python中，我們利用astype （）方法對資料型別進行轉換，astype （）後面的括號裡指明要轉換的目標型別即可。

五、索引設定

索引是查詢資料的依據，設定索引的目的是便於我們查詢資料。舉個例子，你逛超市買了很多食材，回到家以後你要把這些食材全部放在冰箱裡，放置在冰箱的過程其實就是一個建立索引的過程，比如蔬菜放在冷藏室，肉類放在冷凍室，進行完這樣的分類存放之後，這樣再找的時候就可以很快的找到。

1、為無索引的表新增索引

有的表沒有索引，這時要給這類表加一個索引。

（1）Excel實現

在Excel中，一般都是有索引的，如果沒索引資料看起來會很亂，當然也會有例外，資料表就是沒有索引的。這個時候插入一行一列就是為表新增索引。

新增索引前後的對比如下圖所示，序號列為行索引，欄位名稱為列索引。

（2）Python實現

在Python中，如果表沒有索引，會預設用從0開始的自然數做索引，比如下面這樣：

透過給表df的columns引數傳入列索引值，index引數傳入行索引值達到為無索引表新增索引的目的，具體實現如下：

2、重新設定索引

重新設定索引，一般指行索引的設定。有的表雖然有索引，但不是我們想要的索引，比如現在有一個表是把序號作為行索引，而我們想要把訂單編號作為行索引，該怎麼實現呢？

（1）Excel實現

在Excel中重新設定行索引比較簡單，你想讓哪一列做行索引，直接把這一列拖到第一列的位置即可。

（2）Python實現

在Python中可以利用set_index （）方法重新設定索引列，在 set_index （）裡指明要用作行索引的列的名稱即可。

在重新設定索引時，還可以給 set_index （）方法傳入兩個或多個列名，我們把這種一個表中用多列來做索引的方式稱為層次化索引，層次化索引一般用在某一列中含有多個重複值的情況下。層次化索引的例子，如下所示，其中 a、b、c、d 分別有多個重複值。

3、重新命名索引

重新命名索引是針對現有索引名進行修改的，就是改欄位名。

（1）Excel實現

在Excel中重新命名索引比較簡單，就是直接修改欄位名。

（2）Python實現

在Python中重新命名索引，我們利用的是rename （）方法，在rename （）後的括號裡指明要修改的行索引及列索引名。

4、重置索引

重置索引主要用在層次化索引表中，重置索引是將索引列當作一個columns進行返回。

在下圖左側的表中，Z1、Z2是一個層次化索引，經過重置索引以後，Z1、Z2這兩個索引以columns的形式返回，變為常規的兩列。

在Excel中，我們要進行這種轉換，直接透過複製、貼上、刪除等功能就可以實現，比較簡單。我們主要講一下在Python中怎麼實現。

在Python利用的是reset_index （）方法，reset_index （）方法常用的引數如下：

level引數用來指定要將層次化索引的第幾級別轉化為columns，第一個索引為0級，第二個索引為1級，預設為全部索引，即預設把索引全部轉化為columns。

drop引數用來指定是否將原索引刪掉，即不作為一個新的columns，預設為False，即不刪除原索引。

inplace引數用來指定是否修改原資料表。

reset_index （）方法常用於資料分組、資料透視表中。

掃碼進入CDA官方小程式，解鎖更多新鮮資訊和優質內容，還有免費試聽課程，不要錯過喲！

這是“資料分析實踐入門系列“的第一篇，接下來還會陸續奉上乾貨，請持續關注我們吧！

農林漁牧網

資料分析實踐入門（一）：資料預處理

相關文章