「專欄｜Army」內部審計師的資料分析Ⅵ

一個分佈究竟是總體分佈還是樣本分佈

「來源：｜審計實踐 ID：one_auditor」

本文從曲線的集中趨勢，變化和形狀的角度研究了資料型別和給定的一組資料（作為標準基準）之間的差異。

資料型別

資料分為不同的類別，例如標稱，有序，間隔和比率。

名義資料是指具有離散性質的資料，例如國家名稱，人名，產品名稱或類似資訊。

序數資料是指具有自然排序順序的資訊，例如比賽中的完成順序或已按照1到10的評分等級（李克特量表）進行評估的專案。儘管序數資料趨向於數字化，並且傾向於將其用於算術目的，但是這是有問題的，因為無法確定地說間隔值是相等的。例如，比賽中獲得第一，第二和第三名的跑步者通常不會等間隔進入。類似地，當使用等級量表時，兩個和三個之間的差異不一定與八個和九之間的差異相同。同樣，如果量表顯示“討厭，不喜歡，既不討厭又不喜歡，不喜歡，愛”，那麼仇恨和不喜歡之間的區別不一定與喜歡和愛之間的區別相同。在嘗試將序數資料用於算術目的時，審計人員尤其必須小心。可以使用稱為對應分析的技術將序數資料轉換為間隔資料。

間隔資料類似於順序資料，不同之處在於每個值之間的間隔相等。$ 5和$ 6之間的差額與$ 120和$ 121之間的差額相同。

比率資料是具有自然零的間隔資料的一種形式。經過的時間是比率資料的一個示例。在比賽中，所有運動員在從零開始的可衡量時間都是終點。再一次，每次之間的間隔將具有相同的幅度。

對應分析

當兩個資料集的元素之間（例如行和列之間）存在某種對應關係的度量時，可使用此技術來分析表格資訊。Greenacre很好地證明了這種技術。例如，在超市中對一個樣本顧客進行了包含八個“是或否”顧客滿意度問題的總體調查。調查中的說明僅允許客戶回答他們想要的那些問題。調查結果列於表：

可以看出，許多客戶沒有回答所有問題，因此很難分析響應模式。解決差異響應率問題的方法是建立一個表，如表（如下）所示的行百分比或行配置檔案。

使用表【客戶滿意度調查結果-百分比】，表中的模式變得清晰；例如，在問題5上，可以看到96％的客戶回答“是”，而在問題1上，只有32％的客戶回答“是”。然後可以繼續以圖形形式表示。

因子分析

有了這樣的調查問卷，傳統的統計分析方法包括頻率分析，t檢驗和集中趨勢測度。但是，旨在增加洞察力數量的另一種替代方法是因子分析。此過程從大量觀察到的變數中提取少量的潛在變數或構造。總體目標是確定變數中的潛在關係，以便做出適當的管理決策。因子分析本身就包含一本書，（美）金在溫，（美）米勒在這方面的著作可能被認為是權威的。【Book：因子分析（豆瓣）（douban。com）】

總體

在進行資料分析時，審計員必須能夠清楚地定義他或她所處理的人群。總體分佈將由審計員將表達意見的所有單個類別或變數值組成，並且該分佈是關於在每個類別中可以觀察到單位的頻率的宣告。通常，審計員將關注三種不同型別的分佈，即總體分佈，樣本分佈和抽樣分佈。

總體分佈：總體分佈包括總體中包含的所有待檢查變數的類或值。

樣本分佈：假設樣本是總體中所有單個單位的子集，則樣本分佈表示變數類別或值在樣本本身中出現的頻率。

抽樣分佈：這是由許多抽樣分佈計算出的統計值組成的。它與樣本分佈的不同之處在於，樣本分佈是指樣本總體中的得分或值，並且可以在重複取樣後得出樣本分佈。

審計師抽取的樣本只是我們可以抽取的無限多個樣本之一。考慮到樣本分佈，審計師可能會期望，儘管我們從樣本中獲得的統計資料可能接近樣本分佈的中心，但他或她可能已經偶然地獲得了包含一個或多個極值的樣本。如果將其評估為抽樣分佈的平均值，即無限多個樣本的平均值，則樣本平均值將非常接近真實的總體平均值。取樣分佈通常用於構造均值的取樣分佈。

如《內部審計的資料分析Ⅱ》所述，可以使用中心值，中值，眾數，標準差和方差等度量來得出集中趨勢和離散度的度量值，以表徵整個總體的分佈。基於這些，可以以設計的方式抽取樣本，以在給定的置信度下充分代表整個總體。

均值的抽樣分佈使審計師可以得出有關抽樣誤差的結論，並深入瞭解機率並促進假設的檢驗。

抽樣誤差

顯然，在處理樣本時，不能保證樣本本身將100％代表總體。總體上的特徵和樣本的特徵可能有所不同，這被稱為抽樣誤差。當採集多個樣本時，得出的取樣分佈也是審計員遇到的取樣誤差量的分佈。

均值和方差的取樣分佈之間的差異說明了兩件事：第一，所有采樣分佈都不相同；第二，所有采樣分佈都不相同。其次，我們必須知道取樣分佈的“形狀”（實際上是數學公式），以便我們可以檢視取樣形狀是否存在偏差並糾正存在的任何偏差。抽樣方差和標準誤差是圍繞抽樣分佈均值的離散度的測量值。在取樣誤差量較小的情況下，取樣統計資料將彼此相似，儘管不相同。從本質上講，它們將類似於總體引數。隨著抽樣誤差的增加，各個樣本統計量與總體之間的差異將隨著抽樣方差的增加而增加，標準誤差也隨之增加。

通常，總體方差越大，取樣誤差將越大。當總體分佈顯示出較小的方差時，大多數總體將聚集在總體均值附近。從該總體中隨機選擇的樣本將傾向於接近總體均值的專案，並且幾乎沒有抽樣誤差。總體更加分散的地方，抽樣誤差將增加。

影響抽樣誤差的主要因素之一是要從總體中抽取的樣本大小。樣本數量越大，取樣誤差就越小，因為樣本數量越大，樣本就越接近實際種群本身。

中心趨勢

如《內部審計的資料分析II》所述，中心趨勢涉及總體“中間”值的推導，通常使用均值，中位數和眾數來計算。

平均值是審計師最常用的集中趨勢度量。平均值是值的算術總和除以總體中專案的總數。它通常被稱為算術平均值。用統計術語來說，這通常稱為μ。因為算術平均值的計算會利用總體中的所有值，所以它可能會受到資料集末端的值的影響。例如，在由10、15、17、28和80組成的總體中，平均值是這些數字的總和除以數字的數量150/5 = 30。

平均值可能是最流行的業務度量標準。它具有唯一性的優點，即只有一個答案。其缺點在於，它可能會受到分佈的高階或低端（異常值）的極端值的影響。

透過將總體從最低到最高排序並取序列中間的值來得出中位數。對於由10、15、17、28和80組成的相同總體，中位數為17。如果總體中偶數個專案，則中間沒有單個點，並且中位數由下式計算：取分佈中的中間兩個點的平均值。

當認為存在可能極大影響均值並扭曲“典型”分佈的極值時，通常使用中位數，因為中位數不受資料集極值的異常值的影響。

與均值一樣，只有一個答案。

模式代表資料集中最頻繁出現的值。根據資料集的性質，可能有多種模式。處理名義資料時，模式也很有用。例如，如果對個人姓名進行了分析，則該模式將代表最受歡迎的姓名。該模式也可以與間隔和比率資料一起使用。

該模式最常用於非數字資料。同樣，它不受異常值的影響。當總體中沒有任何值重複時，該模式等於每個值，並且對於審計目的是無用的。

這些集中趨勢的度量並非唯一的度量指標。諸如幾何平均值，截斷平均值和Windsorized mean之類的度量也可以用作集中趨勢的指標，儘管它們在審計情況下用處不大。

變化

標準符號和計算總體變異性包括以下內容：

在任何資料集的總體中，用於量化變化程度的三種流行度量包括範圍，方差和標準偏差。

範圍取決於最大和最小隨機變數之間的差，因此範圍=最大值-最小值。例如，五個變數（2、6、7、7和8）的範圍為8 – 2 = 6。

透過計算與平均值的均方差確定平均值的方差。在這種情況下，重要的是要區分總體平均值的方差和樣本平均值的方差。

這些是使用略有不同的公式計算得出的。總體均值的方差使用公式：

當審計員使用簡單的隨機樣本時，樣本方差可以假定為真實總體方差的無偏估計。

例如，當總體由四個資料元素（1、3、6和8）組成，而審計員希望確定方差時，第一個目標是確定總體平均值，在這種情況下，將是（2 +4 + 6 + 8）/ 4 =5。一旦總體平均值已知，就可以簡單地將值插入模型中。公式：

如果專案是隨機樣本而不是全部樣本，則將使用相同的公式。

“標準差”是一種度量，它總結了資料集中每個值（總體或樣本）與平均值之間的差異量。它使審計人員可以考慮資料集中的每個變數，確定圍繞平均值將值分組的緊密程度。如果值由於偶然性而偏離均值，則該分佈被歸類為正態分佈。如《內部審計的資料分析Ⅱ》所述，這通常用於確定總體中值的哪個比例在平均值的特定範圍內。

將標準偏差作為方差的平方根。出於審計目的，通常使用總體標準偏差，儘管也可以透過使用不同的公式來確定樣本的標準偏差。為了確定標準偏差總體，審計員將使用以下公式：

曲線形狀

出於審計目的，曲線的形狀表示機率分佈的形狀，可以分類為鐘形或多峰。形狀還受定量因素（例如偏斜度和kurtotis ：峭度K是反映隨機變數分佈特性的數值統計量，是4階累積量。在機械故障診斷時我們就會使用峭度K值）的影響。

鐘形也稱為正態分佈或高斯分佈。曲線中的最高點代表總體或樣本中的平均值。高於和低於平均值的值將建立曲線的向下傾斜邊。

矩形分佈也稱為連續均勻分佈，它表示機率恆定的分佈。

形狀還受諸如偏斜度和峭度之類的定量因素的影響。偏斜度是總體或樣本分佈的不對稱程度的度量。如果分佈如下圖所示向左傾斜，則稱該分佈具有負的傾斜度。如果尾巴在右邊，則認為分佈具有正偏度。通過了解資料集的偏斜方式，稽核員可以更好地估計未來的資料點是大於還是小於平均值。偏斜度不僅限於正態分佈，還可以在各種其他分佈中看到，例如泊松分佈，伯努利分佈等。

峰度通常用於根據分佈的峰值程度來描述圖表趨勢。高峰度通常會描繪一張帶有胖表且分佈均勻且低的圖表，而低峰度則表示圖表中的Platykurti接近均值。正態分佈被視為是中等律分佈。Leptokurtic分佈具有比正常更高的峰度並且通常具有更重的尾部，和一低闊峰分佈具有比正常和更輕的尾部較低的峰值。如下示例。

參考文獻：

Michael Greenacre：Correspondenceanalysis in practice

Jae-On Kim， CharlesW。 Mueller：Factor Analysis： Statistical Methods and Practical Issues（Quantitative Applications in the Social Sciences）

參考文獻資料書籍獲取請聯絡本文作者。

農林漁牧網

「專欄｜Army」內部審計師的資料分析Ⅵ

相關文章