農林漁牧網

您現在的位置是:首頁 > 林業

「專欄|Army」內部審計師的資料分析Ⅵ

2022-08-01由 人生五味 發表于 林業

一個分佈究竟是總體分佈還是樣本分佈

「來源: |審計實踐 ID:one_auditor」

本文從曲線的集中趨勢,變化和形狀的角度研究了資料型別和給定的一組資料(作為標準基準)之間的差異。

資料型別

資料分為不同的類別,例如標稱,有序,間隔和比率。

名義資料是指具有離散性質的資料,例如國家名稱,人名,產品名稱或類似資訊。

序數資料是指具有自然排序順序的資訊,例如比賽中的完成順序或已按照1到10的評分等級(李克特量表)進行評估的專案。儘管序數資料趨向於數字化,並且傾向於將其用於算術目的,但是這是有問題的,因為無法確定地說間隔值是相等的。例如,比賽中獲得第一,第二和第三名的跑步者通常不會等間隔進入。類似地,當使用等級量表時,兩個和三個之間的差異不一定與八個和九之間的差異相同。同樣,如果量表顯示“討厭,不喜歡,既不討厭又不喜歡,不喜歡,愛”,那麼仇恨和不喜歡之間的區別不一定與喜歡和愛之間的區別相同。在嘗試將序數資料用於算術目的時,審計人員尤其必須小心。可以使用稱為對應分析的技術將序數資料轉換為間隔資料。

間隔資料類似於順序資料,不同之處在於每個值之間的間隔相等。$ 5和$ 6之間的差額與$ 120和$ 121之間的差額相同。

比率資料是具有自然零的間隔資料的一種形式。經過的時間是比率資料的一個示例。在比賽中,所有運動員在從零開始的可衡量時間都是終點。再一次,每次之間的間隔將具有相同的幅度。

對應分析

當兩個資料集的元素之間(例如行和列之間)存在某種對應關係的度量時,可使用此技術來分析表格資訊。Greenacre很好地證明了這種技術。例如,在超市中對一個樣本顧客進行了包含八個“是或否”顧客滿意度問題的總體調查。調查中的說明僅允許客戶回答他們想要的那些問題。調查結果列於表:

「專欄|Army」內部審計師的資料分析Ⅵ

可以看出,許多客戶沒有回答所有問題,因此很難分析響應模式。解決差異響應率問題的方法是建立一個表,如表(如下)所示的行百分比或行配置檔案。

「專欄|Army」內部審計師的資料分析Ⅵ

使用表【客戶滿意度調查結果-百分比】,表中的模式變得清晰;例如,在問題5上,可以看到96%的客戶回答“是”,而在問題1上,只有32%的客戶回答“是”。然後可以繼續以圖形形式表示。

「專欄|Army」內部審計師的資料分析Ⅵ

因子分析

有了這樣的調查問卷,傳統的統計分析方法包括頻率分析,t檢驗和集中趨勢測度。但是,旨在增加洞察力數量的另一種替代方法是因子分析。此過程從大量觀察到的變數中提取少量的潛在變數或構造。總體目標是確定變數中的潛在關係,以便做出適當的管理決策。因子分析本身就包含一本書,(美)金在溫,(美)米勒 在這方面的著作可能被認為是權威的。【Book: 因子分析 (豆瓣)(douban。com)】

總體

在進行資料分析時,審計員必須能夠清楚地定義他或她所處理的人群。總體分佈將由審計員將表達意見的所有單個類別或變數值組成,並且該分佈是關於在每個類別中可以觀察到單位的頻率的宣告。通常,審計員將關注三種不同型別的分佈,即總體分佈,樣本分佈和抽樣分佈。

總體分佈:總體分佈包括總體中包含的所有待檢查變數的類或值。

樣本分佈:假設樣本是總體中所有單個單位的子集,則樣本分佈表示變數類別或值在樣本本身中出現的頻率。

抽樣分佈:這是由許多抽樣分佈計算出的統計值組成的。它與樣本分佈的不同之處在於,樣本分佈是指樣本總體中的得分或值,並且可以在重複取樣後得出樣本分佈。

審計師抽取的樣本只是我們可以抽取的無限多個樣本之一。考慮到樣本分佈,審計師可能會期望,儘管我們從樣本中獲得的統計資料可能接近樣本分佈的中心,但他或她可能已經偶然地獲得了包含一個或多個極值的樣本。如果將其評估為抽樣分佈的平均值,即無限多個樣本的平均值,則樣本平均值將非常接近真實的總體平均值。取樣分佈通常用於構造均值的取樣分佈。

如《內部審計的資料分析Ⅱ》所述,可以使用中心值,中值,眾數,標準差和方差等度量來得出集中趨勢和離散度的度量值,以表徵整個總體的分佈。基於這些,可以以設計的方式抽取樣本,以在給定的置信度下充分代表整個總體。

均值的抽樣分佈使審計師可以得出有關抽樣誤差的結論,並深入瞭解機率並促進假設的檢驗。

抽樣誤差

顯然,在處理樣本時,不能保證樣本本身將100%代表總體。總體上的特徵和樣本的特徵可能有所不同,這被稱為抽樣誤差。當採集多個樣本時,得出的取樣分佈也是審計員遇到的取樣誤差量的分佈。

均值和方差的取樣分佈之間的差異說明了兩件事:第一,所有采樣分佈都不相同;第二,所有采樣分佈都不相同。其次,我們必須知道取樣分佈的“形狀”(實際上是數學公式),以便我們可以檢視取樣形狀是否存在偏差並糾正存在的任何偏差。抽樣方差和標準誤差是圍繞抽樣分佈均值的離散度的測量值。在取樣誤差量較小的情況下,取樣統計資料將彼此相似,儘管不相同。從本質上講,它們將類似於總體引數。隨著抽樣誤差的增加,各個樣本統計量與總體之間的差異將隨著抽樣方差的增加而增加,標準誤差也隨之增加。

通常,總體方差越大,取樣誤差將越大。當總體分佈顯示出較小的方差時,大多數總體將聚集在總體均值附近。從該總體中隨機選擇的樣本將傾向於接近總體均值的專案,並且幾乎沒有抽樣誤差。總體更加分散的地方,抽樣誤差將增加。

影響抽樣誤差的主要因素之一是要從總體中抽取的樣本大小。樣本數量越大,取樣誤差就越小,因為樣本數量越大,樣本就越接近實際種群本身。

中心趨勢

如《內部審計的資料分析II》所述,中心趨勢涉及總體“中間”值的推導,通常使用均值,中位數和眾數來計算。

平均值是審計師最常用的集中趨勢度量。平均值是值的算術總和除以總體中專案的總數。它通常被稱為算術平均值。用統計術語來說,這通常稱為μ。因為算術平均值的計算會利用總體中的所有值,所以它可能會受到資料集末端的值的影響。例如,在由10、15、17、28和80組成的總體中,平均值是這些數字的總和除以數字的數量150/5 = 30。

平均值可能是最流行的業務度量標準。它具有唯一性的優點,即只有一個答案。其缺點在於,它可能會受到分佈的高階或低端(異常值)的極端值的影響。

透過將總體從最低到最高排序並取序列中間的值來得出中位數。對於由10、15、17、28和80組成的相同總體,中位數為17。如果總體中偶數個專案,則中間沒有單個點,並且中位數由下式計算:取分佈中的中間兩個點的平均值。

當認為存在可能極大影響均值並扭曲“典型”分佈的極值時,通常使用中位數,因為中位數不受資料集極值的異常值的影響。

與均值一樣,只有一個答案。

模式代表資料集中最頻繁出現的值。根據資料集的性質,可能有多種模式。處理名義資料時,模式也很有用。例如,如果對個人姓名進行了分析,則該模式將代表最受歡迎的姓名。該模式也可以與間隔和比率資料一起使用。

該模式最常用於非數字資料。同樣,它不受異常值的影響。當總體中沒有任何值重複時,該模式等於每個值,並且對於審計目的是無用的。

這些集中趨勢的度量並非唯一的度量指標。諸如幾何平均值,截斷平均值和Windsorized mean之類的度量也可以用作集中趨勢的指標,儘管它們在審計情況下用處不大。

變化

標準符號和計算總體變異性包括以下內容:

「專欄|Army」內部審計師的資料分析Ⅵ

在任何資料集的總體中,用於量化變化程度的三種流行度量包括範圍,方差和標準偏差。

範圍取決於最大和最小隨機變數之間的差,因此範圍=最大值-最小值。例如,五個變數(2、6、7、7和8)的範圍為8 – 2 = 6。

透過計算與平均值的均方差確定平均值的方差。在這種情況下,重要的是要區分總體平均值的方差和樣本平均值的方差。

這些是使用略有不同的公式計算得出的。總體均值的方差使用公式:

「專欄|Army」內部審計師的資料分析Ⅵ

當審計員使用簡單的隨機樣本時,樣本方差可以假定為真實總體方差的無偏估計。

例如,當總體由四個資料元素(1、3、6和8)組成,而審計員希望確定方差時,第一個目標是確定總體平均值,在這種情況下,將是(2 +4 + 6 + 8)/ 4 =5。一旦總體平均值已知,就可以簡單地將值插入模型中。公式:

「專欄|Army」內部審計師的資料分析Ⅵ

如果專案是隨機樣本而不是全部樣本,則將使用相同的公式。

“標準差”是一種度量,它總結了資料集中每個值(總體或樣本)與平均值之間的差異量。它使審計人員可以考慮資料集中的每個變數,確定圍繞平均值將值分組的緊密程度。如果值由於偶然性而偏離均值,則該分佈被歸類為正態分佈。如《內部審計的資料分析Ⅱ》所述,這通常用於確定總體中值的哪個比例在平均值的特定範圍內。

將標準偏差作為方差的平方根。出於審計目的,通常使用總體標準偏差,儘管也可以透過使用不同的公式來確定樣本的標準偏差。為了確定標準偏差總體,審計員將使用以下公式:

「專欄|Army」內部審計師的資料分析Ⅵ

曲線形狀

出於審計目的,曲線的形狀表示機率分佈的形狀,可以分類為鐘形或多峰。形狀還受定量因素(例如偏斜度和kurtotis :峭度K是反映隨機變數分佈特性的數值統計量,是4階累積量。在機械故障診斷時我們就會使用峭度K值)的影響。

鐘形也稱為正態分佈或高斯分佈。曲線中的最高點代表總體或樣本中的平均值。高於和低於平均值的值將建立曲線的向下傾斜邊。

矩形分佈也稱為連續均勻分佈,它表示機率恆定的分佈。

形狀還受諸如偏斜度和峭度之類的定量因素的影響。偏斜度是總體或樣本分佈的不對稱程度的度量。如果分佈如下圖所示向左傾斜,則稱該分佈具有負的傾斜度。如果尾巴在右邊,則認為分佈具有正偏度。通過了解資料集的偏斜方式,稽核員可以更好地估計未來的資料點是大於還是小於平均值。偏斜度不僅限於正態分佈,還可以在各種其他分佈中看到,例如泊松分佈,伯努利分佈等。

「專欄|Army」內部審計師的資料分析Ⅵ

峰度通常用於根據分佈的峰值程度來描述圖表趨勢。高峰度通常會描繪一張帶有胖表且分佈均勻且低的圖表,而低峰度則表示圖表中的Platykurti接近均值。正態分佈被視為是中等律分佈。Leptokurtic分佈具有比正常更高的峰度並且通常具有更重的尾部,和一低闊峰分佈具有比正常和更輕的尾部較低的峰值。如下示例。

「專欄|Army」內部審計師的資料分析Ⅵ

參考文獻:

Michael Greenacre:Correspondenceanalysis in practice

Jae-On Kim, CharlesW。 Mueller:Factor Analysis: Statistical Methods and Practical Issues(Quantitative Applications in the Social Sciences)

參考文獻資料書籍獲取請聯絡本文作者。