入行資料分析要知道什麼是統計量&抽樣分佈

樣本方差服從什麼分佈

統計資料的抽樣分佈是一種機率分佈，是透過從同一總體中抽取許多給定大小的隨機樣本而建立的。這些分佈可以瞭解樣本統計量如何因樣本而異。

抽樣分佈對於推理統計至關重要，因為它們允許在其他可能值的更廣泛背景下理解特定樣本統計。至關重要的是可以計算與樣本相關的機率。

抽樣分佈描述了各種樣本統計的值的分類。

雖然均值的抽樣分佈是最常見的型別，但它們可以表徵其他統計量，例如假設檢驗中的中位數、標準差、範圍、相關性和檢驗統計量。

本文可以瞭解到：

統計量以及排序。

代表性的機率密度函式包括正態分佈、標準正態分佈、卡方分佈、t分佈、F分佈。

機率密度函式的圖形和橫軸組成的面積始終為1。

機率密度函式的圖形和橫軸組成的面積可以認為與比例及機率相同。

統計量

樣本均值、樣本比例、樣本方差等都是統計量。統計量是樣本的一個函式、是統計推斷的基礎。

次序統計量

中位數、分位數、四分位數等都是次序統計量。

比例

總體（或樣本）中具有某種屬性的單位與全部單位總數之比。

機率密度函式

以《三國志 11》武將武力資料距離，總體樣本為 811 人。分別以步長10、5、3、1步長舉例進行直方圖的計算。這麼一個過程稱為機率密度函式。

步長10

步長5

步長3

步長1

抽樣分佈

樣本統計量的機率分佈，是一種理論分佈。在重複選取容量為n的樣本時，由該統計量的所有可能取值形成的相對頻數分佈。

隨機變數是樣本統計量，樣本均值，樣本比例，樣本方差等。

結果來自容量相同的所有可能樣本。

提供了樣本統計量長遠而穩定的資訊，是進行推斷的理論基礎，也是抽樣推斷科學性的重要依據。

樣本均值之差的抽樣分佈

兩個總體都為正態分佈

兩個樣本均值之差的抽樣分佈服從正態分佈，其分佈的數學期望為兩個總體均值之差。

方差為各自的方差之和。

正態分佈

exp 或者 e 稱為自然對數的低，約為 2。7182……

主要特徵

正態分佈函式密度曲線在橫軸上方均數處最高。

正態分佈函式密度曲線以均數為中心，左右對稱。

正態分佈函式密度曲線受均值（μ）和標準差（σ）影響。

用Python實現各種型別的正太分佈

# Python實現正態分佈# 繪製正態分佈機率密度函式import mathimport numpy as npimport matplotlib。pyplot as plt# 均值μu = 0 u01 = -2# 標準差δsig = math。sqrt（0。2） sig01 = math。sqrt（1）sig02 = math。sqrt（5）sig_u01 = math。sqrt（0。5）x = np。linspace（u - 3*sig， u + 3*sig， 50）x_01 = np。linspace（u - 6 * sig， u + 6 * sig， 50）x_02 = np。linspace（u - 10 * sig， u + 10 * sig， 50）x_u01 = np。linspace（u - 10 * sig， u + 1 * sig， 50）y_sig = np。exp（-（x - u） ** 2 /（2* sig **2））/（math。sqrt（2*math。pi）*sig）y_sig01 = np。exp（-（x_01 - u） ** 2 /（2* sig01 **2））/（math。sqrt（2*math。pi）*sig01）y_sig02 = np。exp（-（x_02 - u） ** 2 / （2 * sig02 ** 2）） / （math。sqrt（2 * math。pi） * sig02）y_sig_u01 = np。exp（-（x_u01 - u01） ** 2 / （2 * sig_u01 ** 2）） / （math。sqrt（2 * math。pi） * sig_u01）plt。plot（x， y_sig， “r-”， linewidth=2）plt。plot（x_01， y_sig01， “g-”， linewidth=2）plt。plot（x_02， y_sig02， “b-”， linewidth=2）plt。plot（x_u01， y_sig_u01， “m-”， linewidth=2）plt。grid（True）plt。show（）