農林漁牧網

您現在的位置是:首頁 > 農業

入行資料分析要知道什麼是統計量&抽樣分佈

2022-10-02由 Mr資料楊 發表于 農業

樣本方差服從什麼分佈

統計資料的抽樣分佈是一種機率分佈,是透過從同一總體中抽取許多給定大小的隨機樣本而建立的。這些分佈可以瞭解樣本統計量如何因樣本而異。

抽樣分佈對於推理統計至關重要,因為它們允許在其他可能值的更廣泛背景下理解特定樣本統計。至關重要的是可以計算與樣本相關的機率。

抽樣分佈描述了各種樣本統計的值的分類。

雖然均值的抽樣分佈是最常見的型別,但它們可以表徵其他統計量,例如假設檢驗中的中位數、標準差、範圍、相關性和檢驗統計量。

本文可以瞭解到:

統計量以及排序。

代表性的機率密度函式包括正態分佈、標準正態分佈、卡方分佈、t分佈、F分佈。

機率密度函式的圖形和橫軸組成的面積始終為1。

機率密度函式的圖形和橫軸組成的面積可以認為與比例及機率相同。

入行資料分析要知道什麼是統計量&抽樣分佈

統計量

入行資料分析要知道什麼是統計量&抽樣分佈

樣本均值、樣本比例、樣本方差等都是統計量。統計量是樣本的一個函式、是統計推斷的基礎。

次序統計量

入行資料分析要知道什麼是統計量&抽樣分佈

中位數、分位數、四分位數等都是次序統計量。

比例

總體(或樣本)中具有某種屬性的單位與全部單位總數之比。

機率密度函式

以《三國志 11》武將武力資料距離,總體樣本為 811 人。 分別以步長10、5、3、1步長舉例進行直方圖的計算。這麼一個過程稱為機率密度函式。

步長10

入行資料分析要知道什麼是統計量&抽樣分佈

步長5

入行資料分析要知道什麼是統計量&抽樣分佈

步長3

入行資料分析要知道什麼是統計量&抽樣分佈

步長1

入行資料分析要知道什麼是統計量&抽樣分佈

抽樣分佈

樣本統計量的機率分佈,是一種理論分佈。在重複選取容量為n的樣本時,由該統計量的所有可能取值形成的相對頻數分佈。

隨機變數是樣本統計量,樣本均值,樣本比例,樣本方差等。

結果來自容量相同的所有可能樣本。

提供了樣本統計量長遠而穩定的資訊,是進行推斷的理論基礎,也是抽樣推斷科學性的重要依據。

樣本均值之差的抽樣分佈

兩個總體都為正態分佈

入行資料分析要知道什麼是統計量&抽樣分佈

兩個樣本均值之差的抽樣分佈服從正態分佈,其分佈的數學期望為兩個總體均值之差。

入行資料分析要知道什麼是統計量&抽樣分佈

方差為各自的方差之和。

入行資料分析要知道什麼是統計量&抽樣分佈

正態分佈

入行資料分析要知道什麼是統計量&抽樣分佈

exp 或者 e 稱為自然對數的低,約為 2。7182……

主要特徵

正態分佈函式密度曲線在橫軸上方均數處最高。

正態分佈函式密度曲線以均數為中心,左右對稱。

正態分佈函式密度曲線受均值 (μ) 和標準差 (σ) 影響。

用Python實現各種型別的正太分佈

# Python實現正態分佈# 繪製正態分佈機率密度函式import mathimport numpy as npimport matplotlib。pyplot as plt# 均值μu = 0 u01 = -2# 標準差δsig = math。sqrt(0。2) sig01 = math。sqrt(1)sig02 = math。sqrt(5)sig_u01 = math。sqrt(0。5)x = np。linspace(u - 3*sig, u + 3*sig, 50)x_01 = np。linspace(u - 6 * sig, u + 6 * sig, 50)x_02 = np。linspace(u - 10 * sig, u + 10 * sig, 50)x_u01 = np。linspace(u - 10 * sig, u + 1 * sig, 50)y_sig = np。exp(-(x - u) ** 2 /(2* sig **2))/(math。sqrt(2*math。pi)*sig)y_sig01 = np。exp(-(x_01 - u) ** 2 /(2* sig01 **2))/(math。sqrt(2*math。pi)*sig01)y_sig02 = np。exp(-(x_02 - u) ** 2 / (2 * sig02 ** 2)) / (math。sqrt(2 * math。pi) * sig02)y_sig_u01 = np。exp(-(x_u01 - u01) ** 2 / (2 * sig_u01 ** 2)) / (math。sqrt(2 * math。pi) * sig_u01)plt。plot(x, y_sig, “r-”, linewidth=2)plt。plot(x_01, y_sig01, “g-”, linewidth=2)plt。plot(x_02, y_sig02, “b-”, linewidth=2)plt。plot(x_u01, y_sig_u01, “m-”, linewidth=2)plt。grid(True)plt。show()

入行資料分析要知道什麼是統計量&抽樣分佈

因此我們在生成隨機資料進行測試的時候需要輸入兩個內容,均值和標準差即可。確定的隨機變數 X 的分佈稱為正態分佈記為 N(μ,σ2) 。

入行資料分析要知道什麼是統計量&抽樣分佈

標準正態分佈

面對的是數值型變數。

入行資料分析要知道什麼是統計量&抽樣分佈

正態分佈 N(μ,σ2) 函式曲線下的面積

正常範圍:68。27%的面積在平均值左右的一個標準差範圍內

優秀範圍:95。45%的面積在平均值左右兩個標準差2σ的範圍內

異常範圍:99。73%的面積在平均值左右三個標準差3σ的範圍內

超常範圍:99。99%的面積在平均值左右四個標準差4σ的範圍內

例如:Z在數量上表示該新變數為該標準正態分佈下標準差σ=1的倍數,根據正態分佈計算對照表計算,範圍是-3到+3。

推薦一個簡單的視覺化計算工具。標準正態分佈表 計算視覺化

入行資料分析要知道什麼是統計量&抽樣分佈

入行資料分析要知道什麼是統計量&抽樣分佈

入行資料分析要知道什麼是統計量&抽樣分佈

例如:某學科考試平均分是 60,方差是 8

8,記作

~X~N(60,88) ,計算[52,68]這個區間成績的機率是多少?計算 [50,70] 這個區間成績的機率是多少?

實際上求的是 P(μσ

卡方分佈

面對的是分型別變數。根據不同的自由度 (n) 圖形變化也不一樣。

n個獨立同分布的隨機變數,都服從標準正太分佈,它們的平方和作為一個新的隨機變數的分佈,就是卡方分佈。

入行資料分析要知道什麼是統計量&抽樣分佈

自由度類似 y = ax + b 中的 a 的斜率,可以自有的變化從而對圖形產生變化,如果資料集中有 n 個元素,可以有 n - 1 個元素自有原則,稱為自由度。

卡方分佈的特徵:

隨機變數的平方和,分佈的變數值始終為正。

分佈的形狀取決於其自由度 n 的大小,通常為不對稱的正偏分佈,但隨著自由度的增大逐漸趨於對稱。

卡方分佈面積計算: 卡方分佈表

t分佈

我們平常說的t分佈,都是指小樣本的分佈。但其實正態分佈,可以算作t分佈的特例。也就是說 t 分佈,在大小樣本中都是通用的。

F分佈

隨著自由度逐漸增大,t分佈逐漸接近標準正態分佈。

入行資料分析要知道什麼是統計量&抽樣分佈

中心極限定理

從均值為μ,方差為 σ2 的一個任意總體中抽取容量為 n 的樣本,當 n 充分大時,樣本均值的抽樣分佈近似服從均值為 μ、方差為 σ2/n 的正態分佈。

入行資料分析要知道什麼是統計量&抽樣分佈

簡單來說:隨機抽取的樣本的均值等於總體的平均值,不管任何分佈,任意總體樣本均值均圍繞總體平均值,且呈現正態分佈。

入行資料分析要知道什麼是統計量&抽樣分佈