資料分析常用的知識點概括

總體標準差怎麼算

眾所周知，統計學是資料分析的基石。學了統計學，你會發現很多時候的分析並不那麼準確，比如很多人都喜歡用平均數去分析一個事物的結果，但是這往往是粗糙的。而統計學可以幫助我們以更科學的角度看待資料，逐步接近這個資料背後的“真相”。大部分的資料分析，都會用到統計方面的以下知識，可以重點學習：

閱讀路線：

機率介紹

離散型機率分佈和連續型機率分佈

抽樣和抽樣分佈

區間估計

假設檢驗

01 機率介紹

機率是指的對於某一個特定事件的可能性的數值度量，且在0-1之間。我們拋一枚硬幣，它有正面朝上和反面朝上兩種結果，通常用樣本空間S表示，S={正面，反面}，而正面朝上這一特定的試驗結果叫樣本點。對於樣本空間少的試驗，我們極易觀察出他們樣本空間的大小，而對於較複雜的試驗，我們就需要學習些計數法則了。

計數法則

多步驟試驗的計數法則

如果一個試驗可以分為循序的k個步驟，在第1步中有N1種試驗結果，在第2步中有N2種試驗結果。。。以此類推。那麼所有的試驗結果的總數為N1*N2*N3。。。*Nk。

舉例：拋兩枚硬幣，第一枚有正反兩種結果，第二枚有正反兩種結果。所以試驗結果的總數是 2X2=4

組合計數法則

從N項中任取n項的組合數

N和n的上下位置與我們平常見的是相反的。因為我們這裡是以歐美規範為主。

舉例子：從5個彩色球中，選出2個綵球，有多少種選法？

排列計數法則

從N項中任取n項的排列數

舉例子：從5個彩色球中，選出2個綵球，有多少種排列方法？

代入得出答案是20種

事件及其機率

事件

其實事件為樣本空間的一個子集，通常，如果能確定一個試驗的所有樣本點並且能夠知曉每個樣本點的機率，那麼我們就能求出事件的機率。

機率的基本性質

事件A的補：指的是所有不包含在事件A中的樣本點所以事件A發生的

機率 P（A）=1-P（A-）

事件的組合：並和交

兩個圓形區域所在的部分就是事件A和B的並，其中重疊的部分說明有一些樣本點即屬於A又屬於B，它可以稱之為交。

得出加法公式為：

P（A∪B） = P（A）+P（B） – P（A∩B）。P（A∪B）是兩個圓形面積，P（A）是藍色圓面積，P（B）是橙色圓面積，當兩者相加時，會多出一塊重疊區域，於是減去P（A∩B）進行修正，得出正確的結果。

如果某個事件A發生的可能性受到另外一個事件B的影響，此時A發生的可能性叫做條件機率，記作P（A|B）。表明我們是在B條件已經發生的條件下考慮A發生的可能性，統計學中稱為給定條件B下事件A的機率。

進而又得出了乘法公式：

貝葉斯定理

簡單的來講，貝葉斯定理其實就是，我們先假設一個事件發生的機率，然後又找到一個資訊，最後得出在這個資訊下這一事件發生的機率。

舉一個我們生活中的例子，當我們和一個被懷疑做壞事的人聊天時，我們首先假設他做壞事的機率為a，然後我們根據和他交談的資訊，得出對他新的認識，重新判斷他做壞事的機率b。

貝葉斯就是闡述了這麼一個事實：

新資訊出現後B的機率=B的機率 X 新資訊帶來的調整

如果當直接計算P（A）較為困難時，而P（Bj），P（A|Bj）（j=1，2，。。。）的計算較為簡單時，可以利用全機率公式計算P（A）。

思想就是，將事件A分解成幾個小事件，透過求小事件的機率，然後相加從而求得事件A的機率，而將事件A進行分割的時候，不是直接對A進行分割，而是先找到樣本空間Ω的一個個劃分B1，B2，。。。Bn，這樣事件A就被事件AB1，AB2，。。。ABn分解成了n部分，即A=AB1+AB2+。。。+ABn，每一Bj發生都可能導致A發生相應的機率是P（A|Bj），由加法公式得

P（A）=P（AB1）+P（AB2）+。。。。+P（ABn） =P（A|B1）P（B1）+P（A|B2）P（B2）+。。。+P（A|Bn）P（PBn）

所以調整後的貝葉斯公式為：

02 離散型機率分佈和連續型機率分佈

機率中通常將試驗的結果稱為隨機變數。隨機變數將每一個可能出現的試驗結果賦予了一個數值，包含離散型隨機變數和連續型隨機變數。

既然隨機變數可以取不同的值，統計學家就用機率分佈描述隨機變數取不同值的機率。相對應的，有離散型機率分佈和連續型機率分佈。

數學期望和方差

數學期望是對隨機變數中心位置的一種度量。是試驗中每次可能結果乘以其結果的機率的總和。簡單說，它是機率中的平均值。

方差隨機變數的變異性或者是分散程度的度量。

其中的u就是E（x）。

離散型機率分佈

二項機率分佈

二項分佈是一種離散型的機率分佈。故明思義，二項代表它有兩種可能的結果，把一種稱為成功，另外一種稱為失敗。

除了結果的規定，它還需要滿足其他性質：每次試驗成功的機率均是相同的，記錄為p；失敗的機率也相同，為1-p。每次試驗必須相互獨立，該試驗也叫做伯努利試驗，重複n次即二項機率。擲硬幣就是一個典型的二項分佈。當我們要計算拋硬幣n次，恰巧有x次正面朝上的機率，可以使用二項分佈的公式：

且二項機率的數學期望為E（x） = np，方差Var（x） = np（1-p）。

泊松機率分佈

泊松機率是另外一個常用的離散型隨機變數，它主要用於估計某事件在特定時間或空間中發生的次數。比如一天內中獎的個數，一個月內某機器損壞的次數等。

泊松機率的成立條件是在任意兩個長度相等的區間中，時間發生的機率是相同的，並且事件是否發生都是相互獨立的。

泊松機率既然表示事件在一個區間發生的次數，這裡的次數就不會有上限，x取值可以無限大，只是可能性無限接近0，f（x）的最終值很小。

x代表發生x次，u代表發生次數的數學期望，機率函式為：

其中泊松機率分佈的數學期望和方差是相等的。

連續型機率分佈

上述分佈都是離散機率分佈，當隨機變數是連續型時，情況就完全不一樣了。因為離散機率的本質是求x取某個特定值的機率，而連續隨機變數不行，它的取值是可以無限分割的，它取某個值時機率近似於0。連續變數是隨機變數在某個區間內取值的機率，此時的機率函式叫做機率密度函式。

均勻機率分佈

隨機變數x在任意兩個子區間的機率是相同的。

均勻機率密度函式

數學期望

方差

正態機率分佈

正態機率分佈是連續型隨機變數中最重要的分佈。世界上絕大部分的分佈都屬於正態分佈，人的身高體重、考試成績、降雨量等都近似服從。

正態分佈如同一條鐘形曲線。中間高，兩邊低，左右對稱。想象身高體重、考試成績，是否都呈現這一類分佈態勢：大部分資料集中在某處，小部分往兩端傾斜。

正態機率密度函式為：

u代表均值，σ代表標準差，兩者不同的取值將會造成不同形狀的正態分佈。均值表示正態分佈的左右偏移，標準差決定曲線的寬度和平坦，標準差越大麴線越平坦。

一個正態分佈的經驗法則：

正態隨機變數有69。3%的值在均值加減一個標準差的範圍內，95。4%的值在兩個標準差內，99。7%的值在三個標準差內。

均值u=0，標準差σ=1的正態分佈叫做標準正態分佈。它的隨機變數用z表示，將均值和標準差代入正態機率密度函式，得到一個簡化的公式：

為了計算機率需要學習一個新的函式叫累計分佈函式，它是機率密度函式的積分。用P（X<=x）表示隨機變數小於或者等於某個數值的機率，F（x） = P（X<=x）。

曲線f（x）就是機率密度函式，曲線與X軸相交的陰影面積就是累計分佈函式。

標準正態分佈的分佈函式

影象如下：

計算三種類型的機率（這裡需要說明一點，只有標準正態分佈時，隨機變數才用z表示）

1。 z小於或者等於某個給定值的機率，直接帶入分佈函式得出

如：p（z<=1）=φ（1）=0。8413 （1值左邊標準正態曲線下的面積）

2。 z在給定的兩個值之間的機率

如：P（-1<=z<=1。25） = P（z<=1。25） – P（z<=-1） =φ（1。25）-φ（1） =0。735

3。 z大於或者等於某個給定值的機率

如：P（z>1） = 1-P（z<=1） =1-φ（1）= 0。1586

標準正態分佈與一般的正態分佈的關係：

任何一個一般的正態分佈都可以透過線性變換轉化為標準正態分佈。它依據的定理如下：

下面做一道題目練習吧！

現在有一個u=10和σ=2的正態隨機變數，求x在10與14之間的機率是多少？

當x=10時，z=（10-10）/2=2。當x=14時，z=（14-10）/2=2。於是x在10和14之間的機率等價於標準正態分佈中0和2之間的機率。計算P（0<=z<=2） =P（z<=2） – P（z<=0） =0。4772。

指數機率分佈

指數機率密度函式

其中，x>=0，u為均值，e=2。71828；

計算機率

指數隨機變數取小於或者等於某一特定值X0的機率

且指數機率分佈的期望=標準差

指數分佈vs泊松分佈

泊松分佈：1。是離散型機率分佈 2。描述每一區間中事件發生的次數

指數分佈：1。是連續型機率分佈 2。描述事件發生的時間間隔的長度

為了說明問題，簡單舉兩個小例子

ａ．20分鐘內購買肯德基早餐的人數的均值是10人，那麼如果求每20分鐘有x人購買的機率，就應該用泊松機率函式

ｂ．２0分鐘內購買肯德基早餐的人數的均值是10人，那麼如果求每20分鐘這一區間內，兩位顧客購買的時間間隔為小於x0的機率，就應該用指數機率函式。

購買的間隔均值為u=10/20=0。5

把u帶入下面的公式

03 抽樣和抽樣分佈

首先不管是從有限總體中抽樣還是從無限總體中抽樣都應該滿足抽樣的隨機性。

抽樣

我們抽樣得出樣本統計量就是為了估計總體的引數

樣本均值（x拔）是總體均值的u的點估計

樣本標準差s是總體的標準差σ的點估計

樣本比率（p拔）是總體比率的p的點估計

抽樣分佈

其實當我們抽樣的時候，我們抽取的每個樣本的均值、方差、比率，可能都是不同的，如果我們把抽取一個簡單的隨機樣本看作一次試驗，那麼（x拔）就有期望、方差、標準差和機率分佈了（（x拔）的機率分佈也就是（x拔）的抽樣分佈）

樣本均值的抽樣分佈

（x拔）的抽樣：樣本均值（x拔）的所有可能值的機率分佈

（x拔）的數學期望：

其中u是總體的期望

（x拔）的標準差

當樣本容量佔總體5%以上時，有求樣本標準差公式如下：

當樣本容量佔總體5%以下時，公式可以簡化成：

其中n是樣本容量，N是總體容量，σ是總體標準差，σ（x拔）是樣本標準差

重點來了：

1。如果總體服從正態分佈時：任何樣本容量下的（x拔）的抽樣分佈都是正態分佈。

2。總體不服從正態分佈時：

a。中心極限定理：從總體中抽取容量為n的簡單隨機樣本，當樣本的容量額很大時，樣本均值（x拔）的抽樣分佈近似服從正態機率分佈。

b。其實在大多數的應用中，樣本容量大於30時，（x拔）的抽樣分佈近似服從正態機率分佈

樣本比率的抽樣分佈

（p拔）的抽樣：樣本比率（p拔）的所有可能值的機率分佈

其中：x=具有感興趣特徵的個體的個數，n=樣本容量

（p拔）的數學期望：

其中，p=總體比率

（p拔）的標準差：

當樣本容量佔總體5%以上時，有求樣本標準差公式如下：

當樣本容量佔總體5%以下時，公式可以簡化成：

其中n是樣本容量，N是總體容量，p是總體比率，σ（p拔）是樣本標準差

（p拔）的抽樣分佈形態：

在上面的公式之中，x是一個服從二項分佈的隨機變數，n為常數，所以（p拔）也是離散型的機率分佈。其實，如果樣本容量足夠大，並且np>=5和n（1-p）>=5，二項分佈可用正態分佈近似，（p拔）的抽樣分佈可用正態分佈來近似。

04 區間估計

點估計是用於估計總體引數的樣本統計量，但是我們不可能透過點估計就給出總體引數的一個精確值，更穩妥的方法是加減一個邊際誤差，透過一個區間值來估計（區間估計）

總體均值的區間的估計

總體均值的區間的估計：σ已知情形

對總體均值進行估計時：

1。要利用總體標準差σ計算邊際誤差

2。抽樣前可透過大量歷史資料估計總體標準差。

下面做一道例題感受下吧

這是一道有關顧客購物消費額的問題，根據歷史資料，σ=20美元，並且總體服正態分佈。現在抽取n=100名顧客的簡單隨機樣本，其樣本均值（x拔）=82美元。求總體均值的區間估計

開始解答了：

1。總體服從正態分佈，所以樣本均值的抽樣分佈也是正態分佈。

2。根據σ=20美元，得出

3。所以x拔的抽樣分佈服從標準差為σ（x拔）=2的正態分佈

4。任何正態分佈的隨機變數都有95%的值在均值附近加減1。96個標準差以內（透過查表可得）

5。 σ（x拔）=2，（x拔）所有值的95%都落在【u加減1。96σ（x拔）也即是u加減3。92】

也即是：

（x拔）=82美元

所以u的區間估計是（78。08，85。92）

其中這個區間是在95%置信水平下建立的，置信係數為0。05。區間（78。08，85。92）為95%的置信區間。

根據公式來計算區間，邊際誤差、區間估計如下圖所示：

所以：

在90%，95%，99%的置信水平情況下：

所以90%，99%的置信水平下的置信區間為：

其實我們也能得出這樣的結論：想要達到的置信水平越高，邊際誤差就要越大，置信區間也是越寬。

總體均值的區間估計：σ未知情形

1。當σ未知時，我們需要利用同一個樣本估計u和σ兩個引數

2。用s估計σ時，邊際誤差和總體均值的區間估計依據t分佈

並且總體是不是正態分佈用t分佈來估計效果都是挺好的。

t分佈

有一類相似的機率分佈組成的分佈族；某個特定的t分佈依賴於自由度的引數；自由度越大，t分佈與標準正態分佈的差別越小；t分佈的均值為0；

其中與z分佈有類似的情況的是：

例如：

利用的計算公式如下：

邊際誤差：

區間估計

樣本標準差

自由度：n-1

注：

樣本容量的確定

我們可以選擇足夠的樣本容量以達到所希望的邊際誤差

由於邊際誤差公式為：

所以總體均值區間估計中的樣本容量為：

注：

如果σ未知，可透過以下方法確定σ的初始值

1。根據以前研究中的資料計算總體標準差的估計值

2。利用實驗性研究，選取一個初始樣本，以初始樣本的標準差做估計值

3。對σ進行判斷或最優猜測：計算極差/4為標準差的粗略估計

總體比率p的區間估計

由於和總體均值的區間估計類似，這裡就不詳細說明了，直接上公式：

邊際誤差：

區間估計：

樣本容量的確定

我們可以選擇足夠的樣本容量以達到所希望的邊際誤差

邊際誤差：

所以樣本容量為：

由於抽樣前（p拔）是未知的，不能用於計算達到預期的邊際誤差所要的樣本容量，因此令（p星）表示（p拔）的計劃值

p星的確定

1。用以前研究中類似的樣本的樣本比率作為計劃值

2。利用實驗性的研究，選取一個初始樣本，以初始樣本的樣本比例作為計劃值。

3。使用判斷或最優猜測作為計劃值

4。如果上述均不可，計劃值取為0。5，這是因為p（星）=0。5時，p星*（1-p星）取得最大值，同時樣本容量也能取的最大值。

05 假設檢驗

何為假設檢驗？假設檢驗是對總體引數做一個嘗試性的假設，該嘗試性的假設稱為原假設，然後定義一個和原假設完全對立的假設叫做備選假設。其中備選假設是我們希望成立的論斷，原假設是我們不希望成立的論斷。

假設檢驗涉及討論的內容有：

1。總體均值的檢驗：σ已知和σ未知情形

2。總體比率的假設檢驗：σ已知和σ未知道

但是下面主要討論在σ已知情形下，總體均值的檢驗，其他的根據區間估計中的證明和下面的例題都能很方便的理解出來。

總體均值的檢驗：

σ已知情形

準備一道例題，透過例子說明思路

質檢機構檢查某品牌咖啡的標籤上顯示裝有3磅咖啡，現在質檢機構需要確定每罐咖啡的質量至少有三磅，以保證消費者權益。已知道σ=0。18，現在取得n=36罐咖啡組成一個隨機樣本，計算出（x拔）=2。92

開始解答了：

1。首先我們明白想要的結果是證明u<3，所以就提出了原假設和備選假設如下：H0：u>=3；Ha：u<3

2。其中我們在檢驗的過程允許以1%的可能性犯錯誤也即是 α=0。01

3。由於樣本n=36，σ=0。18，所本均值的抽樣分佈是服從正態機率分佈

4。所以當（x拔）=2。92時，z=-2。67

5。因為原假設u是大於等於3的，所以我們就觀察z小於或等於-2。69的值，讓p值等於檢驗統計值z小於或等於-2。69的機率；利用標準正態機率表，z=-2。69時，p值=0。0038

其中我們可以這樣理解z小於或者等於-2。69的機率p=0。0038這一事件的發生機率是非常的小，又加上允許犯錯的機率是0。01（也即是發生的機率是0。01結果是非常小的，我直接忽略了）。

所以我們直接認為z小於或者等於-2。69這一事件太小以至於我們認為他是不發生的。所以我們拒絕了H0：u>=3這一假設。所以，在0。01的顯著水平下有足夠的統計證據拒絕H0

薦：

【中國風動漫】除了《哪吒》，這些良心國產動畫也應該被更多人知道！

宣告

農林漁牧網

資料分析常用的知識點概括

相關文章