為什麼交叉熵可以用於損失計算?
2022-01-26由 sharkey 發表于 漁業
信源熵怎麼計算
資訊熵、交叉熵和相對熵
詞源 — 最初來源於熱力學
Entropy來源於希臘語,原意:內向,即:一個系統不受外部干擾時往內部穩定狀態發展的特性。定義的其實是一個熱力學的系統變化的趨勢。
1923年,德國科學家普朗克來中國講學用到
entropy
這個詞,胡剛復教授看到這個公式,創造了“熵”字,因為“火”和熱量有關,定義式又是熱量比溫度,相當自洽。
資訊理論
資訊理論中,熵是接受的每條訊息中
包含的資訊的平均值
。又被稱為資訊熵、信源熵、平均自資訊量。可以被理解為
不確定性的度量
,熵越大,信源的分佈越隨機。
1948年,由克勞德·愛爾伍德·夏農將熱力學中的熵引入資訊理論,所以也叫做:夏農熵。
生態學
在生態學中,熵表示
生物多樣性的指標
。
廣義的定義
熵是描述一個系統的
無序程度
的變數;同樣的表述還有,熵是系統混亂度的度量,一切自發的不可逆過程都是從
有序
到
無序
的變化過程,向熵增的方向進行。
資訊熵、交叉熵、相對熵的定義
資訊熵是資訊量的期望(均值),它不是針對每條資訊,而是針對整個不確定性結果集而言,資訊熵越大,事件不確定性就越大。單條資訊只能從某種程度上影響結果集機率的分佈
。
根據
真實分佈
,我們能夠找到一個最優策略,以
最小的代價消除系統的不確定性(
比如編碼),而
這個代價的大小就是資訊熵
。
交叉熵,用來衡量在給定的真實分佈下,使用非真實分佈指定的策略消除系統的不確定性所需要付出努力的大小
。
相對熵,即 散度,是用來衡量兩個機率分佈之間的差異。
資訊理論的角度
散度可以用於計算代價,在特定情況下,
最小化 散度等價於最小化交叉熵
,而交叉熵形式更簡單,被廣泛用於代價計算。
最小化模型輸出的機率分佈和訓練資料上的分佈,等價於最小化這兩個分佈的 散度
。
極大似然估計的角度
隨機變數 ,真實分佈為 ,進行 次獨立同分布實驗,統計每個結果出現的次數 ,似然函式可以寫成
取對數,用頻率替換掉次數 ,目標函式極大換成極小,就得到了熟悉的
交叉熵
。
採用拉格朗日乘子可以求解帶約束問題
結合歸一化條件,可以得到
用交叉熵求解帶約束問題的極小值,等價於使得模型分佈接近訓練資料的分佈
。