農林漁牧網

您現在的位置是:首頁 > 漁業

坤鵬論:資訊=不確定的減少=確定性的增加=資訊熵的減少=負熵

2022-01-29由 坤鵬論 發表于 漁業

信源熵怎麼計算

要想正確理解夏農的資訊熵,一定要時刻提醒自己,夏農他老人家只關心字數,而不關注資訊內容和質量。

——坤鵬論

坤鵬論:資訊=不確定的減少=確定性的增加=資訊熵的減少=負熵

再次對今天的文章修訂的時候,坤鵬論發現,“資訊不是說了什麼,而是還能說什麼。”這個總結簡直絕妙、經典至極。

將其牢記在心,對於學習資訊、資訊熵是最好的理解輔助。

一、工程師敲定的“information”

20世紀初,資訊隨處可見,除了報刊、圖書、信件之外,電報、電話、廣播、電影也早已走入到了老百姓的生活中。

但是,那時候還沒有一個詞能夠概括所有這些東西。

起初夏農用英文的intelligence來表示資訊。

1939年,在給麻省理工學院導師範內瓦·布什的一封信中他這樣寫道:“時斷時續地,我一直在研究傳遞資訊(intelligence)的一般系統的某些基本屬性。”

intelligence這個詞一般被翻譯成情報,它還有智力、智慧、理解力、才智、天分等含義。

後來,一些工程師,特別是貝爾實驗室的工程師們,已經開始使用information來表達“資訊”,主要應用在一些技術性的概念上。比如:資訊的數量、資訊的測量等。

information源於拉丁文的“形式”一詞——informatio,它派生的動詞又有通知、告知的意思。

後來,夏農也改用這個詞。

如今,information已經被定義為嚴謹的科學術語,並且定義比較繽紛,不統一,這是由於它的極端複雜性造成的。

除了夏農給出的——“資訊,是能夠用來消除不確定性的東西”外,對於information還有以下一些定義,大家可以一一品味,這些都是牛人們經過了再三思考與斟酌,非常有學習價值:

1。凡是在一種情況下能減少不確定性的任何事物都叫資訊。

2。資訊是物質存在的一種方式、形態或運動形態,也是事物的一種普遍屬性,一般指資料、訊息中所包含的意義,可以使訊息中所描述事件中的不定性減少。

3。英國學者阿希貝認為,資訊的本性在於事物本身具有變異度。

4。義大利學者朗高在《資訊理論:新的趨勢與未決問題》中認為:資訊是反映事物的形成、關係和差別的東西,它包含於事物的差異之中,而不在事物本身。

5。北京郵電大學鍾義信教授給出的定義為:資訊是事物運動的狀態及其改變方式。

6。藉此機會,坤鵬論再分享一種古老的對事物的定義方法,它就是亞里士多德所倡導的——屬加種差定義法。

也就是,A是滿足C特質的B。

這裡A是被定義項(被定義的),B是A的屬,即,這個概念是更一般於A的提前被定義的了,或已經知道的,和C並不代表這一概念,但對所有的陳述來說,A是如何不同於B的所有其他種(即所有別的概念的一般性更小於B)。

繞不繞?

這比腦筋急轉彎,還彎彎繞,舉個例子說明一下。

比如:“人是兩條腿的無羽毛動物”:

A=“人”

B=“兩條腿動物”

C=“無羽毛”

它是亞里士多德在他的演講中對學生講的如何進行概念定義的著名例子。

據說,第二天這位學生將一隻剃了羽毛的雞帶到了演講會上。

在亞里士多德著名的邏輯學教本《工具論》,不管什麼版本,最開始都會有“波莫利的《導論》”,其中重點講了屬、種、種差、特性與偶性的本質,是中世紀成為邏輯學的必讀文章。

根據屬加種差定義法,美國哲學家弗雷德·德雷特斯基在《知識與資訊流》一書中給出了他的資訊的定義:“粗略地說,資訊是能夠產生知識的商品,訊息或訊號所攜帶的正是我們需要知道的。”

另外,在熱力學中,資訊是指任何會影響系統的熱力學狀態的事件。

坤鵬論:資訊=不確定的減少=確定性的增加=資訊熵的減少=負熵

二、維納的資訊量公式

在《夏農八年磨一劍,磨出一個撬動地球的支點》坤鵬論提到,歷史中有三個人不約而同地想到了用統計力學的熵公式來度量資訊。

他們是現代統計學奠基人之一、英國統計學家與遺傳學家R。A。費雪、控制論創始人諾伯特·維納、資訊理論創始人夏農。

其中的維納還在麻省理工學院教過夏農,也是一位傳奇式的科學大師。

在其眾多的偉大科學成果中,專門有一條是“開創維納資訊理論”。

維納獨立於夏農,從帶直流電流或者至少可看作直流電流的電路出發來研究資訊理論,將統計方法引入通訊工程,奠定了資訊理論的理論基礎。

而且,維納和夏農提出公式的時間都在1948年,夏農寫在他的論文裡,而維納則寫在其《控制論》的書中。

不過,維納的觀點和夏農稍有不同。

他的公式前面並沒有加負號。

所以,用該公式計算出來的數值為負。

可以說,夏農的資訊熵算出來的是資訊的不確定性。

而維納的公式算出來的是消除不確定性需要的資訊量,可以稱為資訊量公式。

維納認為,資訊代表秩序。

他在《控制論:關於在動物和機器中控制和通訊的科學》中這樣定義資訊:

“我們在適應外部世界,控制外部世界的過程中,同外部世界交換的內容的名稱。”

“資訊,與其說是旨在儲藏,不如說旨在流通。”

還記得坤鵬論之前講過薛定諤的《生命靠負熵生存》吧?

秩序=有序的能量=可用的能量=負熵

也就是說,秩序可以減少系統的熵。

坤鵬論突然想到,如果不叫負熵,而叫減熵,這樣會讓其既易懂,又準確。

可以說,這個觀點根本不需要懂什麼數學公式,就能理解,而且非常非常有道理。

其實但凡背後有著高大上的科學理論,但又深入淺出,並暗合人生哲理的資訊,都特別容易流行並被大眾傳唱。

維納還說,

“有序的事物並不一定含有很多資訊。”

什麼意思?

坤鵬論理解下來認為,因為事物的確定性(有序性)與資訊量無關,只與機率相關,資訊量是被機率決定的。

機率越高,有序性越高(確定性越高)(不確定性越低),需要輸入的資訊量卻越少;

機率越低,有序性越低(確定性越低)(不確定性越高),需要輸入的資訊量卻越多。

還是那個例子,太陽從東方升起,這條資訊的機率是1,極端有序,你對此根本不需要再輸入資訊。

由此可以看出,維納與坤鵬論在《人類就是麥克斯韋妖》講到的,同在貝爾實驗室工作的法國物理學家布里淵,觀點一致。

布里淵將資訊理論和統計力學聯絡起來考慮,參考了齊拉特提供的線索,在1956年出版的《科學與資訊理論》這本專著中,更加全面地論述了資訊與熵的關係。

他認為,資訊應該被視為系統熵的負項,即資訊的作用是減熵,也就是使系統的混亂程度減小。

而且他還進一步指出,資訊是負熵,可以降低系統的熵。

資訊代表著秩序,代表著外部輸入的有序能量,增強了系統的有序度,也就降低了系統的無序度,使系統熵減。

相對來說,不管是公式表達,還是維納的定義表述,都更容易讓人理解。

對照他的公式,我們能夠很清晰地明白,為什麼資訊熵是對資訊不確定性的測量。

比如,我們要搞清楚一件非常非常不確定的事,或是我們一無所知的事情,就需要了解大量的資訊。

相反,如果我們對某件事已經有了較多瞭解,不需要太多資訊就能將其搞清楚。

所以,從這個角度,我們可以認為,資訊量的度量就等於計算出不確定性的多少,也就是傳輸多少資訊才能讓我們消除對一件事的不確定性,搞清楚它。

夏農也曾向維納提起過其中的差異,並認為無關緊要,不過是“數學上的文字遊戲”,而且他們算出來的數值結果是相同的。

同時,他還曾說過這樣一段話來表述其中的區別:

“我考慮的是,從一個集合中作出選擇時會有多少資訊產生——這樣一來,集合越大,產生的資訊越多。而你考慮的是,集合越大,不確定性越高時,對於該情況的知識就越少,因而資訊也就越少。”

這段話,坤鵬論品了好多遍才算懵懵懂懂。

所以看不明白,不要緊,慢慢品。

提幾個思考要點:

第一,資訊理論中的“資訊”不是指已經說了什麼,而是還能夠說什麼。

第二,資訊的作用到底是什麼?

歸根結底主要還是為了幫助人們作出選擇,而在作出選擇時,他們認為事物已經是確定性的了。

第三,集合的意思相當於數學和物理學的相空間。

相空間是一個用來表示出一個系統所有可能狀態的空間;系統每個可能的狀態都有一相對應的相空間的點。

到資訊理論這裡,就叫集合,也就是某個事物所有資訊的集合,一條確定性的資訊會減少這個集合的熵。

人在做出選擇前,往往會盡可能蒐集關於選擇事物的所有資訊,從來沒有聽一面之詞就決定的時候。

有人說,不會呀!

為什麼有人特別相信某個人的話,只要某個人一說,就言聽計從呢?

請注意,相信一個人和相信一個人的話,這就最少是兩個資訊的組合吧。

特別是相信一個人那更是經過了相當複雜的集合才做出的選擇。

如果你還是有疑問,就想想任何一個生活中要做選擇的事情吧,比如:購物、比如:買股票、比如:旅遊……

沒有一個不是資訊集合的選擇。

不得不承認,從熵這個字開始,從熱力學到資訊理論對熵的眾說紛紜,再加上夏農和維納的不同解讀,以及後來人們的眾說紛紜,都引起了持續到現在的混亂。

而夏農曾有過這樣一句話:“光榮應歸於維納教授”。

坤鵬論:資訊=不確定的減少=確定性的增加=資訊熵的減少=負熵

三、資訊不是熵!

夏農說過,資訊是熵。

實話講,這話挺害人。

就算我們按照熱力學中熵的錯誤理解——熵=混亂,也不能想明白“資訊是熵”是個什麼道理?

在《錯了!資訊熵≠資訊量 輕鬆讀懂什麼是資訊熵》中,我們已經知道了,資訊理論裡面的熵,指的是不確定性的程度。

如果說“資訊是熵”,那麼到底是:

資訊=不確定程度?

還是

資訊=不確定性?

顯然都不對吧?!

不管是夏農,還是維納,他們都認同——資訊的作用是,消減訊息中的不確定性程度(熵)。

所以,維納所說的“資訊是負熵”,其實才更為合理。

或者夏農自己給出的定義:“資訊,是能夠用來消除不確定性的東西。”

亦或者,直接用坤鵬論的“資訊是減熵”,也就是減少熵,減少訊息中的熵,減少事件的不確定性。

於是,我們可以得出:

資訊=不確定的減少=確定性的增加=資訊熵的減少=負熵=減熵

這樣的公式能夠讓絕大多數人很快明白。

總而言之,當你聽到“資訊是熵”,就大致知道對方應該是還沒搞清楚什麼是資訊熵。

並且,坤鵬論發現理解成“資訊=不確定性”的人,還真不在少數。

關鍵是,這麼理解,也可以非常地自圓其說。

而且通常還把內容質量也納入其中解說,真心比資訊熵的正解高大上的多得多。

不過,真要深入學習資訊熵,這樣的李鬼在資訊熵的正解面前,就會現原形,結果是你一時間徹底暈菜了!

因為,你的思想處在了非常擰巴的狀態中。

對!

這就是傳說中的反轉。

就像你一直以為一位美麗女子是公主,結果突然有一天有人告訴你,她身邊那個樸素的女孩才是公主。

資訊理論中的資訊和資訊熵,真的就是那麼樸素,樸素到只計字數,不管內容。

坤鵬論:資訊=不確定的減少=確定性的增加=資訊熵的減少=負熵

四、資訊量不是資訊熵,但數字相等!

不少人認為,資訊熵就是資訊量。

客觀講,它不算全錯,因為它是兩個等號後的那個結果。

但這麼理解,會讓普通人混亂。

所以,我們最好記住夏農和維納兩個公式,也就是記住將有沒有負號視為兩個公式:

夏農的資訊熵公式——告訴我們一條訊息有多少位元的不確定性;

維納的資訊量公式——告訴我們消除一條訊息的不確定性需要輸入多少位元的資訊。

一個負號正好代表了資訊量和資訊熵的關係——相減的關係。

資訊不是說了什麼,而是還能說什麼。

資訊量不是說了多少,而是還能說多少。

資訊是消減資訊熵的東西,資訊量的多少就是資訊熵的多少。

所以:

資訊熵=事件不確定性的度量;

資訊量=事件不確定性程度減少的量=事件確定性程度增加的量。

而夏農對於資訊量的定義恰恰就是——資訊量是隨機不確定性程度的減少。

對於只有確定性與不確定性這樣的二元機率,自然只要知道其一,就能夠知道另一個。

因此,知道了不確定程度的資訊熵,自然也就知道了還要輸入多少資訊才能消除資訊熵,獲得100%確定性。

比如:我們知道某一事件的資訊熵有5個位元,那麼也就知道了再輸入5個位元的資訊就能消除它的資訊熵。

再比如:你雖然沒看過《紅樓夢》,但知道它的作者是誰,寫於什麼年代,裡面的主人公有賈寶玉、林黛玉、薛寶釵、王熙鳳等。

你不知道的那些,都是資訊熵,也就是不確定性,非常大,此時可以說,對於《紅樓夢》你的可輸入資訊量非常大。

當你開始讀《紅樓夢》,就是輸入資訊,填補的是資訊熵,達到減少熵的效果,而這些你所閱讀的、且未知的資訊就叫資訊量。

所以,資訊熵可以代表資訊量,精確地說,是可以輸入的資訊量。

而夏農資訊理論的精髓就是,算出資訊熵,也就知道了該事件還需要輸入多少位元資訊才能確定。

所以,我們可以講,資訊熵越大,可以輸入的資訊量越大。

許多人將其簡化為,資訊熵越大,資訊量越大。

省了幾個字,卻費了無數人的腦細胞。

坤鵬論:資訊=不確定的減少=確定性的增加=資訊熵的減少=負熵

五、小結:資訊和資訊熵

再讓我們一起總結一下:

資訊熵,表示的是某一事件的不確定性程度。

資訊,就是用來降低這種不確定性程度的。

資訊熵,不是對資訊量的度量,但等於消除不確定性需要輸入的資訊量。

輸入的資訊量,就是該事件不確定性程度減少的大小,也就是資訊熵減少的大小。

資訊熵,是指從不確定到確定所需要的資訊量。

資訊熵越大,不確定性越大;資訊熵越大,可輸入的資訊量越大。

六、切記!資訊熵和內容本身無關

這需要一再強調,因為網上太多相關文章將它們混淆在一起。

我們一定要記住,夏農的資訊理論是拋開內容問題的資訊理論,只計字數不問內容。

本來,人家就是為了讓資訊傳輸得更高效、準確,這已經相當足夠了。

精準地衡量內容品質,自然科學還是有些吃力。

所以,資訊熵只反映訊息的不確定性,與內容本身無關。

不管是什麼樣內容的檔案,只要服從同樣的機率分佈,就會計算得到同樣的資訊熵。

請特別注意的是,我們理解資訊熵時,千萬不要摻和進內容。

也就是說,這個內容講的沒意義之類的,否則就會不斷處於混亂。

就像你拿了一麻袋一分錢的鋼鏰兒買東西,鋼鏰兒非常多,但錢不一定夠。

也就是說,鋼鏰兒的數量和錢的多少是兩回事。

坤鵬論發現,不少人在說資訊熵時,會將理解中的資訊量與客觀的資訊量搞混。

什麼叫理解中的資訊量?

比如:《大話西遊》中的唐僧,嘮嘮叨叨,廢話連篇,其實沒什麼資訊量,反而是最後不知是夢還是真實的唐僧,內斂和惜字如金,我們卻認為他的話裡面資訊量大。

這個理解中的資訊量,是指資訊接收者聽到或看到資訊後,除了表面的資訊,還消化、理解、琢磨、猜測、推理……聽話聽音,腦補出了大量話裡話外的資訊。

所以,理解中的資訊量=資訊傳送者傳送的資訊量+接收者腦補的資訊量。

客觀的資訊量,則只是根據字元的數量、機率計算出來的資訊熵後,得出的可以輸入的資訊數量。

日常生活中,我們常說某人說話言簡意賅,資訊量卻很大;某些人口若懸河,卻廢話連篇,沒資訊量。

這個說法沒錯,但是,你可不能和夏農的資訊量混為一談,得出“話越多,資訊熵越高”、“越言簡意賅,資訊熵越低”等結論。

因為這些資訊量其實指的是其內容質量和傳遞效率。

有沒有乾貨?有沒有精闢觀點?有沒有獨到思想?在一定文字長度/播放時間內,能不能有效表達?

這些其實都是與個人的能力相關,和夏農的資訊熵、資訊量沒有任何關係。

七、思考題

請問:資訊熵表示隨機事件自身所含的資訊的量,這個表述對嗎?

請問:資訊熵表示隨機事件所含有的不確定性的量,這個表述對嗎?

請問:資訊熵表示把一個隨機事件確定下來,需要消除的不確定性的量,這個表述對嗎?

如果這三個問題,你都能回答正確,恭喜,你已經掌握資訊熵的基本概念了。

本文由“坤鵬論”原創,轉載請保留本資訊

請您關注本百家號,坤鵬論自2016年初成立至今,創始人為封立鵬、滕大鵬,是包括百度百家、頭條、雪球、搜狐、網易、新浪等多家著名網站或自媒體平臺的特約專家或特約專欄作者,目前已累計發表原創文章與問答6000餘篇。