農林漁牧網

您現在的位置是:首頁 > 漁業

【週末特刊】量子閱讀的量子觀:一個簡單的文字講述了什麼

2021-06-19由 熱點天地 發表于 漁業

頻度是什麼意思

【最近經常有人在科學網上討論漢字改革的問題,最關心的人有李小文老師和張能立老師。但是有些基本概念的模糊,影響了這個問題的討論。按照李小文老師的要求,我在此做一個簡單的文字熵的介紹,來消除不必要的誤解和推證。】

有人望文生義,在沒有對問題有清楚理解的基礎上,不斷使用“熵”這個詞,還稀裡糊塗地將熱力學熵和資訊熵混同。

以為漢字的熵大,就說明漢字的表示水平就不行。還因此推論,漢字的資訊熵大,說明漢字不精確,我們思考能力也不行,思維也不精確,所以我們要改革,從文字到思想應該向英文這種熵小的語言靠齊。

我現在宣告一下,以下我談的熵都是“資訊熵”。

資訊熵是什麼意思?就是“每個符號的平均資訊量”的意思。

首先說說什麼叫資訊量。

其實這個概念一點也不神秘,就是說我要表達一個資訊,需要多少個符號的意思。比如我要讚揚YC的文章寫得好,我可以像下面這樣說:

(1) YC 好!

(2)YC的文章好!

(3)YC文章實在是太好了!

就我要表達的資訊來說,(2)就夠了,(1)則表達不清楚,(3)則表達過頭了。因此我所要表達的資訊,按照科學網常用的符號系統中的符號來表達,就需要7個符號。這“7個符號”,就是資訊量。

但是,我們表達同樣的資訊,用不同符號集的符號,需要的符號個數並不相同,不如我們用英文表達(2):

YC‘s articles are excellent。

我們可以數一下,這一共是28個符號(含空格)。

所以為了給“資訊量”一個統一的計量標準,我們將採用統一的一個符號系統計算表達一個資訊所需要符號個數。

由於計算機資訊科技的發展,現在最常用的,我們是採用(0,1)作為符號集或者符號系統,而其一個符號的長度,我們稱為“位”(bit)。(其實莫爾斯電碼也是二進位制符號系統。)

那麼怎麼計算一個符號系統的某個符號所攜帶的資訊量呢?在採用bit為單位的情況下,我們採用以下公式:

$I(a_{i})=-log_{2}P(a_{i})$

這個公式是說,在一個符號系統中,若第i個符號(我們用$a_{i}$表示)出現的機率為$P(a_{i})$ , 而此符號的資訊量$I(a_{i})$如果用bit計量,則用以上公式計算。為什麼這樣計算呢?在一個符號系統中,出現頻率越高的符號,其含有的資訊量越低,反之則越高。我們可以想想一個極端情況,如果一個符號系統只有一個符號,出現來出現去,就是那個符號。因此這個符號含的資訊量就是零,出現不出現對接收者都沒啥差別。再想想一種情況,如果一個符號系統中的某個符號出現的機率接近於零,那麼這個符號要麼長久不出現,要麼一出現就帶來驚人的資訊量,極限情況下是趨向於無窮大。比如,我們這一生,幾乎不可能中大獎,但是如果哪天晚上你接到電話,原來是NB委員會通知你得了NB獎,這個訊息的資訊量是不是接近無窮大?

其實計算文字的資訊量,由於很多情況,我們並不清楚使用一種語言,表達特定的資訊,怎麼樣講用字或者字元最少,所以,計算本身也是困難的。

最簡單的辦法,我們只能統計一個符號集中間出現某個符號的機率,然後針對特定的一個短語或者句子,來討論相關的資訊量。比如 “YC的文章好!”是在約有3000個字元常用中文字符集中選用的7個符號,假定每個字元出現的機率完全相等,則其大致估算的資訊量為:

$7*log_{2}3000=7*11。55\approx81(bits)$

平均每個符號的平均資訊量為11。55bits。

同樣的辦法,我們也可以計算 ‘YC‘s articles are excellent。 ’的資訊量,假定英文用的符號集含60個(含26個字母大小寫,空格與常用標點。)符號,每個符號出現機率相同,則其資訊量估算為:

$28*log_{2}60=28*5。91\approx166(bits)$

符號的平均資訊量為5。91bits。

粗粗一看,好像表達同樣資訊,漢語使用的資訊量低於英語(還有讀者認為這說明漢語不精確),但是細心的讀者應該留意到,我這樣算資訊量和平均資訊量是不對的,因為,不論中英文,我假定每個符號出現的機率相同明顯不可能,比如中文中的“的”出現頻率就相當高,而英文字母符號中的“空格”出現頻率也非常大。對於中文而言,我的計算大致靠譜,因為中文字元多,所以就是有誤差,算起來問題也不會特別大;但是英文字母少,算起來問題就大了。

事實上,我們規定單個符號的資訊熵,即平均資訊量如下:

$H(X)=-\sum_{i=1}^{N}P(a_{i})log_{2}P(a_{i})(bits/sign)$

其中X代表“從符號集取單符號”的意思(嚴謹點說,X是一個“隨機變數”); $P(a_{i})$表示取符號$a_{i}$的機率,而小標i從1取到N,N是符號集的符號個數。而單位“bits/sign”是表示每個符號平均有多少資訊量的意思。

透過考慮符號間的關聯和漢字出現的頻度,最後我們大致知道,漢字的資訊熵是9。65bits/sign,而英文的資訊熵是4。03bits/sign。

這是什麼意思呢?這是說如果表達某個意思,如果我們需要100個漢字的話,那麼我們大致需要965/4。03約=240個英文字母。

換言之一個漢字所包含的資訊量大約是一個英文字母的兩倍多。這也是為什麼我們將一篇中文翻譯成英文,篇幅明顯變長的原因。再說清楚些,這說明一個漢字表達的意思要比一個英文字母的意思要精確得多。

所以,

文字的熵越大,其包含的資訊量越大,其單個符號表達則越清楚。

這裡必須講點題外話。

我們應當清楚,將一個漢字和一個字母去比較是不公平的。因為單個漢字已經有很大程度上有獨立的含義,英文字母則不同,雖然每個字母的來源如同漢語一樣,從象形符號(古埃及)演化而來,但是現在的單個符號基本沒有具體含義。英文字母更類似漢字的點橫撇捺或者某個部首而已。

那麼一個一個漢字同一個英文詞彙比較呢?這同樣是不公平的,因為現代漢語以雙字詞或者三字詞為主,所以單個字包含的資訊量也大不到可以和一個獨立的英文詞彙去比較的水平。

那麼,

最好的對應,應該是詞對詞

。這時候,我們大致統計一下,就容易發現,兩種語言的差距,並不太大。因為在大多數情況下,一個英文詞,就正好可以翻成一個漢語詞。