透過瀏覽維基百科，演算法已能自動生成教科書

維基百科如何

《機器學習—完整指南》是一本大部頭。該書共6000多頁，全面介紹了機器學習，且涵蓋了時下最先進的內容，比如人工神經網路、遺傳演算法和機器視覺。

但這本書可不是普通的出版物。

這是一本維基教科書，一本任何人都可以閱讀或編輯的教科書，其中的文章皆來自龐大的線上百科全書——維基百科。

這是該書的一大優勢。眾包的海量資訊能夠隨時更新最近進展，錯誤和歧義之處也能夠不斷修改。但同樣這也是其弱點所在。由於維基百科資源數目龐大，決定在這樣一本教科書中加入什麼內容是一項艱鉅的任務，正因如此，該書內容龐雜，共有超過550個章節，讀起來比較吃力。

由此引發了一個有趣的問題：

隨著近年來人工智慧的進步，有沒有一種方法可以自動編輯維基百科的內容，隨之生成一本內容連貫的教科書呢？

來自以色列內蓋夫本古裡安大學（ Ben-Gurion University ）的沙哈爾阿德馬蒂（ Shahar Admati ）及其同事就挑戰了這個任務：他們已經開發出了一種使用機器學習自動生成維基教科書的機器，將其稱之為

Wikibook-bot

。他們表示：“

這項技術的創新之處在於，它的目標是在沒有人工參與的情況下，自動生成整本維基教科書

。”

（來源：維基百科）

其操作方法相對較為直白易懂。首先，研究人員確定了一組現有的維基教科書，用作訓練資料集。在起始階段，他們選用了維基百科提供的此類學術研究資料集，其中包含 6700 本維基教科書。

由於教科書本身無論是對訓練還是測試而言都具有重要意義，因此研究團隊必須想方設法來確保質量。

他們說：“首先我們假設受歡迎的維基教科書質量更高，因此我們選擇重點關注瀏覽量超過 1000 次的教科書。”

在剩餘的 490 本書中，他們又根據諸如涵蓋超過十個章節等因素，進行了進一步篩選。最終精選了 407 本教科書用來訓練他們的學習機器。

接著，團隊將創作維基教科書的任務劃分為幾個部分，每個部分都需要機器學習的不同技能。任務從人為生成的標題開始，該標題用以描述某種概念，例如機器學習-完整指南。

第一項任務是對所有維基百科文章進行分類，以確定哪些相關內容能夠包含在內。

阿德馬蒂（Admati）和他的同事表示，“由於維基百科中的文章數量龐雜，機器需要在數百萬篇文章中選擇相關度最高的文章，因此這項任務十分具有挑戰性。”

為了幫助完成這項任務，該團隊使用了維基百科的網路結構，即文章通常透過超連結指向其他文章，因此我們有理由假設，連結的文章可能具有相關性。所以，他們從一小部分涉及標題中種子概念的文章開始，在網路上搜集出透過點選超連結三次以內得到的所有文章。

但是有多少篇連結的文章應該包括進去呢？為了找到答案，

他們從人工編寫的407本維基教科書的標題開始，並進行了“三跳”分析，接著計算出自動方法生成的文章能夠涵蓋多少人工書籍的內容。

事實證明，自動化方法通常能夠涵蓋大部分維基教科書的原始內容，但除此之外還有大量其他資訊。因此，團隊需要一些其他方式來進一步梳理內容。

網路科學再一次發揮重要作用。每本人工維基教科書都有自己的網路結構，其決定因素包括，引用該文的文章連結數量、指向其他文章的連結數量、所包含文章的頁面排名列表等。

因此，團隊編寫了一個演算法，該演算法會檢視每一篇給定主題篩選出來的文章，接著判斷如果將其新增到維基教科書中是否會使該書的網路結構與人工創作的書籍更相似。如果不相似，那麼該文章就會排除在外。

下一步是將文章組織成章節。這本質上是一個叢集任務；需要檢視由整組文章組成的網路，並找出如何將其劃分為連貫的叢集。許多聚類演算法均可用於完成此類任務。

最後一步是確定文章在每個章節中的出現順序。為此，該團隊給文章成對分組，並使用網路模型來確定哪個應該首先出現。透過對所有文章組合不斷排序，該演算法能夠計算出更為理想的文章順序以及章節順序。

透過這種方式，該團隊能夠生成已由人工編寫的維基教科書的自動版。

這些自動化書籍與人工書籍相比好在哪裡仍然難以判斷。可以肯定的是，它們包含許多相同的內容，而且通常順序相似，這無疑是一個良好的開端。

但阿德馬蒂（Adamti）及其同事計劃證明他們的方法行之有效。他們計劃製作一系列維基教科書，且內容涉及人工教科書尚未涵蓋的課題。然後，他們將監控頁面瀏覽量和對這些書籍的編輯量，以檢視與人工書籍相比，它們有多受歡迎，編輯程度有多高。他們說：“這將是對我們這種方法的一項真實考驗。”

這項有趣的工作有可能創作出涵蓋廣泛且頗具價值的教科書，甚至包括其他型別的文字，如會議論文集等。儘管它們對讀者的價值還有待商榷，但我們仍可拭目以待。

農林漁牧網