農林漁牧網

您現在的位置是:首頁 > 畜牧業

B 站 CEO 的身份證被上傳到 GitHub 了?

2022-03-23由 酷扯兒 發表于 畜牧業

b站身份證能繫結幾個賬號

「來源: |GitHub大本營 ID:githubcode」

B 站 CEO 的身份證被上傳到 GitHub 了?

AI 自動補全程式碼,結果補出來了一張別人的身份證?

GitHub Copilot 又出神操作了。

有人在推特上曬圖,表示自己在使用 GitHub Copilot 時,它竟然給補全出了一張身份證資訊出來。

B 站 CEO 的身份證被上傳到 GitHub 了?

輸入 B 站 CEO 陳睿的資訊後,下方竟然自動補出了

身份證號

這操作確實夠嚇人的。

網友就表示:恐成社工庫利器啊!

B 站 CEO 的身份證被上傳到 GitHub 了?

不過恐慌之際,眼尖的網友們很快發現了問題:

顯示的身份證號其實是

假的

,其中出生年份和校驗位明顯都是錯的。

陳睿應該是 1978 年生,而這裡的證件號上顯示為 1988。

叔叔我啊,變年輕了

B 站 CEO 的身份證被上傳到 GitHub 了?

也就是說,這串所謂的身份證號,其實是 GitHub Copilot 自動生成的

假資料

這讓人們提起來的心稍微放下了一些。

但是原本是生成程式碼的 GitHub Copilot,怎麼會生成個人隱私資訊呢?

吃了的,不經意又吐出來

這和 GitHub Copilot 的工作原理有一定關係。

GitHub Copilot 由

Codex

模型支援,它可以看做是 GPT-3 的升級版,既能看懂程式碼、也能看懂自然語言。

一方面

,GitHub Copilot 為了能看懂註釋,需要接受像 GPT-3 一樣的語言訓練。

語言模型在生成結果時,往往會隨機表現出某些訓練資料的特徵。

也就是模型 “記住了” 見過的資料資訊,處理任務時,把它 “吃進去” 的訓練資料又 “吐了出來”。

而對於 GPT-3、BERT 這些超大型語言模型來說,訓練資料集的來源往往包羅永珍,大部分是從

網路公共資訊

中抓取,其中免不了

個人敏感資訊

,比如姓名、地址、身份證號等等。

有人就表示,b 站高層的個人資訊可能早就被人惡意曝光了。

B 站 CEO 的身份證被上傳到 GitHub 了?

這一次很可能是 GitHub Copilot 在生成結果時,隨機表現出了一些訓練資料的特徵,這部分資料剛好來自陳睿的隱私資訊。

事實上,GitHub 的 CEO Nat Friedman 也迴應過類似的問題。

他表示 GitHub Copilot 給出的隱私資訊都是

假的

,是透過訓練資料合成而來。

而前不久曝出的 Copilot 抄襲大神程式碼、原版註釋一事,直接讓 Nat 這番迴應啪啪打臉。

自動生成的程式碼不僅和原版一樣,連 “what the fuck” 那句註釋也用上了。

B 站 CEO 的身份證被上傳到 GitHub 了?

GitHub Copilot 復刻 Quake 程式碼

另一方面

,GitHub Copilot 是由數十億行

公開程式碼

訓練的。

有人認為,這可能是訓練集中的原始程式碼就違反了相關隱私條款。

GitHub Copilot 受到錯誤程式碼的影響,意外把陳睿的個人資訊從資料集裡套了出來。

B 站 CEO 的身份證被上傳到 GitHub 了?

雖然這次情況可能只是個意外,但是也暴露了 GitHub Copilot 在安全隱私上存在許多風險。

有網友就對 GitHub Copilot 的敏感資訊處理,表示擔憂:

倒是說會對敏感資訊處理,但是我覺得總會有漏的。

B 站 CEO 的身份證被上傳到 GitHub 了?

小米開源技術委員會主席、小米副總裁崔寶秋則表示,這提醒了使用者要注意自己的安全隱私保護,個人資料要記得匿名化。

B 站 CEO 的身份證被上傳到 GitHub 了?

GitHub Copilot 爭議不斷

事實上,GitHub Copilot 從上線以來就爭議不斷:

直接照抄原始碼、沒有開源許可證;

由公共程式碼庫訓練,卻要以付費商品上線;

……

除了安全隱私上的風險,openAI 還發現 GitHub Copilot 的模型 Codex 與 GPT-3 一樣,會生成帶有種族主義或其他倫理問題的結果。

最近,自由軟體基金會(Free Software Foundation,FSF)也發出了抗議,他們表示使用 GitHub Copilot 必須執行 Visual Studio IDE 或 Visual Studio Code 這種付費軟體,侵犯了使用者的權益。

B 站 CEO 的身份證被上傳到 GitHub 了?

為此,FSF 正在向大眾徵集 GitHub Copilot 在版權、法律等問題的投稿。

對於這一抗議,GitHub 方面則表示願意對任何問題持開放態度。

“這是一個全新的領域,我們渴望與開發者就這些話題進行討論,並引領行業為訓練人工智慧模型制定適當的標準。”

參考連結:

[1]https://twitter。com/DeltonDing/status/1423651446340259840

[2]https://venturebeat。com/2021/07/08/openai-warns-ai-behind-githubs-copilot-may-be-susceptible-to-bias/

[3]https://www。infoworld。com/article/3627319/github-copilot-is-unacceptable-and-unjust-says-free-software-foundation。html