農林漁牧網

您現在的位置是:首頁 > 農業

解密第四正規化的差分隱私演算法:基於樣本和基於特徵切分的機器學習演算法

2022-05-20由 雷峰網leiphone 發表于 農業

如何建立差分演算法

大資料時代的隱私洩露如達摩克利斯之劍,高懸在每個網民頭上,而關於如何保護資料隱私我們也走了很長的路。

1977 年,統計學家 Tore Dalenius 給出關於資料隱私的嚴格定義:攻擊者不能從隱私資料裡獲取任何在沒有拿到資料之前他們所不知道的個人資訊。

2006 年,計算機學者 Cynthia Dwork 證明上述定義的隱私保護是不存在的。有一個直觀例子可以幫助理解:假設攻擊者知道 Alice 的身高比 Lithuanian 女性平均身高高 2 英寸,這樣攻擊者只需要從一個數據集裡獲得 Lithuanian 女性身高平均值(在接觸資料前攻擊者並不知道),就能準確獲得 Alice 的精確身高,甚至 Alice 都不需要在這個資料集裡。因此,對於一份有資訊量的資料,不可能完全不暴露隱私資訊。

2018 年,史上最嚴苛的個人隱私保護法案《通用資料保護條例》( GDPR )正式生效,開創了網際網路誕生以來的最大變革,資料隱私問題得到前所未有的重視。

近日,雷鋒網瞭解到,第四正規化先知( Sage )企業級 AI 平臺已經完成 PrivacySeal EU 認證工作程式,率先透過歐盟 GDPR 認證,成為國內第一款透過該認證的 AI 平臺產品,實證基於第四正規化隱私計算技術的資料安全性和可信任性,那麼,他們是如何保護使用者隱私安全的?為此,雷鋒網和第四正規化的主任科學家塗威威聊了聊。

匿名化或許是個偽命題?

不知道有多少童鞋記得去年穀歌母公司 Alphabet Inc 因違反隱私資料法被罰款 5000 萬歐元的事情,據說這是迄今為止歐洲範圍內,一家公司因違反隱私資料法遭受到的最高額處罰金。多家英文科技媒體報道時,都用了 “record high”(破紀錄地高)描述處罰力度之狠。

為什麼谷歌會受到如此嚴重的懲罰?

首先,谷歌會收集自家相關應用和第三方網頁訪問的活動資料,透過安卓裝置的“裝置標識”以及“廣告識別符號”,將應用資料上傳至谷歌伺服器,並與使用者的谷歌賬戶關聯,形成了完整的閉合。簡單來說,谷歌透過被動方式收集的所謂“匿名資料”與使用者的個人資訊相關聯 ——繞了一大圈,最後大費周章用“合法手段”應用使用者資訊。

同樣地,Google Ad Manager 的 Cookie ID(跟蹤使用者在第三方網頁上的活動快取資訊)是另一個據稱是“使用者匿名”識別符號。如果使用者在同一瀏覽器中訪問Google應用程式,Google 可以將其連線到使用者的 Google 帳戶之前訪問過第三方網頁。

換句話說,雖然通常在使用者匿名的情況下收集資訊,但 Google 明顯擁有利用從其他來源收集的資料來對此類集合進行去匿名化的能力。

Google 之所以出現這類問題,主要源於其產品在資料流轉及應用上不嚴謹所致,同時,一些常規匿名化手段的技術缺陷同樣不容忽視。

而谷歌的廣告業務幾乎覆蓋了 90% 全球使用者,200 萬個主流網站,也就是說不經意間我們的生活已經被谷歌的 “資料操控” 看了個清清楚楚明明白白。

2010 年,個人隱私律師 Paul Ohm 就曾在 UCLA 法律評論中刊文指出,雖然惡意攻擊者可以使用個人身份資訊(如姓名或社會安全號碼)將資料與個人身份進行關聯,但事實證明,即便只擁有那些不會被歸類為“個人身份資訊”的資訊,他們也可以達到同樣的目的。

Ohm 參考了 Sweeney 早期的一些研究,她發現 1990 年美國人口普查中有 87% 的人可以透過兩條資訊進行唯一識別:他們的出生日期和他們住址的郵政編碼。Ohm 還引用了 Netflix 以及其他有關資料洩露的案例,並得出結論:在傳統的以個人身份資訊為保護重點的匿名化技術下,幾乎任何資料都無法實現永久的完全匿名。

連結攻擊、同質化攻擊等方式都可能從匿名化資料中定位個人身份。例如連結攻擊,透過資料的半識別符號在其他能找到的表上進行查詢,則可能找到對應的身份定位識別符號以及其他敏感資訊。

2013 年,研究人員發現位置資料具有高度的獨特性,因此更加難以匿名化。許多匿名資料庫都可能間接洩露你的位置,例如刷卡消費或前往醫院就診。研究人員發現,透過每小時記錄4次手機連線到的訊號發射塔,就可以對 95% 的裝置進行唯一識別。如果資料更精細( GPS 跟蹤而不是訊號發射塔,或者實時採集而不是每小時採集),匹配則會變得更加容易。

於是,大家開始意識到“匿名化”這東西並沒有那麼安全,我們的資訊還是會被竊取。

所以,一向注重使用者隱私的蘋果在 2016 的開發者大會上提出了“差分隱私(Differential Privacy)”的概念。即透過演算法來打亂個體使用者資料,讓任何人都不能憑此追蹤到具體的使用者,但又可以允許機構成批分析資料以獲得大規模的整體趨勢用於機器學習。將使用者隱私資訊儲存在本機而非雲端也是蘋果保護使用者隱私的方法之一。例如 Face ID 面容資訊、Touch ID 指紋資訊等都儲存在 iPhone 的晶片上。

解密第四正規化的差分隱私演算法:基於樣本和基於特徵切分的機器學習演算法

不過,差分隱私還是無法避免多個相關資料上報而導致的隱私洩露。更何況,道高一尺魔高一丈,匿名方法推陳出新的同時,攻擊者們也會採用更為強力的識別工具。

那麼,第四正規化推出的差分隱私又是如何做的呢?

機器學習中的隱私保護

據塗威威介紹,目前已有差分隱私機器學習演算法上的工作,往往是透過往訓練過程內注入噪聲來實現差分隱私。

常見的有三種:目標函式擾動(objective perturbation)、輸出擾動(output perturbation)、梯度擾動(gradient perturbation)。常見的機器學習演算法,以最簡單的 logistic regression 演算法為例,已經有成熟的差分隱私演算法,以及隱私保護和學習效果上的理論保障。然而就目前的方法以及對應的理論來看,對於隱私保護的要求越高,需要注入的噪聲強度越大,從而對演算法效果造成嚴重負面影響。

為了改善上述問題,第四正規化基於以往 Stacking 整合學習方法的成效,將 Stacking 方法與差分隱私機器學習演算法相結合。Stacking 需要將資料按照樣本分成數份。並且提出了基於樣本和基於特徵切分的兩種 Stacking 帶隱私保護的機器學習演算法。

解密第四正規化的差分隱私演算法:基於樣本和基於特徵切分的機器學習演算法

在該演算法中,資料按樣本被分成兩份,其中一份按特徵或按樣本分割後在差分隱私的約束下訓練 K 個子模型,並在第二份上透過差分隱私機器學習演算法進行融合。

按特徵切分相比過去的演算法和按樣本切分演算法有更低的泛化誤差。同時,按特徵切分有另一個優勢,如果知道特徵重要性,第四正規化的差分隱私演算法可以將其編入演算法中,從而使得重要的特徵被擾動的更少,在保持整體的隱私保護不變的情況下,可以得到更好的效果。

此外,還可以直接拓展到遷移學習上。即在源資料集上按照特徵切分後得到帶隱私保護的模型,透過模型遷移,遷移到目標資料集上並透過 Stacking 進行融合。在這種情況下,源資料可以在不暴露隱私的情況下輸出模型幫助目標資料提升學習效果,而目標資料也可以在保護自身資料隱私的約束下訓練模型。

不過,值得注意的是,以差分隱私為代表的隱私保護技術仍需要在理論、效果、應用、成本等方面進一步解決和最佳化。

塗威威介紹說:“比如,在成本方面,核心的問題其實是人力。機器學習已經是很複雜的技術,落地需要很專業的人才。當前的隱私保護技術使用門檻較高,在保護隱私的前提下,多方聯合資料建模的常見做法依然需要比較多的專家人工介入到資料預處理、特徵工程、模型調參當中,因此落地的人才門檻更高。且人力的介入又會給資料安全與隱私保護帶來一層隱患。”

因此,在差分隱私的基礎上,又衍生出了另一種保護隱私的自動多方機器學習技術。第四正規化綜合了差分隱私技術、自動化機器學習技術,讓機器自動完成資料預處理、特徵工程、模型調參等工作,大幅減少了專家人工的介入,一方面進一步提升了安全性,另一方面也大幅降低了隱私保護技術的使用門檻,使得廣泛落地成為可能。該技術也將是保證技術規模化落地的關鍵。

最後,雷鋒網想提醒大家,雖然在隱私和便利面前,我們都抓禿了頭,但不代表這就沒法解決了。

電影《絕對控制》中有一句話:“隱私不是公民權,而是特權”;隱私本應是每個公民最基礎的權利,只不過在過去的很長時間中,我們從未意識到行使這項權利,以至於隱私竟變成了“特權”,不過慶幸的是隱私權正在迴歸,人們正在拾回分散在網際網路中的隱私。