首頁 > > 正文

大數據環境下的隱私保護技術

隨著互聯網技術的飛速發展,整個社會被強行推入“大數據”時代。不管人們是否愿意,我們的個人數據正在不經意間被動地被企業、個人搜集并使用。個人數據的網絡化和透明化已經成為不可阻擋的大趨勢。過去,能夠大量掌控公民個人數據的機構只能是持有公權力的政府機構,但現在許多企業和某些個人也能擁有海量數據,甚至在某些方面超過政府機構。這些用戶數據對企業來說是珍貴的資源,因為他們可以通過數據挖掘和機器學習從中獲得大量有價值的信息。與此同時,用戶數據亦是危險的“潘多拉之盒”,數據一旦泄漏,用戶的隱私將被侵犯。近年來,已經發生了多起用戶隱私泄露事件,公民的個人的隱私數據保護遇到了嚴峻的挑戰。

20世紀最著名的用戶隱私泄漏事件發生在美國馬薩諸塞州。90年代中葉,為了推動公共醫學研究,該州保險委員會發布了政府雇員的醫療數據。在數據發布之前,為了防止用戶隱私泄露,委員會對數據進行了匿名化處理,即刪除了所有的敏感信息,如姓名、身份證號和家庭住址等。然而,來自麻省理工大學的Sweeney成功破解了這份匿名化處理后的醫療數據,能夠確定具體某一個人的醫療記錄。匿名醫療數據雖然刪除了所有的敏感信息,但仍然保留了三個關鍵字段:性別、出生日期和郵編。Sweeney同時有一份公開的馬薩諸塞州投票人名單(被攻擊者也在其中),包括投票人的姓名、性別、出生年月、住址和郵編等個人信息。她將兩份數據進行匹配,發現匿名醫療數據中與被攻擊者生日相同的人有限,而其中與被攻擊者性別和郵編都相同的人更是少之又少。由此,Sweeney就能確定被攻擊者的醫療記錄。Sweeney進一步研究發現,87%的美國人擁有唯一的性別、出生日期和郵編三元組信息,同時發布事實上幾乎等同于直接公開。

2006年,美國在線公司(Aol)公布了超過65萬用戶三個月內的搜索記錄,以推動搜索技術的研究。Aol同樣對發布的數據進行了匿名化處理,即用一個隨機數代替用戶的賬號。隨后,《紐約時報》成功將部分數據去匿名化,并公開了其中一位用戶的真實身份。這起隱私泄漏事件引起了人們的廣泛關注,美國在線公司因為此事件在北加州地方法院被起訴。美國網飛公司曾(Netflix)舉辦了一個推薦系統算法競賽,發布了一些“經過匿名化處理的”用戶影評數據供參賽者測試,僅僅保留了每個用戶對電影的評分和評分的時間戳。然而,來自德州大學奧斯汀分校的兩位研究人員借助公開的互聯網電影數據庫(IMDB)的用戶影評數據,獲得了IMDB用戶,并不比在Netflix上的全部電影瀏覽信息(包括涉及敏感題材的電影)少。為此,2009年Netflix遭到了4位用戶的起訴,也不得不取消了該競賽。

除了上述幾個著名的用戶隱私泄露事件,大數據帶來的整體性變革,使得個體用戶很難對抗個人隱私被全面暴露的風險,谷歌公司著名的街景服務曾引發許多攝影對象的抱怨,他們要求谷歌在街景畫面中屏蔽掉自家住宅或商鋪的圖像,但虛化后的陰影與周邊景象形成了鮮明對比,促使一些歹徒尋著“此地無銀三百兩”的提示,按圖索驥地登堂入室。同時,傳統線下企業的數據保護方式失效了,只要用戶使用智能手機、上網購物或參與社交媒體互動,就必須將自己的個人數據所有權轉移給服務商。更為復雜的是,經過多重交易和多個第三方渠道的介入,個人數據的權利邊界消失了或者說模糊不清了,公民的個人的隱私保護遇到了嚴峻的挑戰。

面對頻發的隱私泄露事件,隱私保護問題需要得到有效的解決。解決的途徑包括:制定法律法規、研發技術方法、規范管理措施三個方面。

在法律法規方面,歐美早在七十年代就有專門的隱私保護法,如下圖所示:

香港在回歸之前就頒布實施了個人數據條例。該條例1995年頒布,1996年12月20日生效。條例的執行由個人數據隱私專員監督。該條例管理個人、企業、公共機構和政府部門對于在世人士的相關數據的使用(如果這些數據可以有效識別該在世人士)。香港的PDPO條例主要強調了數據保護的六大原則: 個人數據收集的目的和方式、個人數據的準確性和數據保留的時間、個人數據的使用、個人數據的安全性、信息基本有效可用、個人數據的訪問。

我國大陸雖然沒有專門的隱私保護法,但在多個法律法規的條文中涉及到了隱私保護,對保護個人隱私作了間接的、原則性的規定。例如,《中華人民共和國憲法》第三十八條、第三十九條、第四十條明確了對公民的人格尊嚴、住宅、通信自由和通信秘密的保護,這是我國法律對隱私權進行保護的最根本的依據;第三十八條規定:“中華人民共和國公民的人格尊嚴不受侵犯。禁止用任何方法對公民進行侮辱、誹謗和誣告陷害”,第三十九條規定:“中華人民共和國公民的住宅不受侵犯。禁止非法搜查或者非法侵八公民的住宅”,第四十條規定:“中華人民共和國公民的通信自由和通信秘密受法律的保護。除因國家安全或者追查刑事犯罪的需要,由公安機關或者檢察機關依照法律規定的程序對通信進行檢查外,任何組織或者個人不得以任何理由侵犯公民的通信自由和通信秘密”?!吨腥A人民共和國合同法》第六十條第二款規定:“當事人應當遵循誠實信用原則,根據合同的性質、目的和交易習慣履行通知、協助、保密等義務”。第六十條還規定:“當事人應當按照約定全面履行自己的義務。當事人應當遵循誠實信用原則,根據合同的性質、目的和交易習慣履行通知、協助、保密等義務”。最高人民法院《關于貫徹執行<中華人民共和國民法通則>若干問題的意見(試行)》第140條:“以書面、口頭形式宣場他人的隱私,或者捏造事實公然丑化他人人格,以及用侮辱、誹謗等方式損害他人名譽,造成一定影響的,應當認定為侵害公民名譽權的行為”?!肚謾嘭熑畏ā返谌鶙l:“網絡用戶、網絡服務提供者利用網絡侵害他人民事權益的,應當承擔侵權責任……”?!吨腥A人民共和國刑法》第二百五十三條之一:“國家機關或者金融、電信、交通、教育、醫療等單位的工作人員,違反國家規定,將本單位在履行職責或者提供服務過程中獲得的公民個人信息,出售或者非法提供給他人,情節嚴重的,處三年以下有期徒刑或者拘役,并處或者單處罰金。竊取或者以其他方法非法獲取上述信息,情節嚴重的,依照前款的規定處罰。單位犯前兩款罪的,對單位判處罰金,并對其直接負責的主管人員和其他直接責任人員,依照各該款的規定處罰”,等等。這些法律規定對于保護公民的隱私權具有重要意義。

在技術方面,隱私保護的研究領域主要關注基于數據失真的技術、基于數據加密的技術和基于限制發布的技術。

基于數據失真的技術通過添加噪音等方法,使敏感數據失真但同時保持某些數據或數據屬性不變,仍然可以保持某些統計方面的性質。包括隨機化,即對原始數據加入隨機噪聲,然后發布擾動后數據的方法;第二種是阻塞與凝聚,阻塞是指不發布某些特定數據的方法,凝聚是指原始數據記錄分組存儲統計信息的方法;第三類是差分隱私保護。

基于數據加密的技術采用加密技術在數據挖掘過程隱藏敏感數據的方法,包括安全多方計算 SMC,即使兩個或多個站點通過某種協議完成計算后,每一方都只知道自己的輸入數據和所有數據計算后的最終結果;還包括分布式匿名化,即保證站點數據隱私、收集足夠的信息實現利用率盡量大的數據匿名

基于限制發布的技術有選擇地發布原始數據、不發布或者發布精度較低的敏感數據,實現隱私保護。當前這類技術的研究集中于“數據匿名化”,保證對敏感數據及隱私的披露風險在可容忍范圍內。包括K-anonymity、L-diversity、T-closeness。

最早被廣泛認同的隱私保護模型是k-匿名,由Samarati和Sweeney在2002年提出,作者正是馬薩諸塞州醫療數據隱私泄露事件的攻擊者。為應對去匿名化攻擊,k-匿名要求發布的數據中每一條記錄都要與其他至少k-1條記錄不可區分(稱為一個等價類)。當攻擊者獲得k-匿名處理后的數據時,將至少得到k個不同人的記錄,進而無法做出準確的判斷。參數k表示隱私保護的強度,k值越大,隱私保護的強度越強,但丟失的信息更多,數據的可用性越低。

然而,美國康奈爾大學的Machanavajjhala等人在2006年發現了k-匿名的缺陷,即沒有對敏感屬性做任何約束,攻擊者可以利用背景知識攻擊、再識別攻擊和一致性攻擊等方法來確認敏感數據與個人的關系,導致隱私泄露。例如,攻擊者獲得的k-匿名化的數據,如果被攻擊者所在的等價類中都是艾滋病病人,那么攻擊者很容易做出被攻擊者肯定患有艾滋病的判斷(上述就是一致性攻擊的原理)。為了防止一致性攻擊,新的隱私保護模型l-diversity改進了k-匿名,保證任意一個等價類中的敏感屬性都至少有l個不同的值。t-Closeness在l-diversity 的基礎上,要求所有等價類中敏感屬性的分布盡量接近該屬性的全局分布。(a, k)-匿名原則,則在k-匿名的基礎上,進一步保證每一個等價類中與任意一個敏感屬性值相關記錄的百分比不高于a。

然而,上述隱私保護模型依然有缺陷,需要不斷的被改進,但同時又有新的攻擊方法出現,使得基于k-匿名的傳統隱私保護模型陷入這樣一個無休止的循環中。從根本上來說,傳統隱私保護模型的缺陷在于對攻擊者的背景知識和攻擊模型都給出了過多的假設。但這些假設在現實中往往并不完全成立,因此攻擊總是能夠找到各種各樣的攻擊方法來進行攻擊。直到差分隱私的出現,這一問題才得到較好的解決。

差分隱私(differential privacy, DP)是微軟研究院的Dwork在2006年提出的一種新的隱私保護模型。該方法能夠解決傳統隱私保護模型的兩大缺陷:(1)定義了一個相當嚴格的攻擊模型,不關心攻擊者擁有多少背景知識,即使攻擊者已掌握除某一條記錄之外的所有記錄信息(即最大背景知識假設),該記錄的隱私也無法被披露;(2)對隱私保護水平給出了嚴謹的定義和量化評估方法。正是由于差分隱私的諸多優勢,使其一出現便迅速取代傳統隱私保護模型,成為當前隱私研究的熱點,并引起了理論計算機科學、數據庫、數據挖掘和機器學習等多個領域的關注。

在管理領域,我國各部門也在制定一些強制管理措施保護隱私信息。

總之,隱私保護在大數據時代是不可回避的,需要拿出切實可行的法律、技術、管理措施,并嚴格遵照執行。同時,廣大民眾也應該養成保護個人隱私信息的意識和習慣,用技術和法律的手段捍衛自己的合法權益。(中國科學院軟件研究所 丁麗萍)

[責任編輯:梁晶晶]