Savoir | 即使在匿名化資料中，AI還是能夠認出你是誰

即使在匿名化資料中，AI還是能夠認出你是誰

2022/02/21 10:00

即使在匿名化的資料庫，人工智慧還是能藉由社交模式來認出你是誰。

　　發表在《自然通訊》（Nature Communications）期刊的研究指出，人工智慧能夠在超過四萬名使用者的匿名手機服務中，透過我們與聯絡人的互動資訊來辨識我們的身分，而且正確率超過一半。即使在匿名化的資料庫，人工智慧還是能藉由社交模式來認出你是誰。或許，實名制在現代科技之中也只是個假議題，無論如何我們都會被認出來。

　　明尼蘇達大學電腦科學家雅伊迪普‧斯里瓦斯塔（Jaideep Srivastava）提到，人們傾向於待在既定且舒適的社交圈中，隨著時間的演進，這些有規律的互動形成了一種穩定的模式，這毫不奇怪，未參與研究的他說：「但令人訝異的現實是，可以用社交模式來辨識個體身分。」

　　根據歐盟的《一般資料保護規範》（General Data Protection Regulation）和加州的《消費者隱私保護法》（Consumer Privacy Act）的規定，收集使用者日常互動資訊的公司可以在未經使用者同意的情況下，以匿名方式分享或出售使用者資料。倫敦帝國學院的計算隱私研究員伊夫斯—亞歷山大‧德蒙特喬伊（Yves-Alexandre de Montjoye）指出，一些組織或許認為只要匿名就安全無虞，但「研究結果證明，事實並非如此」。

一些組織或許認為只要匿名就安全無虞，但研究結果證明，事實並非如此。

　　德蒙特喬伊和同事假設，人們的社交行為可以在匿名化的使用者互動資訊數據庫中被辨識出來。為了驗證假設，他們讓一個人工神經網路辨識使用者每週的社交活動模式。

　　在一項實驗中，科學家使用匿名行動電話服務的數據來訓練神經網路，這些數據詳細記錄了14周內43,606名用戶的互動情況，包括每次交流的日期、時間、通話時長、通訊類型（電話或簡訊）、使用者的假名，以及交流是誰起頭。

　　每個使用者的互動數據被編織成網路形狀的資料結構，由代表使用者與其聯絡人的節點組成。科學家向人工智慧展示一個已知使用者身分的互動網路，然後讓它去搜尋與之最相似的匿名資料。

或許，實名制在現代科技之中也只是個假議題，無論如何都會被認出來。

　　在匿名數據庫的最新記錄發佈一周後，當神經網路學習目標電話互動資料的網路時，只把14.7％的人與其匿名身分連結起來。但是，當不僅提供目標的互動資料，再另外提供使用者的聯絡人資料時，它可以辨識出52.4％的人。當科學家向人工智慧提供匿名數據庫收集20周後的互動資料時，人工智慧仍能正確辨識24.3％的使用者，表明社交行為在一段時間內依然具有可辨識性。

　　為了觀察人工智慧是否能在其他層面分析社交行為，科學家在一個數據庫上進行實驗，該數據庫是由哥本哈根科學家收集587名匿名大學生手機，為期四個星期的近距離資料所組成，其中包括學生使用的假名、接觸時間與接收信號的強度組的互動資料，顯示個體與其他學生的近距離接觸程度。這些指標目前通常應用在追蹤COVID-19足跡，當給定一個目標與期聯絡人的互動資料時，人工智慧正確辨識學生的準確率為26.4％。

　　德蒙特喬伊希望研究結果能讓政策制定者改善保護使用者身分隱私的做法，因為數據保護法允許共享匿名資料以進行相關研究，他說：「然而，想要這麼做最重要的一點是，該如何確保匿名化真的能夠保護個人隱私。」