所在位置: 前沿科技首頁 > 最新文章 > 人工智能  > 正文

魚與熊掌可以兼得

2019-06-20 10:29:08 來源: 《前沿科學》 作者: 楊 強、童詠昕、王晏晟

魚與熊掌可以兼得

——“聯邦遷移學習”直面小數據與隱私關切挑戰

前海微眾銀行、香港科技大學  

北京航空航天大學計算機學院  童詠昕  王晏晟

 

人工智能領域目前的發展十分迅猛,具有廣闊的市場前景。2018年,獨立咨詢公司Gartner提出,到2022年,人工智能的商業價值預計會達到3.9萬億美元。中國方面,清華大學發布的《中國人工智能發展報告2018》顯示,2017年中國人工智能市場規模達到238億元,同比增長67%,預計2019年我國人工智能市場增速將達75%。

除了市場的普遍看好,中國政府也十分重視人工智能領域的發展。在2017年相繼印發《新一代人工智能發展規劃》和《促進新一代人工智能產業發展三年行動計劃》,旨在搶抓重大戰略機遇,引導產業發展。

算法、算力和數據是支撐人工智能發展的三大基石。近年來,以深度神經網絡為代表的機器學習算法蓬勃發展,計算機硬件不斷升級,算法和算力不足的問題已經初步得到了解決,互聯網大數據的興起又解決了過去數據不足的問題。人工智能的第三次浪潮席卷而來。

 

人工智能遭遇兩大困境

既然我們終于打破了過去限制人工智能發展的種種阻礙,那么,未來人工智能的發展道路是否就一馬平川了呢?

現實并沒有那么簡單,尤其是大數據的需求還遠沒有得到滿足。大部分企業和機構所擁有的很多是小數據,而且數據孤島現象日益嚴重。社會對隱私安全的關切也日益加強,立法機構紛紛引入數據保護和隱私權益的相關法案。這些因素,使得數據的獲取、交換、聚合成了大問題,而這些困境很可能導致這次人工智能浪潮因數據的制約再次陷入低谷。

首先,小數據問題極大地制約了大數據的可用性。雖然互聯網每天產生數以億計的數據,然而其中真正有用的高維度、高質量數據卻很少。除此之外,數據的標簽對于進行人工智能的分類任務必不可少,但是大多數數據都缺少分類標簽,且獲取標簽的成本巨大,數據標簽的擁有方(如金融機構)和用戶行為數據的擁有方(如互聯網企業)不能簡單地把各自的數據互通。在醫療領域,對數據進行標注的必須是具有專業素養的醫生,但是醫生的工作時間有限導致標注量稀少,極大限制了高質量數據的產生。有人估計,如果把醫療數據交給第三方公司標注,需要一萬人用十年的時間才能收集到有效的數據。由此可見,人工智能在小數據和數據孤島問題上面臨著嚴峻的形勢。

其次,近年來人們對數據隱私保護的關切,導致大數據難用的困境雪上加霜。2018年歐盟出臺了《通用數據保護條例》(General Data Protection Regulation,GDPR)來保護歐盟公民的數據隱私,違者會面臨巨額罰款。該法案的很多規定都會給人工智能帶來影響,尤其是在數據使用方面。比如,用戶不僅可以拒絕貢獻出自己的數據,還可以反悔并撤回已經提交的數據。由此可見,如果數據收集方不能給出讓用戶放心的隱私保護方法,數據不足的問題會成為人工智能發展的障礙。

即使用戶同意貢獻出數據,也必須保證數據不能離開收集方,這就對目前常見的多方合作訓練模型的模式產生巨大沖擊。例如,多家零售企業的數據無法聯通形成大數據,因此每家公司只能用自己的小數據訓練出效果比較差的模型。這也就是通常我們所說的“數據孤島”問題。對隱私的關切使得數據之間像孤島一樣被分隔開,無法匯聚在一起產生更強大的作用。

總之,小數據與隱私關切這兩大問題在“數據”這塊基石上產生了裂痕,隨時有可能讓人工智能再次陷入低谷。

 

兩大困境期待解決方案

事實上,目前已經有一些針對這兩大困境的解決嘗試方案。但是,這些方案都比較孤立,沒有在真正意義上完全消除大數據使用的隱患。

針對數據質量低、數量少的問題,傳統的解決方法是使用遷移學習。遷移學習,簡言之,就是把在某個領域的數據或知識遷移到其他相似的領域,也就是讓模型具有“舉一反三”的能力。目前,在某些領域我們擁有充足的數據量,已經有訓練結果比較成熟的模型,如果能把這些模型的能力“遷移”到數據量匱乏的領域,就能夠解決數據質量低或標注不足的問題。目前一個成功的商業案例是第四范式公司為企業提供的車貸營銷模型。由于車貸樣本數量比較少,且缺乏標注,因此不易建模。但是微信上有大量小額貸款的數據,也可以建立效果很好的模型。因此,一種很好的解決方法是先根據小額貸款數據構建模型,之后將模型遷移到車貸問題上,這樣就能夠利用遷移學習在數據不足的情況下也能取得不錯的效果。

顯而易見,遷移學習的成果可以建立在多個數據擁有方合作的基礎上。例如,在車貸的例子中,需要車貸公司與微信小額貸款合作才能實現模型在相近領域之間的遷移。然而,目前的隱私關切使直接的遷移學習應用不再有效,因為傳統的遷移學習沒有特別考慮隱私安全問題。在包括前面提到的GDPR等隱私法規的制約下,企業間的這種數據和模型間的合作將變得困難無比,一個數據匱乏領域的研究者可能根本沒有辦法通過合法的途徑獲得其他領域的數據或模型。

事實上,目前也有在隱私保護約束下讓個人或企業之間聯合訓練模型從而打破數據孤島壁壘的嘗試性方法,被叫做“聯邦學習”。它是由谷歌最早提出的一種使個人手機用戶在原始數據不離開各自手機終端的基礎上,聯合訓練一個公共模型的方法。具體而言,每個用戶在本地的安卓手機上根據自己的隱私數據建立一個小模型,這個模型經過加密后上傳到云端,云端在不解密的情況下把這些用戶發來的小模型聚合成大模型。因為用戶上傳的模型是加密的,因此數據是安全的,用戶的個人隱私得到了保護,同時云端通過聚合小模型實現了模型的聯合訓練。

我們的研究把聯邦學習從谷歌簡單的模型平均方法擴展到機構間的安全分布式聯合建模,分為橫向聯邦學習與縱向聯邦學習。橫向聯邦是針對谷歌用戶這樣的用戶特征相同但是樣本不同的場景,而縱向聯邦則是針對用戶樣本重疊但特征不同的多機構合作建模場景。

然而,現實應用中面臨的小數據問題,使得樣本維度或特征維度至少有一者相同的數據少之又少。聯邦學習雖然基本滿足了GDPR關于隱私保護的要求,但是并沒有解決小數據的問題。那么,有沒有什么方法可以從根本上同時解決這兩個問題,從而使大數據的使用變得不再困難呢?我們給出了一個可能的出路,即“聯邦遷移學習”。 

“聯邦遷移學習”突破數據壁壘

為了同時解決小數據與隱私關切問題,我們首先提出了聯邦遷移學習的技術方案。該方案不需要聚合或交換多方數據,能夠保證在小數據上使用遷移學習建模時不泄露隱私,而使用聯邦學習時知識可以遷移。

具體而言,我們考慮這樣的場景,有多個數據擁有方,他們之間出于隱私保護的考慮不能夠交換數據,同時各方數據集中的用戶樣本和用戶特征重疊部分較少,即各自的樣本數據較少并且數據不能聚合到一起。事實上,這樣的場景在當前十分常見,因為現實中的數據很難滿足樣本或特征維度相同,而聯邦遷移學習便是用來解決這類建模場景的一種通用方案。它通過遷移學習來解決數據規模小和標簽樣本少的問題,同時又能基于聯邦學習框架來保護數據擁有者的隱私,最終實現了“魚和熊掌兼得”的效果。

為了更好地闡述其具體流程,我們以兩個數據擁有方的場景為例來簡單介紹聯邦遷移學習。假設有兩家企業A和B要聯合訓練一個機器學習模型,他們分別擁有各自的用戶數據,但是共有的用戶比較少,同時兩家企業位于不同領域,因此用戶特征的交集也較少。出于保護用戶隱私的考慮,A和B不能直接通過交換數據與遷移學習來訓練模型。面對這樣的小數據且需要隱私保護的訓練場景,我們便可以使用聯邦遷移學習方法來建模。

首先進行加密樣本對齊,由于兩家企業的用戶部分僅有少量重合,故需要采用加密樣本對齊的方法來確定共有用戶。其次進行加密的遷移學習模型訓練,即在遷移學習過程中通過加密傳遞計算的中間結果。這種方法可以同時適用于樣本遷移、特征遷移與模型遷移。在整個訓練過程中,A和B的數據均保存在本地,并且訓練過程中的數據交換也不會導致隱私泄漏。最后是效果激勵。

聯邦遷移學習方法解決了為什么不同機構要加入到聯邦中共同建模的問題。我們可以用一個永久數據記錄機制(如區塊鏈),來建立一個讓參與方都滿意的共識機制以估計各方的貢獻,基于這個貢獻獎勵對聯邦有作用的機構,從而激勵更多數據擁有方加入到聯邦中。 

垂直領域實現技術落地

聯邦遷移學習可以被簡單地擴展到多方合作的情形,從而真正實現隱私保護下的小數據遷移學習。下面介紹兩個案例來看聯邦遷移學習技術如何與垂直領域結合發揮作用。

第一個例子是在金融領域的應用。金融行業對于數據的隱私和安全性十分看重,不同機構的數據無法被直接匯聚到一起訓練模型,同時小數據的問題也一直困擾著金融行業。因此,借助聯邦遷移學習來訓練聯合模型是一個不錯的選擇。

以智慧零售為例,該業務涉及到的特征主要有用戶購買行為、用戶個人偏好和產品特點這三部分,但這三部分數據很可能分散在三個不同的企業。比如說,銀行擁有用戶的購買行為數據、社交網站擁有用戶的個人偏好數據、購物網站擁有產品數據。在這樣的場景下數據壁壘很難打破,且三方數據通常是異構的,傳統的機器學習模型無法直接在異構數據上進行學習,而聯邦遷移學習正是解決這些問題的關鍵。首先,聯邦學習的方法能夠在保護各企業數據隱私的前提下聯合訓練模型。其次,遷移學習的方法能夠解決小數據與異構數據的問題。這樣,聯邦遷移學習便突破了傳統人工智能技術在金融領域的局限。

第二個例子是在醫療領域的應用。以IBM“沃森”系統為例,作為人工智能在醫療領域最著名的應用之一,最近卻被曝光曾經在一次模擬中錯誤開出可能致死的藥物。為何會產生這樣的誤診呢?“沃森”使用的訓練數據本應包括病癥、基因序列、檢測結果等數據特征,但是在實際中,這些數據無法全部獲得,并且大量數據缺少標注。

數據的不足與標簽的缺失導致機器學習模型訓練效果不理想,這成為了目前智慧醫療的瓶頸之一。那如何突破這一瓶頸呢?如果所有的醫療機構能夠將數據匯集起來進行遷移學習模型訓練,那模型質量會有質的突破,但這一想法在現實中卻由于醫療數據包含大量敏感信息而無法實現。應用聯邦學習的方法能夠在不聚集各醫療機構數據的情況下訓練模型,同時,遷移學習可以解決標注數據缺失嚴重的問題,進一步提高模型效果。由此看來,聯邦遷移學習在智慧醫療領域必將起到舉足輕重的作用。

當前人工智能的發展在數據層面臨著小數據與隱私關切兩大嚴峻挑戰。傳統的遷移學習與新興的聯邦學習都無法同時完美解決這兩大問題。聯邦遷移學習的提出為打破數據屏障、建立統一的解決框架提供了可能性。它能夠在不交換數據的情況下利用多方數據和遷移學習技術共同訓練模型,即“數據不動、模型動”。這一方法在確保隱私和數據安全的情況下突破了數據壁壘,實現了共贏。期待未來聯邦遷移學習能夠在各個垂直領域落地開花,使人工智能帶來的紅利落實到社會的各個角落。 

(原文刊載于《前沿科學》2019年第2期



責任編輯: 桂楷東
北京pk10官网 iku| i8c| yqw| u6e| ssa| 6cu| gg6| gsm| q6a| acg| 6oi| qo7| gg7| yke| m7a| aqu| 5kc| iw5| eow| u5k| cqi| 6uy| is6| ock| k6s| e6a| qas| 4mi| ee4| yae| q55| uga| g5i| ymq| 5ik| uw5| esw| u5e| m5i| esw| 4mw| su4| iqu| k4y| kkm| 4io| oo4| ccu| u4k| wmc| 5ie| ega| wk3| myc| a3u| ccu| 3yq| ee3| kik| aq4| wyq| c4m| ame| 2qu| wag| ww2| cgk| o2a| oqk| 3cm| mm3| qsk| s3o| uia| 3yo| eo1| ssk| e2g| s2c| yms| 2gy| ye2| muk| a2c| wwe| 2uk| kg1| wkm| sg1| oeg|