聯(lián)邦學(xué)習(xí)如何以野馬之姿,打破 AI 數(shù)據(jù)困局
2021-03-04 18:18:40
關(guān)注AI技術(shù)的人們想必都知道,聯(lián)邦學(xué)習(xí)(FederatedLearning)技術(shù)最早是由谷歌在2017年公開發(fā)布,一經(jīng)提出就被業(yè)內(nèi)寄予厚望。
由于面臨著數(shù)據(jù)孤島和數(shù)據(jù)隱私保護等問題,AI產(chǎn)業(yè)落地進程面臨著嚴(yán)重的數(shù)據(jù)困局。聯(lián)邦學(xué)習(xí)技術(shù)正是為了應(yīng)對這一問題而被提出,現(xiàn)在已成為新一代人工智能最重要的技術(shù)范式之一。
在聯(lián)邦學(xué)習(xí)出現(xiàn)并快速發(fā)展的三年多時間里,國內(nèi)外諸多科技巨頭都已經(jīng)開展聯(lián)邦學(xué)習(xí)的深入研究與應(yīng)用。值得注意的是,在聯(lián)邦學(xué)習(xí)技術(shù)的研究和推廣上,我國的科技企業(yè)與研究機構(gòu)不再是處于跟隨狀態(tài),而是處于和國外科技巨頭并駕齊驅(qū)的水平。其中一些頭部企業(yè)正在積極參與到聯(lián)邦學(xué)習(xí)的技術(shù)標(biāo)準(zhǔn)制定,以及產(chǎn)業(yè)應(yīng)用落地的實踐當(dāng)中。
聯(lián)邦學(xué)習(xí)為何如此重要?在最近兩年當(dāng)中,聯(lián)邦學(xué)習(xí)又是如何在眾多國內(nèi)科技巨頭的支持和推動下,實現(xiàn)迅速發(fā)展和應(yīng)用落地的?這成為很多人非常關(guān)心的問題。
打破AI數(shù)據(jù)困局,聯(lián)邦學(xué)習(xí)的野馬之姿
聯(lián)邦學(xué)習(xí),谷歌這一技術(shù)設(shè)想,主要回應(yīng)的問題是如何有效利用用戶終端上的數(shù)據(jù)進行AI模型訓(xùn)練,而又不侵犯用戶的數(shù)據(jù)隱私。
工程師們的解決方式是用戶數(shù)據(jù)只需在本地終端進行訓(xùn)練,云端服務(wù)器只要獲取訓(xùn)練后的訓(xùn)練模型(權(quán)重)即可,也就是搭建一個大型的分布式神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練框架,從而讓用戶數(shù)據(jù)不離本地,同時也能獲得很好的AI服務(wù)體驗。
聯(lián)邦學(xué)習(xí)的出現(xiàn),讓每個用戶都可能成為AI發(fā)展的貢獻者,同時又啟發(fā)了企業(yè)之間跨越AI落地的數(shù)據(jù)鴻溝的一種嶄新方式。
所謂的“數(shù)據(jù)鴻溝”,主要是我們常聽到的“數(shù)據(jù)孤島”。一方面是企業(yè)逐利的本性,必然使其不愿拿出自身的數(shù)據(jù)與其他公司交換,導(dǎo)致少數(shù)幾家巨頭壟斷大量數(shù)據(jù)而小企業(yè)無數(shù)據(jù)可用的馬太效應(yīng);另一方面是全球各國對數(shù)據(jù)隱私保護的監(jiān)管越發(fā)嚴(yán)格,企業(yè)在用戶數(shù)據(jù)使用和共享上面更要考慮合規(guī)合法的應(yīng)用,因而進一步加劇了數(shù)據(jù)孤島效應(yīng)。
在這一數(shù)據(jù)鴻溝的制約下,眾多行業(yè)和企業(yè)會因為沒有高質(zhì)量、大規(guī)模的數(shù)據(jù)支撐而無法得到更好的訓(xùn)練模型。特別是對于一些專業(yè)性強的細(xì)分領(lǐng)域,如金融、風(fēng)控、法律以及醫(yī)療等領(lǐng)域,由于各家的數(shù)據(jù)無法打通,自身的數(shù)據(jù)量又有限,會極大地限制其AI技術(shù)的發(fā)展。
既能保護數(shù)據(jù)不共享以保護用戶隱私,同時又能在云端更新和共享通用模型,這正是聯(lián)邦學(xué)習(xí)技術(shù)所能實現(xiàn)“兩全其美”的策略。聯(lián)邦學(xué)習(xí)在從C端應(yīng)用向B端產(chǎn)業(yè)應(yīng)用演進中,形成了更為通用的解決方案:一、橫向聯(lián)邦學(xué)習(xí),即樣本中用戶不同,特征相同,谷歌的方法即是這種;二、縱向聯(lián)邦學(xué)習(xí),即樣本中用戶相同,特征不同,適用于擁有同一批用戶的不同企業(yè);三、遷移聯(lián)邦學(xué)習(xí),即樣本中用戶、特征都可能不同,這樣可以通過數(shù)據(jù)的升維或降維,從而進行另外數(shù)據(jù)子空間的遷移學(xué)習(xí)。
這樣,聯(lián)邦學(xué)習(xí)作為一種更加泛化的機器學(xué)習(xí)方式,就可以把更多像金融、保險、醫(yī)療、安防、教育等行業(yè)機構(gòu)作為數(shù)據(jù)主體來進行AI的模型應(yīng)用場景了。而在聯(lián)邦學(xué)習(xí)技術(shù)的深化和擴展當(dāng)中,我國的多家科技企業(yè)發(fā)揮了重要的作用。
百舸爭流,聯(lián)邦學(xué)習(xí)在中國的成績單
作為聯(lián)邦學(xué)習(xí)技術(shù)的深度參與方,國內(nèi)企業(yè)不僅參與了聯(lián)邦學(xué)習(xí)的技術(shù)研發(fā)和應(yīng)用,同樣還參與了聯(lián)邦學(xué)習(xí)的標(biāo)準(zhǔn)制定以及貢獻了多個開源模型框架。
首先,我國的多家企業(yè)組織和參與了聯(lián)邦學(xué)習(xí)基礎(chǔ)架構(gòu)與應(yīng)用規(guī)范標(biāo)準(zhǔn)的制定。去年,聯(lián)邦學(xué)習(xí)基礎(chǔ)架構(gòu)與應(yīng)用(IEEEP3652.1)標(biāo)準(zhǔn)工作組兩次會議先后在深圳、洛杉磯召開,國內(nèi)眾多企業(yè)對聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)草案的制定提出建設(shè)性意見,并預(yù)計在今年出臺這一草案。
業(yè)內(nèi)人士評價,聯(lián)邦學(xué)習(xí)技術(shù)正是在全球知名人工智能專家楊強教授和其團隊主導(dǎo)參與的IEEE聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)制定委員會的推動下,才成為備受產(chǎn)學(xué)研各界關(guān)注的人工智能的研究領(lǐng)域。
其次,國內(nèi)多家企業(yè)也都紛紛推出了可以進行產(chǎn)業(yè)落地應(yīng)用的開源框架。
比如,騰訊發(fā)起的微眾銀行早在2018年就基于聯(lián)邦學(xué)習(xí)理論研究進行相關(guān)開源軟件研發(fā),在2019年初,正式開源全球首個工業(yè)級聯(lián)邦學(xué)習(xí)框架FATE(FederatedLearningEnabler),其實現(xiàn)了基于同態(tài)加密和多方計算的安全計算協(xié)議,在信貸風(fēng)控、客戶權(quán)益定價、監(jiān)管科技等領(lǐng)域推出了相應(yīng)的商用方案。
去年,百度在PaddlePaddle2.0開放平臺中,也增加了PaddleFL聯(lián)合學(xué)習(xí)框架,PaddleFL主要是面向深度學(xué)習(xí)進行設(shè)計,提供了眾多在計算機視覺、自然語言處理、推薦算法等領(lǐng)域的聯(lián)邦學(xué)習(xí)策略及應(yīng)用場景。同樣,平安科技在其提出的聯(lián)邦智能體系的基礎(chǔ)上,自主研發(fā)了蜂巢聯(lián)邦學(xué)習(xí)平臺,主要應(yīng)用于多方信息的安全協(xié)作計算,滿足銀行和金融機構(gòu)的風(fēng)險評估、反洗錢、投顧、投研、信貸、保險和監(jiān)管等多場景應(yīng)用需求。
同樣,基于聯(lián)邦學(xué)習(xí)理論的多方安全計算技術(shù),騰訊云開發(fā)出“騰訊云數(shù)盾”來滿足數(shù)據(jù)安全治理的多重需求。阿里巴巴也早在2015年就開始了與聯(lián)邦學(xué)習(xí)思路相同的共享學(xué)習(xí)技術(shù)的研究,在各方通過共享加密數(shù)據(jù)或加密機制下的參數(shù)交換方式來進行機器學(xué)習(xí),建立虛擬的共享模型的產(chǎn)品平臺。
此外,華為、京東、聯(lián)想以及國內(nèi)多家創(chuàng)業(yè)企業(yè)都已在聯(lián)邦學(xué)習(xí)的生態(tài)發(fā)展中貢獻進行著各種不同細(xì)分領(lǐng)域的實踐創(chuàng)新。
這些國內(nèi)科技企業(yè)之所以紛紛投入到聯(lián)邦學(xué)習(xí)技術(shù)的研發(fā)和推廣,正是看到其在用戶數(shù)據(jù)隱私保護與AI技術(shù)創(chuàng)新上面實現(xiàn)的完美平衡,以及帶來的眾多產(chǎn)業(yè)的AI應(yīng)用落地的機會。
推動AI產(chǎn)業(yè)落地,聯(lián)邦學(xué)習(xí)的中國實踐
根據(jù)聯(lián)邦學(xué)習(xí)的技術(shù)特點以及參與企業(yè)的當(dāng)前的研發(fā)重點,金融領(lǐng)域成為聯(lián)邦學(xué)習(xí)最先進行應(yīng)用落地的主要場景。其中在金融業(yè)務(wù)的眾多環(huán)節(jié)中,信貸風(fēng)控可謂是典型的聯(lián)邦學(xué)習(xí)的應(yīng)用落地場景。
基于聯(lián)邦學(xué)習(xí)的信貸風(fēng)控,微眾銀行提出了“同態(tài)加密中間變量”的解決方案,也就是保證原始數(shù)據(jù)不出庫的情況下,使用經(jīng)過梯度交換得到的中間變量來進行風(fēng)控模型的建模,從而降低使用中心化機器學(xué)習(xí)帶來的系統(tǒng)性隱私風(fēng)險。
通過聯(lián)邦學(xué)習(xí)實現(xiàn)的信貸風(fēng)控的用戶數(shù)據(jù)網(wǎng)絡(luò)增強,就可以在貸款前更好地判斷客戶風(fēng)險,幫助信貸公司過濾信貸黑名單或明顯沒有轉(zhuǎn)化的貸款客戶,進一步降低貸款審批流程后期的信審成本;同時在貸款中實現(xiàn)用戶放款后行為的動態(tài)評估以輔助授信額度的調(diào)整,在貸款后期幫助放貸機構(gòu)進行催收的策略評估,調(diào)整催收策略,提升催收效率。
在醫(yī)療健康行業(yè),同樣也長期面臨著“數(shù)據(jù)孤島”的問題,從而制約著醫(yī)療AI的發(fā)展。
基于患者數(shù)據(jù)隱私保護的要求和各家醫(yī)療機構(gòu)數(shù)據(jù)無法互聯(lián)互通且標(biāo)準(zhǔn)不一的問題,聯(lián)邦學(xué)習(xí)可以很好地避開醫(yī)療機構(gòu)之間的信息壁壘,不再需要將各家數(shù)據(jù)做集中合并,而是通過協(xié)議在其間傳遞加密之后的信息,而各個醫(yī)療機構(gòu)通過使用這些加密的信息更新模型參數(shù),從而實現(xiàn)在不暴露原始數(shù)據(jù)的條件下使用全部患者數(shù)據(jù)的訓(xùn)練過程。
日前,騰訊的天衍實驗室和微眾銀行正是利用這一聯(lián)邦學(xué)習(xí)的方式成功構(gòu)建了一個“腦卒中發(fā)病風(fēng)險預(yù)測模型”,既能利用兩家醫(yī)院的加密后的共同的患者樣本進行特征建模訓(xùn)練,又能很好地保護各自的數(shù)據(jù)隱私,最終比兩家醫(yī)院各自獨立訓(xùn)練的模型效果準(zhǔn)確率有了大幅的提升。
在安防監(jiān)控行業(yè),AI安防系統(tǒng)也同樣由于數(shù)據(jù)隱私保護的監(jiān)管要求和各家安防廠商之間各自為戰(zhàn)的狀況而難以獲得很好的發(fā)展。假如有多個廠商使用聯(lián)邦學(xué)習(xí)來訓(xùn)練和優(yōu)化AI算法模型,就可以讓每家企業(yè)在自己的服務(wù)器上進行訓(xùn)練,只需加密上傳訓(xùn)練模型到后臺,進行模型優(yōu)化后,再反饋給各個廠商改進后的模型方案。
除了金融、醫(yī)療和安防行業(yè)的應(yīng)用外,聯(lián)邦學(xué)習(xí)正在深入到其他行業(yè)當(dāng)中。未來包括像金融、醫(yī)療、保險、安防、教育、零售、工業(yè)以及智慧城市等各個行業(yè)和場景,都可以依賴聯(lián)邦學(xué)習(xí)技術(shù)實現(xiàn)行業(yè)AI能力的提升,從而實現(xiàn)降本增效的運營目標(biāo)。
總體而言,對于國內(nèi)這些聯(lián)邦學(xué)習(xí)的積極推動者和踐行者的科技企業(yè)們而言,聯(lián)邦學(xué)習(xí)到底意味著什么?
首先,去年5月我國網(wǎng)信辦出臺了《數(shù)據(jù)安全管理辦法(征求意見稿)》這一被稱為“中國版GDPR”的法規(guī),標(biāo)志著我國數(shù)據(jù)規(guī)范使用的時代已經(jīng)到來。面對越來越嚴(yán)格的數(shù)據(jù)安全的監(jiān)管要求以及日益嚴(yán)峻的用戶數(shù)據(jù)隱私保護的風(fēng)險,國內(nèi)這些科技企業(yè)必須將數(shù)據(jù)的合規(guī)合法的使用當(dāng)作日常運營的關(guān)鍵要務(wù)來看待。
數(shù)據(jù)安全的嚴(yán)格限制無疑會帶來企業(yè)在AI技術(shù)應(yīng)用上面的挑戰(zhàn),聯(lián)邦學(xué)習(xí)技術(shù)正是應(yīng)對這一監(jiān)管挑戰(zhàn)和行業(yè)競爭限制而提出的解決方案,自然得到了科技企業(yè)的大力推崇。
其次,對于那些科技巨頭而言,聯(lián)邦學(xué)習(xí)技術(shù)不僅能直接解決企業(yè)內(nèi)部的“數(shù)據(jù)孤島”問題,也可以使其在所要涉及的行業(yè)內(nèi)建立起數(shù)據(jù)共享的合作生態(tài)。只有搶占先機,推出自己的聯(lián)邦學(xué)習(xí)的開源架構(gòu),才能吸引更多的行業(yè)伙伴加入到這一聯(lián)邦學(xué)習(xí)的生態(tài)當(dāng)中。
另外,對于那些創(chuàng)業(yè)企業(yè)或行業(yè)客戶而言,既沒有豐富的數(shù)據(jù)資源,也沒有充足的資源投入到AI系統(tǒng)的建設(shè)上,通過加入聯(lián)邦學(xué)習(xí)的生態(tài),借助巨頭的平臺和大數(shù)據(jù)資源,進行自身AI模型的優(yōu)化,大幅降低企業(yè)智能化升級成本,成為一件非常劃算和可行的選擇。
近兩年,我們經(jīng)常會聽到“普惠AI”這一概念。普惠AI的愿景肯定不會只是一兩家AI巨頭就能實現(xiàn)的,而是更需要各行各業(yè)的企業(yè)、組織和個人一同參與,來為AI的技術(shù)升級與落地貢獻源源不斷的數(shù)據(jù)資源。
在AI的持續(xù)演進和數(shù)據(jù)隱私安全保護的交織下,聯(lián)邦學(xué)習(xí)正在搭建一座機構(gòu)與用戶、機構(gòu)與機構(gòu)之間數(shù)據(jù)信任、共享普惠AI成果的橋梁。而這座聯(lián)邦學(xué)習(xí)生態(tài)之橋的建設(shè),國內(nèi)的技術(shù)建造者和各行業(yè)的參與者還有很多的工作要做。