對(duì)話微眾銀行楊強(qiáng)：AI發(fā)展的下一站——聯(lián)邦學(xué)習(xí)

胡群2022-11-15 21:23

經(jīng)濟(jì)觀察網(wǎng) 記者胡群 當(dāng)前，實(shí)體經(jīng)濟(jì)數(shù)字化轉(zhuǎn)型進(jìn)入深水區(qū)，數(shù)據(jù)安全日漸成為關(guān)系國(guó)家安全和發(fā)展、關(guān)系廣大人民群眾切身利益的重要議題。這一議題也是人工智能領(lǐng)域“隱私計(jì)算”的重要研究范疇。以聯(lián)邦學(xué)習(xí)為代表的隱私計(jì)算正在成為解決數(shù)據(jù)安全與開放共享之間矛盾的重要技術(shù)路徑。聯(lián)邦學(xué)習(xí)技術(shù)目前進(jìn)展如何？能否成為推動(dòng)人工智能產(chǎn)業(yè)應(yīng)用深化、數(shù)據(jù)要素流通、數(shù)據(jù)價(jià)值釋放的關(guān)鍵技術(shù)？在金融領(lǐng)域的應(yīng)用進(jìn)展如何？

聯(lián)邦學(xué)習(xí)FATE（FederatedAI Technology Enabler）開源社區(qū)技術(shù)指導(dǎo)委員會(huì)主席、微眾銀行首席人工智能官楊強(qiáng)教授及團(tuán)隊(duì)近年持續(xù)對(duì)聯(lián)邦學(xué)習(xí)的理論進(jìn)行了拓展，提出“可信聯(lián)邦學(xué)習(xí)”概念，并探索解決近年來隱私計(jì)算和聯(lián)邦學(xué)習(xí)發(fā)展和應(yīng)用中面臨的安全、效率、性能三者均衡的問題。近期，他的團(tuán)隊(duì)與上海交通大學(xué)、中山大學(xué)等機(jī)構(gòu)聯(lián)合撰寫的《聯(lián)邦學(xué)習(xí)中隱私與模型性能沒有免費(fèi)午餐定理》《FedCG: 聯(lián)邦條件對(duì)抗生成網(wǎng)絡(luò)》《FedIPR：聯(lián)邦學(xué)習(xí)模型所屬權(quán)驗(yàn)證》多篇論文被IJCAI 2022、TPAMI 2022、ACM TIST國(guó)際人工智能頂級(jí)學(xué)術(shù)期刊和頂級(jí)學(xué)術(shù)會(huì)議收錄發(fā)表。

“微眾銀行已服務(wù)數(shù)以億計(jì)的用戶，這背后離不開金融科技的支持。其中，聯(lián)邦學(xué)習(xí)技術(shù)已探索應(yīng)用于反欺詐、營(yíng)銷、風(fēng)控等很多場(chǎng)景。”11月14日，楊強(qiáng)在接受經(jīng)濟(jì)觀察網(wǎng)記者專訪時(shí)表示，像大數(shù)據(jù)、AI或者區(qū)塊鏈都是技術(shù)名詞，聯(lián)邦學(xué)習(xí)也是這樣一個(gè)技術(shù)名詞，但它的一個(gè)特性是可以讓AI變得更可以實(shí)現(xiàn)落地。

應(yīng)用于提升風(fēng)控能力的潛力

經(jīng)濟(jì)觀察網(wǎng)：聯(lián)邦學(xué)習(xí)在金融領(lǐng)域有哪些應(yīng)用場(chǎng)景？

楊強(qiáng)：我們是聯(lián)邦學(xué)習(xí)的初始探索者之一，也是第一批“吃螃蟹”的人。

聯(lián)邦學(xué)習(xí)的主要目的是讓數(shù)據(jù)可用不可見。在多方合作、匯集多個(gè)數(shù)據(jù)源的前提下，運(yùn)用聯(lián)邦學(xué)習(xí)可以把模型給建好，讓數(shù)據(jù)發(fā)揮價(jià)值，不僅能夠保護(hù)每一個(gè)數(shù)據(jù)源方的隱私和數(shù)據(jù)安全，還在符合《數(shù)據(jù)安全法》等法律法規(guī)和政策的規(guī)范下，促進(jìn)大規(guī)模數(shù)據(jù)要素的流通。

大數(shù)據(jù)和人工智能等技術(shù)已嵌入微眾銀行業(yè)務(wù)的諸多服務(wù)和產(chǎn)品中，聯(lián)邦學(xué)習(xí)已有很多應(yīng)用領(lǐng)域的探索，比如反欺詐和風(fēng)控。

借助聯(lián)邦學(xué)習(xí)技術(shù)，我們可以在保證用戶隱私信息、企業(yè)的數(shù)據(jù)安全以及企業(yè)的數(shù)據(jù)所有權(quán)與控制權(quán)的前提下，融合銀行、電商、運(yùn)營(yíng)商、政務(wù)等多元數(shù)據(jù)，實(shí)現(xiàn)跨行業(yè)、跨機(jī)構(gòu)的反欺詐體系建設(shè)。基于金融行為、消費(fèi)行為、通信行為、社交行為等特征，構(gòu)建針對(duì)不同細(xì)分金融反欺詐業(yè)務(wù)場(chǎng)景的專有模型，通過跨行業(yè)、跨機(jī)構(gòu)的多樣性欺詐數(shù)據(jù)特征互補(bǔ)，從而提升金融行業(yè)的整體反欺詐能力。

在信貸風(fēng)控領(lǐng)域，信審過程需要調(diào)用不同的數(shù)據(jù)接口，因此存在著信貸審核成本高昂的情況；此外，銀行等金融機(jī)構(gòu)在面對(duì)中小微企業(yè)的信貸需求時(shí)，缺乏企業(yè)經(jīng)營(yíng)情況等有效數(shù)據(jù)，難以解決中小微企業(yè)融資難、融資貴、融資慢的難題。

通過應(yīng)用聯(lián)邦學(xué)習(xí)機(jī)制，能夠在確保數(shù)據(jù)提供方數(shù)據(jù)安全以及隱私保護(hù)的前提下，為銀行融匯企業(yè)經(jīng)營(yíng)數(shù)據(jù)、稅務(wù)數(shù)據(jù)、工商數(shù)據(jù)、支付數(shù)據(jù)等多源信息，豐富建模特征體系，共同提升模型的有效性，為解決中小微企業(yè)信貸評(píng)審數(shù)據(jù)稀缺、不全面、歷史信息沉淀不足等問題提供新的思路。此外，采用聯(lián)邦學(xué)習(xí)等隱私計(jì)算技術(shù)還可將風(fēng)險(xiǎn)前置，幫助金融機(jī)構(gòu)過濾信貸黑名單客戶。

安全可靠成首要技術(shù)要求

經(jīng)濟(jì)觀察網(wǎng)：能否介紹下你們團(tuán)隊(duì)最新的科研成果？

楊強(qiáng)：近年來，人工智能（AI）取得了長(zhǎng)足發(fā)展，智能化的人機(jī)協(xié)同成為發(fā)展趨勢(shì)。如果能夠了解AI對(duì)決策的判斷，實(shí)現(xiàn)理解、信任、管理AI的目標(biāo)，人們將更有信心全方位地應(yīng)用AI。

在此背景下，發(fā)展可解釋、可擴(kuò)展、安全可靠的AI顯得至關(guān)重要?？山忉屝跃腿缤t(yī)生需要向病人解釋病因，才能提供可理解的診斷結(jié)果和治療措施。發(fā)展安全可靠的AI的首要任務(wù)，是人類能夠理解AI技術(shù)的基本原理、自動(dòng)決策的機(jī)制，以應(yīng)對(duì)潛在風(fēng)險(xiǎn)及準(zhǔn)備防范措施。在實(shí)際情況中，核心AI算法尤其是深度學(xué)習(xí)算法通常運(yùn)行在類似于“黑盒”中的工作模式，其運(yùn)行結(jié)果需要輔以合理的解釋為人類所理解和信任。

同樣，各國(guó)現(xiàn)行的條例法規(guī)要求人工智能系統(tǒng)必須在監(jiān)管合規(guī)的條件下開發(fā)、運(yùn)行和使用。因此，發(fā)展“可解釋AI”具有重要的理論意義與現(xiàn)實(shí)意義。首先，“可解釋AI”可幫助用戶建立對(duì)AI系統(tǒng)的信任，防止因?yàn)樗惴ǖ暮诤刑匦宰龀鲇衅姷慕Y(jié)論，促進(jìn)算法的公平性；其次，它可以滿足監(jiān)管機(jī)構(gòu)的合規(guī)要求，促進(jìn)AI公平、穩(wěn)健、安全發(fā)展。

基于在金融領(lǐng)域的實(shí)踐，微眾銀行已經(jīng)在智能服務(wù)、智能營(yíng)銷、聯(lián)邦學(xué)習(xí)等方面獲得一系列的探索成果。在聯(lián)邦學(xué)習(xí)領(lǐng)域，根據(jù)清華大學(xué)發(fā)布的《聯(lián)邦學(xué)習(xí)全球研究與應(yīng)用趨勢(shì)報(bào)告（2022）》統(tǒng)計(jì)顯示，全球高被引論文領(lǐng)先的機(jī)構(gòu)依次是谷歌、卡內(nèi)基·梅隆大學(xué)、北京郵電大學(xué)及微眾銀行。從論文發(fā)布及高被引用論文數(shù)量、全球?qū)＠芾砹考伴_源框架熱度等幾個(gè)方面來看，中國(guó)與美國(guó)正在引領(lǐng)全球聯(lián)邦學(xué)習(xí)發(fā)展。

在我們看來，當(dāng)前隱私計(jì)算最大的瓶頸是如何能夠既保證安全，又能夠讓系統(tǒng)能夠運(yùn)行。在《聯(lián)邦學(xué)習(xí)中隱私與模型性能沒有免費(fèi)午餐定理》中，我們提出了隱私與模型性能的“No-free-lunch安全-收益恒定”定律，利用該定律可實(shí)現(xiàn)可信聯(lián)邦學(xué)習(xí)的安全、性能、效率三者的協(xié)調(diào)，在實(shí)現(xiàn)更高質(zhì)量的隱私保護(hù)的同時(shí)，既不犧牲數(shù)據(jù)安全保護(hù)，也不致使模型性能和學(xué)習(xí)效率的大幅下降。有效運(yùn)用該定律能夠量化分析隱私計(jì)算各種技術(shù)保護(hù)方案的優(yōu)劣，進(jìn)一步優(yōu)化隱私保護(hù)算法設(shè)計(jì)。

當(dāng)前手機(jī)等智能終端已可以為用戶提供個(gè)性化服務(wù)，用戶搜索越多，個(gè)性化程度就越高，我們?nèi)绾伪ＷC在本地的搜索數(shù)據(jù)不泄露給服務(wù)器的狀態(tài)下也能得到個(gè)性化服務(wù)？這幾乎是所有人都關(guān)心的問題。這在金融業(yè)務(wù)面臨的問題是，金融機(jī)構(gòu)如何在營(yíng)銷中保證數(shù)據(jù)不出用戶的手機(jī)和服務(wù)器，同時(shí)也能做到精準(zhǔn)營(yíng)銷？論文《FedCG：利用條件生成對(duì)抗網(wǎng)絡(luò)在聯(lián)邦學(xué)習(xí)中保護(hù)隱私并保持模型性能》就給出了答案。FedCG的目的是保護(hù)數(shù)據(jù)隱私，同時(shí)保持有競(jìng)爭(zhēng)力的模型性能。FedCG將每個(gè)客戶的本地網(wǎng)絡(luò)分解為一個(gè)私有特征提取器和一個(gè)公共分類器，并將特征提取器保持在本地以保護(hù)隱私。它與服務(wù)器共享客戶端的生成器，以聚合共享知識(shí)，從而提高客戶端本地分類網(wǎng)絡(luò)的性能。實(shí)驗(yàn)表明，F(xiàn)edCG具有高水平的隱私保護(hù)能力，并且可以實(shí)現(xiàn)有競(jìng)爭(zhēng)力的模型性能。

論文《FedIPR: 聯(lián)邦學(xué)習(xí)模型所屬權(quán)驗(yàn)證》是從算法、協(xié)議、安全等多個(gè)角度出發(fā)，就聯(lián)邦學(xué)習(xí)模型知識(shí)產(chǎn)權(quán)保護(hù)問題，提出了名為“FedIPR”的聯(lián)邦學(xué)習(xí)模型版權(quán)保護(hù)框架。該框架解決了模型所有權(quán)驗(yàn)證在聯(lián)邦學(xué)習(xí)中的兩大挑戰(zhàn)：一、亟需解決多水印沖突問題。特別是對(duì)于基于特征的水印，對(duì)于不同的客戶是否可以有一個(gè)通用的解決方案來嵌入他們的私人指定水印。二、亟需解決性能問題。水印的穩(wěn)健性表明模型水印是否能在聯(lián)邦學(xué)習(xí)模型各種訓(xùn)練策略中適用，以及是否能抵御各種去除水印的攻擊。

經(jīng)濟(jì)觀察網(wǎng)：我們看到近年人工智能的落地情況進(jìn)展并不快，聯(lián)邦學(xué)習(xí)和人工智能是什么關(guān)系？未來聯(lián)邦學(xué)習(xí)的應(yīng)用空間有多大？

楊強(qiáng)：像大數(shù)據(jù)、AI以及區(qū)塊鏈都是技術(shù)名詞，聯(lián)邦學(xué)習(xí)也可以被認(rèn)為是這樣一個(gè)技術(shù)名詞，但是它有一個(gè)特性，可以讓AI變得更加可以被實(shí)現(xiàn)落地。

很多傳統(tǒng)的AI，如AlphaGo或者ImageNet，都是基于一個(gè)中央服務(wù)器上存有所有的數(shù)據(jù)。但在AI落地的時(shí)候，卻遇到了很大的挑戰(zhàn)?，F(xiàn)實(shí)中的數(shù)據(jù)存在千千萬萬個(gè)智能終端上，如服務(wù)器、手機(jī)，大家并不愿意把數(shù)據(jù)貢獻(xiàn)出來、遷移到一個(gè)中央服務(wù)器上，將數(shù)據(jù)加以融合、訓(xùn)練。

聯(lián)邦學(xué)習(xí)就是解決該挑戰(zhàn)的好辦法。它可以為AI打造一個(gè)通路，這樣你既可以訓(xùn)練所要的模型，又可以保護(hù)隱私，不用將原始數(shù)據(jù)運(yùn)到一個(gè)中央服務(wù)器。同理，對(duì)大數(shù)據(jù)的應(yīng)用，也越來越多的在往聯(lián)邦化的方向走。所以我們可以把聯(lián)邦學(xué)習(xí)看作是AI發(fā)展的下一站，也可以看作是大數(shù)據(jù)技術(shù)發(fā)展的下一站。

聯(lián)邦學(xué)習(xí)的市場(chǎng)空間應(yīng)該是很廣泛的，不僅在金融業(yè)，現(xiàn)在已經(jīng)在很多工業(yè)、商業(yè)上廣泛扎根。數(shù)據(jù)是數(shù)字化社會(huì)的血液，如果數(shù)據(jù)不流通，就失去了活性。數(shù)據(jù)流通就會(huì)有交易，需要數(shù)據(jù)確權(quán)，包括確定數(shù)據(jù)是歸屬于誰、產(chǎn)生者是誰、責(zé)任人是誰。數(shù)據(jù)和資金、勞動(dòng)、技術(shù)等要素的重要區(qū)別，就在于其價(jià)值和應(yīng)用背景。

在我個(gè)人看來，未來的計(jì)算一定是數(shù)據(jù)的計(jì)算，在“管道”里跑的不只是數(shù)據(jù)，還可能是模型。未來，整個(gè)人工智能行業(yè)和大數(shù)據(jù)行業(yè)的升級(jí)迭代，都離不開聯(lián)邦學(xué)習(xí)，包括模型的交流、組合、更新迭代、認(rèn)證、審計(jì)等。所以，未來聯(lián)邦學(xué)習(xí)在整個(gè)數(shù)字化生態(tài)中都將起到至關(guān)重要的作用。

版權(quán)聲明：以上內(nèi)容為《經(jīng)濟(jì)觀察報(bào)》社原創(chuàng)作品，版權(quán)歸《經(jīng)濟(jì)觀察報(bào)》社所有。未經(jīng)《經(jīng)濟(jì)觀察報(bào)》社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，否則將依法追究相關(guān)行為主體的法律責(zé)任。版權(quán)合作請(qǐng)致電：【010-60910566-1260】。