楊強(qiáng):打破數(shù)據(jù)孤島穿越人工智能寒冬

胡群2022-12-23 20:36

經(jīng)濟(jì)觀察報(bào) 記者 胡群 隨著5G、物聯(lián)網(wǎng)、云計(jì)算、工業(yè)互聯(lián)網(wǎng)等技術(shù)發(fā)展,數(shù)據(jù)量已然進(jìn)入爆發(fā)增長期,如何在遵守更加嚴(yán)格、新的隱私保護(hù)條例前提下,解決數(shù)據(jù)碎片化和數(shù)據(jù)隔離的問題,是當(dāng)前人工智能研究者和實(shí)踐者面臨的首要挑戰(zhàn)。

“倘若不能很好地解決這個(gè)問題,將會(huì)很可能導(dǎo)致新一輪的人工智能的寒冬。”微眾銀行首席人工智能官楊強(qiáng)稱,在人工智能領(lǐng)域,隱私保護(hù)技術(shù)“聯(lián)邦學(xué)習(xí)”作為一種分布式的機(jī)器學(xué)習(xí)新范式,具有“數(shù)據(jù)不動(dòng)模型動(dòng),數(shù)據(jù)可用不可見”的核心特征,已成為推動(dòng)人工智能產(chǎn)業(yè)應(yīng)用深化、數(shù)據(jù)要素流通、數(shù)據(jù)價(jià)值釋放的關(guān)鍵技術(shù)。

楊強(qiáng)還是香港科技大學(xué)計(jì)算機(jī)與工程系講座教授和前系主任,AAAI-2021大會(huì)主席,國際人工智能聯(lián)合會(huì)(IJCAI)理事會(huì)前主席,香港人工智能與機(jī)器人學(xué)會(huì)(HKSAIR)理事長,智能投研技術(shù)聯(lián)盟(ITL)、開放群島(OI)開源社區(qū)、聯(lián)邦學(xué)習(xí)FATE開源社區(qū)主席,華為諾亞方舟實(shí)驗(yàn)室首任主任。他于2013年7月當(dāng)選為國際人工智能協(xié)會(huì)(AAAI)院士,是第一位獲此殊榮的華人,之后又于2016年5月當(dāng)選為AAAI執(zhí)行委員會(huì)委員,是首位AAAI華人執(zhí)委。2017年8月他當(dāng)選為國際人工智能聯(lián)合會(huì)(ICAI,國際人工智能領(lǐng)域創(chuàng)立最早的頂級(jí)國際會(huì)議)理事會(huì)主席,是第一位擔(dān)任ICAI理事會(huì)主席的華人科學(xué)家。

楊強(qiáng)所在的微眾銀行是國內(nèi)首家提出“聯(lián)邦學(xué)習(xí)”解決數(shù)據(jù)孤島與數(shù)據(jù)隱私保護(hù)難題的機(jī)構(gòu),聯(lián)邦學(xué)習(xí)為人工智能落地中數(shù)據(jù)孤島與數(shù)據(jù)隱私保護(hù)難題提供了通用解決方案。

從實(shí)驗(yàn)室中走向工業(yè)化

楊強(qiáng)擅長機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域,是該方向的領(lǐng)軍人物。2012年,楊強(qiáng)將主要精力轉(zhuǎn)向大數(shù)據(jù)的產(chǎn)業(yè)化,與華為公司聯(lián)合組建諾亞方舟實(shí)驗(yàn)室,并擔(dān)任首席主任。

“人工智能有一個(gè)特點(diǎn),就是離不開實(shí)際的應(yīng)用場(chǎng)景。剛開始我一直在學(xué)校研究人工智能,再逐漸接觸到華為、微眾等企業(yè)。后來我逐漸感覺到,人工智能在特定的場(chǎng)景中仍遇到一些挑戰(zhàn)。2018年時(shí)我已在微眾銀行擔(dān)任獨(dú)立董事,接觸了很多微眾的金融場(chǎng)景,感觸特別深的是微眾需要很多模型來支持各種金融方面的操作。這個(gè)場(chǎng)景剛好適合我,就選擇了來到微眾。”楊強(qiáng)稱,機(jī)器學(xué)習(xí)的技術(shù)本身已經(jīng)很成熟,只不過是從實(shí)驗(yàn)室中走向工業(yè)化。而聯(lián)邦學(xué)習(xí)則是從零開始,全球都沒有成功案例。

回溯最初,谷歌在2016年發(fā)表的論文中提出了聯(lián)邦學(xué)習(xí)概念,從此聯(lián)邦學(xué)習(xí)成為人工智能社區(qū)里一個(gè)非?;钴S的研究領(lǐng)域。楊強(qiáng)團(tuán)隊(duì)在2018年提出系統(tǒng)化的聯(lián)邦學(xué)習(xí)理論,2019年發(fā)布了FATE開源系統(tǒng),2020年出版了首本聯(lián)邦學(xué)習(xí)中英文專著《聯(lián)邦學(xué)習(xí)》。經(jīng)過多年的探索,目前微眾銀行新一代的聯(lián)邦學(xué)習(xí)在理念和實(shí)踐上已走在了全球前列。

早在2018年之前,人工智能已在很多領(lǐng)域開展應(yīng)用,但訓(xùn)練人工智能應(yīng)用模型所需要的數(shù)據(jù)量非常龐大。在很多領(lǐng)域中,人們發(fā)現(xiàn)滿足這樣規(guī)模的數(shù)據(jù)量是難以甚至無法達(dá)到的。尤為重要的是,人們對(duì)用戶隱私和數(shù)據(jù)安全的關(guān)注度也在不斷提高。用戶開始更加關(guān)注他們的隱私信息是否未經(jīng)自己許可,便被他人出于商業(yè)或其他目的而利用,甚至濫用。在此趨勢(shì)下,包括中國在內(nèi)的全球多地政府相繼出臺(tái)數(shù)據(jù)保護(hù)法律和法規(guī),使得數(shù)據(jù)孤島效應(yīng)進(jìn)一步顯現(xiàn)。“在這樣的法律環(huán)境下,收集和分享不同組織間的數(shù)據(jù)將會(huì)變得越來越困難。更加重要的是,某些高度敏感的數(shù)據(jù)(例如,金融交易數(shù)據(jù)和醫(yī)療健康數(shù)據(jù)等)的擁有者也會(huì)極力反對(duì)無限制地計(jì)算和使用這些數(shù)據(jù)。在這種情況下,數(shù)據(jù)擁有者只允許數(shù)據(jù)保存在自己手中,進(jìn)而會(huì)形成各自孤立的數(shù)據(jù)孤島。”楊強(qiáng)稱,如何在更加嚴(yán)格的、新的隱私保護(hù)條例的前提下,解決數(shù)據(jù)碎片化和數(shù)據(jù)隔離的問題,是當(dāng)前人工智能研究者和實(shí)踐者面臨的首要挑戰(zhàn)。倘若不能很好解決這個(gè)問題,將會(huì)很可能導(dǎo)致新一輪的人工智能的寒冬。

聯(lián)邦學(xué)習(xí)“奠基者”

“我們把聯(lián)邦學(xué)習(xí)到今天的發(fā)展分為1.0階段和2.0階段。1.0階段是從2018年開始的。”楊強(qiáng)稱,按照數(shù)據(jù)集合維度相似性構(gòu)成的特點(diǎn),業(yè)界普遍將聯(lián)邦學(xué)習(xí)分為橫向聯(lián)邦學(xué)習(xí)、縱向聯(lián)邦學(xué)習(xí)。目前大部分手機(jī)等終端應(yīng)用公司在使用橫向聯(lián)邦學(xué)習(xí),而在其他領(lǐng)域,大概是70%-80%的應(yīng)用,是使用由微眾銀行發(fā)展出來的縱向聯(lián)邦學(xué)習(xí)。2019年發(fā)表的一篇縱向聯(lián)邦學(xué)習(xí)概述論文,目前已有超過3000個(gè)引用,這在學(xué)術(shù)界是非常驚人的。

2022年12月14日,中國移動(dòng)發(fā)布的《中國移動(dòng)隱私計(jì)算應(yīng)用白皮書2.0》顯示,縱向聯(lián)邦學(xué)習(xí)適用于各個(gè)參與方有大量的重疊樣本,但其特征空間不同的情形。典型的案例是跨行業(yè)、跨機(jī)構(gòu)的數(shù)據(jù)聯(lián)合建模,如同一地區(qū)的銀行和電信運(yùn)營商,其用戶重疊度高,數(shù)據(jù)維度差異大,通過縱向聯(lián)邦學(xué)習(xí)可以在保護(hù)數(shù)據(jù)隱私的條件下構(gòu)建滿足各種需求的模型。

當(dāng)有著相同特征的樣本分布于不同的參與方時(shí),在能夠?qū)崿F(xiàn)綜合運(yùn)用各方數(shù)據(jù)的同時(shí),保證各方數(shù)據(jù)隱私的算法稱為橫向聯(lián)邦學(xué)習(xí)。橫向聯(lián)邦學(xué)習(xí)的目的是要利用分布于各方的同構(gòu)數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)建模,其典型應(yīng)用場(chǎng)景包括醫(yī)療數(shù)據(jù)建模、業(yè)務(wù)相似的同行業(yè)、不同用戶的數(shù)據(jù)聯(lián)合建模等。“現(xiàn)在聯(lián)邦學(xué)習(xí)已經(jīng)發(fā)展到2.0階段。2.0階段和1.0階段的重大區(qū)別就是可信聯(lián)邦學(xué)習(xí)。其本質(zhì)是能夠滿足用戶和監(jiān)管等各方面需求的分布式機(jī)器學(xué)習(xí)范式??尚怕?lián)邦學(xué)習(xí)將助推隱私計(jì)算應(yīng)用在各種場(chǎng)景上,降低隱私計(jì)算的成本,提升隱私計(jì)算應(yīng)用質(zhì)量,從而加速推動(dòng)隱私計(jì)算行業(yè)的發(fā)展。在2022年初我們發(fā)表了一篇論文叫做《聯(lián)邦學(xué)習(xí)中隱私與模型性能沒有免費(fèi)午餐定理》,就論證了隱私保護(hù)、模型性能、算法效率三者需要平衡,且可以平衡。”楊強(qiáng)稱。

2022年,微眾銀行與上海交通大學(xué)、中山大學(xué)等機(jī)構(gòu)聯(lián)合撰寫的《聯(lián)邦學(xué)習(xí)中隱私與模型性能沒有免費(fèi)午餐定理》《FedCG:聯(lián)邦條件對(duì)抗生成網(wǎng)絡(luò)》《FedIPR:聯(lián)邦學(xué)習(xí)模型所屬權(quán)驗(yàn)證》多篇論文被IJCAI2022、TPAMI2022、ACMTIST國際人工智能頂級(jí)學(xué)術(shù)期刊和頂級(jí)學(xué)術(shù)會(huì)議收錄發(fā)表。

其中,《聯(lián)邦學(xué)習(xí)中隱私與模型性能沒有免費(fèi)午餐定理》提出了隱私與模型性能的“No-free-lunch安全-收益恒定”定律,首次從信息論的角度分析揭示了聯(lián)邦學(xué)習(xí)的模型效用與隱私保護(hù)之間的內(nèi)在約束關(guān)系,利用該定律可實(shí)現(xiàn)可信聯(lián)邦學(xué)習(xí)的安全、效用、效率三者的協(xié)調(diào),在保證數(shù)據(jù)隱私保護(hù)的同時(shí),也最大化模型效用和學(xué)習(xí)效率。有效運(yùn)用該定律能夠量化分析隱私計(jì)算各種技術(shù)保護(hù)方案的優(yōu)劣,進(jìn)一步優(yōu)化隱私保護(hù)算法設(shè)計(jì),為設(shè)計(jì)可信聯(lián)邦學(xué)習(xí)算法提供有效的指導(dǎo)。

據(jù)清華大學(xué)發(fā)布的《聯(lián)邦學(xué)習(xí)全球研究與應(yīng)用趨勢(shì)報(bào)告(2022)》統(tǒng)計(jì),在論文研究方面,全球高被引論文領(lǐng)先的機(jī)構(gòu)依次是谷歌、卡內(nèi)基·梅隆大學(xué)、北京郵電大學(xué)及微眾銀行。從論文發(fā)布及高被引用論文數(shù)量、全球?qū)@芾砹考伴_源框架熱度等幾個(gè)方面來看,中國與美國正在引領(lǐng)全球聯(lián)邦學(xué)習(xí)發(fā)展。“微眾銀行在聯(lián)邦學(xué)習(xí)領(lǐng)域處于全球領(lǐng)先地位。”楊強(qiáng)稱,從論文、專利、場(chǎng)景應(yīng)用和生態(tài)發(fā)展等多維度來比較,微眾銀行已成為聯(lián)邦學(xué)習(xí)領(lǐng)域的領(lǐng)頭羊,但他更希望看到多個(gè)領(lǐng)頭羊的出現(xiàn)。多個(gè)企業(yè)和機(jī)構(gòu)都在探索和實(shí)踐聯(lián)邦學(xué)習(xí)是非常好的現(xiàn)象,對(duì)于促進(jìn)行業(yè)生態(tài)的發(fā)展有著至關(guān)重要的意義。

而在應(yīng)用方面,基于在金融領(lǐng)域的實(shí)踐,微眾銀行的聯(lián)邦學(xué)習(xí)已在聯(lián)合風(fēng)控、聯(lián)合營銷、反洗錢和反欺詐以及醫(yī)療領(lǐng)域獲得一系列的探索成果。全球知識(shí)產(chǎn)權(quán)綜合信息服務(wù)提供商IPRdaily與incoPat創(chuàng)新指數(shù)研究中心聯(lián)合發(fā)布的“全球隱私計(jì)算技術(shù)發(fā)明專利排行榜(TOP100)”顯示,入榜前10名企業(yè)主要來自中國和美國,其中,微眾銀行以204件專利位列排行榜第八名,在所有入選榜單的銀行當(dāng)中,微眾銀行名列全球第一。

構(gòu)建聯(lián)邦學(xué)習(xí)生態(tài)

“數(shù)據(jù)基礎(chǔ)制度建設(shè)事關(guān)國家發(fā)展和安全大局。”12月19日發(fā)布的《中共中央 國務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》強(qiáng)調(diào),完善治理體系,保障安全發(fā)展。統(tǒng)籌發(fā)展和安全,貫徹總體國家安全觀,強(qiáng)化數(shù)據(jù)安全保障體系建設(shè),把安全貫穿數(shù)據(jù)供給、流通、使用全過程,劃定監(jiān)管底線和紅線。加強(qiáng)數(shù)據(jù)分類分級(jí)管理,把該管的管住、該放的放開,積極有效防范和化解各種數(shù)據(jù)風(fēng)險(xiǎn),形成政府監(jiān)管與市場(chǎng)自律、法治與行業(yè)自治協(xié)同、國內(nèi)與國際統(tǒng)籌的數(shù)據(jù)要素治理結(jié)構(gòu)。“數(shù)字安全技術(shù)標(biāo)準(zhǔn)與國際規(guī)則的制定,已經(jīng)成為了大國角逐的新戰(zhàn)場(chǎng)。”楊強(qiáng)表示,數(shù)據(jù)流通的關(guān)鍵是價(jià)值流通,數(shù)據(jù)流通的目的是價(jià)值釋放。安全、可信的數(shù)據(jù)跨境流通體系頂層設(shè)計(jì)過程,不僅包括數(shù)據(jù)安全和隱私計(jì)算技術(shù)的不斷發(fā)展,還包括持續(xù)推進(jìn)跨境數(shù)據(jù)審計(jì)和確權(quán)制度的完善,并構(gòu)建完整的跨境數(shù)據(jù)價(jià)值交易平臺(tái),從而讓數(shù)據(jù)在不出境、不可見的情況下,仍能達(dá)到價(jià)值流通與價(jià)值釋放的根本目的。隱私計(jì)算、區(qū)塊鏈等新興技術(shù)賦能多樣化場(chǎng)景,是實(shí)現(xiàn)數(shù)據(jù)跨境可信流通的主要方法。

為推動(dòng)安全隱私技術(shù)蓬勃發(fā)展,微眾銀行早在2019年,將其自研的全球第一個(gè)聯(lián)邦學(xué)習(xí)工業(yè)級(jí)開源框架Fed-eratedAITechnologyEnabler(FATE)捐贈(zèng)給了Linux基金會(huì),并持續(xù)豐富和補(bǔ)充聯(lián)邦學(xué)習(xí)開源產(chǎn)品版圖,擴(kuò)大以FATE開源生態(tài)為核心的聯(lián)邦學(xué)習(xí)生態(tài)。截至目前,F(xiàn)ATE開源社區(qū)吸納了電信運(yùn)營商、金融機(jī)構(gòu)、大型互聯(lián)網(wǎng)與科技企業(yè)在內(nèi)的多家成員單位,包括工商銀行、中國銀聯(lián)、微眾銀行、中國電信、中國聯(lián)通、中國銀行、中銀金科、建信金科、光大科技、易方達(dá)基金、騰訊云、美團(tuán)、第四范式、VMware、星云Clus-tar、亞信科技、綠盟科技、醫(yī)渡云等。“如果隱私計(jì)算和聯(lián)邦學(xué)習(xí)技術(shù)只是掌握在少數(shù)機(jī)構(gòu)的手里,數(shù)據(jù)還是得不到真正的流通,也難以大力支持?jǐn)?shù)字經(jīng)濟(jì)發(fā)展,因此必須把門檻降低,其中一個(gè)有效手段就是開源,讓人人都能夠使用這樣的技術(shù),人人都能在實(shí)踐中為技術(shù)做出貢獻(xiàn)。”楊強(qiáng)說。

2022年4月,楊強(qiáng)又有了一個(gè)新身份——開放群島(OpenIslands)開源社區(qū)執(zhí)行主席。開放群島 (OpenIs-lands)是由深圳數(shù)據(jù)交易有限公司聯(lián)合國家智庫、國家單位、高校、大型金融機(jī)構(gòu)、大型互聯(lián)網(wǎng)公司等多家發(fā)起單位牽頭成立的國內(nèi)首個(gè)國際化自主可控隱私計(jì)算開源社區(qū)。“聯(lián)邦學(xué)習(xí)和傳統(tǒng)的計(jì)算技術(shù)的區(qū)別,就是它不僅僅是一方變好就可以了。一方很有很強(qiáng)的技術(shù)、很強(qiáng)的人才,在聯(lián)邦學(xué)習(xí)的場(chǎng)景下還不夠,這只是其中的50%。另50%是構(gòu)建一個(gè)網(wǎng)絡(luò),構(gòu)建一個(gè)聯(lián)邦學(xué)習(xí)的生態(tài),所以就涉及到兩方或者多方。目前已經(jīng)有很多非常令人振奮的信號(hào),比如各地?cái)?shù)據(jù)交易所的掛牌等。”楊強(qiáng)最后稱,隨著大量應(yīng)用案例落地以及執(zhí)法、立法機(jī)構(gòu)的加入,聯(lián)邦學(xué)習(xí)正迎來蓬勃發(fā)展的新機(jī)遇,隨著數(shù)據(jù)規(guī)模、技術(shù)復(fù)雜度、應(yīng)用場(chǎng)景等豐富,進(jìn)而進(jìn)一步打破數(shù)據(jù)孤島,并為更多行業(yè)創(chuàng)造更高價(jià)值。

版權(quán)聲明:以上內(nèi)容為《經(jīng)濟(jì)觀察報(bào)》社原創(chuàng)作品,版權(quán)歸《經(jīng)濟(jì)觀察報(bào)》社所有。未經(jīng)《經(jīng)濟(jì)觀察報(bào)》社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,否則將依法追究相關(guān)行為主體的法律責(zé)任。版權(quán)合作請(qǐng)致電:【010-60910566-1260】。
金融市場(chǎng)研究院主任
主要關(guān)注銀行、信托、fintech領(lǐng)域市場(chǎng)動(dòng)態(tài)。

熱新聞