斯坦福AI團隊承認抄襲國產(chǎn)大模型 開源“套殼”是與非再掀熱議

張洋洋2024-06-04 22:13

近日,國內(nèi)AI創(chuàng)業(yè)公司面壁智能的大模型被美國斯坦福大學(xué)AI團隊套殼抄襲的事件在網(wǎng)絡(luò)引起熱議。

事情的最新的進度是,斯坦福Llama3-V團隊的兩位作者Siddharth Sharma和Aksh Garg在社交平臺上就抄襲行為向面壁智能團隊正式道歉,并表示會將Llama3-V模型悉數(shù)撤下。相似內(nèi)容的道歉信,已于幾小時前被作者發(fā)出一次,但被迅速刪除。

image

現(xiàn)在,該斯坦福團隊成員已刪除他們在社交媒體上官宣模型的推文,并將該項目在Github和HuggingFace上的庫一并刪除。

事件起因是,斯坦福大學(xué)AI研究團隊于5月29日發(fā)布了一個名為Llama3V的模型,該研究聲稱只要500美元就能訓(xùn)練出一個SOTA多模態(tài)模型,效果比肩GPT-4V、Gemini Ultra與Claude Opus。

因該研究團隊3名作者擁有斯坦福大學(xué)、特斯拉、SpaceX的名校和大廠背景,Llama3V模型一經(jīng)發(fā)布就引發(fā)了諸多關(guān)注。

但隨后有網(wǎng)友發(fā)現(xiàn),Llama3V與中國AI創(chuàng)業(yè)企業(yè)面壁智能在5月中旬發(fā)布的8B多模態(tài)開源小模型MiniCPM-Llama3-V 2.59(面壁小鋼炮)高度重合,前者只是進行了一些重新格式化,并把圖像切片、分詞器、重采樣器等變量重命名。

6月2日深夜,面壁智能團隊證實,斯坦福大模型項目Llama3-V與MiniCPM一樣,可以識別出“清華簡”戰(zhàn)國古文字,“不僅對得一模一樣、連錯得都一模一樣”。這一古文字?jǐn)?shù)據(jù)為研究團隊花費數(shù)月從清華簡上逐字掃描并人工標(biāo)注得來,并未對外公開,證實抄襲事實。

面壁智能CEO李大海在朋友圈發(fā)聲,表示對這件事深表遺憾:“技術(shù)創(chuàng)新不易,每一項工作都是團隊夜以繼日的奮斗結(jié)果”“希望團隊的好工作被更多人關(guān)注與認可,但不是以這種方式”。

image

面壁智能聯(lián)合創(chuàng)始人、首席科學(xué)家劉知遠也在朋友圈發(fā)表了一篇真誠懇切且意味深長的回應(yīng)。

他表示Llama3-V團隊未能遵守開源協(xié)議對前人成果尊重和致敬,嚴(yán)重破壞了開源共享的基石。但他也提到,三位作者還很年輕,有兩位僅是斯坦福大學(xué)的本科生,未來還有很長的路要走,“如果知錯能改,善莫大焉”。

image

除了抄襲本身這個學(xué)術(shù)不端的行為之外,本次事件還引發(fā)熱議的點在于,AI行業(yè)一直存在部分國內(nèi)大模型套殼國外開源大模型的刻板印象。在業(yè)內(nèi),關(guān)于大模型“套殼”的爭議,也由來已久。

批評者認為“套殼”掩蓋了原創(chuàng)性缺失,對開源模型簡單調(diào)整,而非實質(zhì)創(chuàng)新;支持者則認為,基于成熟開源架構(gòu)進行定制化改進是技術(shù)發(fā)展的常態(tài),類似于在iOS、Android基礎(chǔ)上開發(fā)App。

實際上,當(dāng)今絕大多數(shù)大模型均基于谷歌大腦團隊在2017年推出的Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu),及其隨后衍生出的三種變體。從大模型的發(fā)展軌跡觀察,現(xiàn)今模型的構(gòu)建無不在“借鑒”Transformer及其變體架構(gòu)的基礎(chǔ)上展開。

關(guān)于“套殼”的界定,國內(nèi)一名AI上市公司大模型架構(gòu)師《科創(chuàng)板日報》記者解釋稱,在參考其他模型架構(gòu)時,開發(fā)者會在原有基礎(chǔ)上進行重要創(chuàng)新,比如采用新的數(shù)據(jù)處理方法、提升算法效率等。同時,開發(fā)者會公開說明自己的改動是基于哪個開源模型,并闡述所做的創(chuàng)新和改進,這符合開源社區(qū)的規(guī)則和理念。然而,如果改動只停留在表面,沒有帶來新的技術(shù)洞察或?qū)嵸|(zhì)的性能提升,那么這種改動就可能被看作是簡單的套殼。

在利用開源進行“套殼”成常態(tài)的行業(yè)背景下,對于后來者的模型或者公司而言,究竟什么才是核心競爭力?

前述大模型架構(gòu)師認為,核心還是有充足的算力和高質(zhì)量的數(shù)據(jù)。其中,數(shù)據(jù)質(zhì)量決定模型好壞,要得到高質(zhì)量的數(shù)據(jù),關(guān)鍵在于處理和標(biāo)注,現(xiàn)在大模型廠商的數(shù)據(jù)來源基本相同,但處理后的質(zhì)量差別很大。此外,在模型和算法方面也還有很多提升和創(chuàng)新的空間,足夠的人才儲備和持續(xù)投入,才能有持久競爭力。


來源:財聯(lián)社 作者:張洋洋

版權(quán)與免責(zé):以上作品(包括文、圖、音視頻)版權(quán)歸發(fā)布者【張洋洋】所有。本App為發(fā)布者提供信息發(fā)布平臺服務(wù),不代表經(jīng)觀的觀點和構(gòu)成投資等建議

熱新聞

電子刊物

點擊進入