斯坦福AI團隊承認抄襲國產(chǎn)大模型開源“套殼”是與非再掀熱議

張洋洋2024-06-04 22:13

近日，國內(nèi)AI創(chuàng)業(yè)公司面壁智能的大模型被美國斯坦福大學(xué)AI團隊套殼抄襲的事件在網(wǎng)絡(luò)引起熱議。

事情的最新的進度是，斯坦福Llama3-V團隊的兩位作者Siddharth Sharma和Aksh Garg在社交平臺上就抄襲行為向面壁智能團隊正式道歉，并表示會將Llama3-V模型悉數(shù)撤下。相似內(nèi)容的道歉信，已于幾小時前被作者發(fā)出一次，但被迅速刪除。

現(xiàn)在，該斯坦福團隊成員已刪除他們在社交媒體上官宣模型的推文，并將該項目在Github和HuggingFace上的庫一并刪除。

事件起因是，斯坦福大學(xué)AI研究團隊于5月29日發(fā)布了一個名為Llama3V的模型，該研究聲稱只要500美元就能訓(xùn)練出一個SOTA多模態(tài)模型，效果比肩GPT-4V、Gemini Ultra與Claude Opus。

因該研究團隊3名作者擁有斯坦福大學(xué)、特斯拉、SpaceX的名校和大廠背景，Llama3V模型一經(jīng)發(fā)布就引發(fā)了諸多關(guān)注。

但隨后有網(wǎng)友發(fā)現(xiàn)，Llama3V與中國AI創(chuàng)業(yè)企業(yè)面壁智能在5月中旬發(fā)布的8B多模態(tài)開源小模型MiniCPM-Llama3-V 2.59（面壁小鋼炮）高度重合，前者只是進行了一些重新格式化，并把圖像切片、分詞器、重采樣器等變量重命名。

6月2日深夜，面壁智能團隊證實，斯坦福大模型項目Llama3-V與MiniCPM一樣，可以識別出“清華簡”戰(zhàn)國古文字，“不僅對得一模一樣、連錯得都一模一樣”。這一古文字?jǐn)?shù)據(jù)為研究團隊花費數(shù)月從清華簡上逐字掃描并人工標(biāo)注得來，并未對外公開，證實抄襲事實。

面壁智能CEO李大海在朋友圈發(fā)聲，表示對這件事深表遺憾：“技術(shù)創(chuàng)新不易，每一項工作都是團隊夜以繼日的奮斗結(jié)果”“希望團隊的好工作被更多人關(guān)注與認可，但不是以這種方式”。

面壁智能聯(lián)合創(chuàng)始人、首席科學(xué)家劉知遠也在朋友圈發(fā)表了一篇真誠懇切且意味深長的回應(yīng)。

他表示Llama3-V團隊未能遵守開源協(xié)議對前人成果尊重和致敬，嚴(yán)重破壞了開源共享的基石。但他也提到，三位作者還很年輕，有兩位僅是斯坦福大學(xué)的本科生，未來還有很長的路要走，“如果知錯能改，善莫大焉”。

除了抄襲本身這個學(xué)術(shù)不端的行為之外，本次事件還引發(fā)熱議的點在于，AI行業(yè)一直存在部分國內(nèi)大模型套殼國外開源大模型的刻板印象。在業(yè)內(nèi)，關(guān)于大模型“套殼”的爭議，也由來已久。

批評者認為“套殼”掩蓋了原創(chuàng)性缺失，對開源模型簡單調(diào)整，而非實質(zhì)創(chuàng)新；支持者則認為，基于成熟開源架構(gòu)進行定制化改進是技術(shù)發(fā)展的常態(tài)，類似于在iOS、Android基礎(chǔ)上開發(fā)App。

實際上，當(dāng)今絕大多數(shù)大模型均基于谷歌大腦團隊在2017年推出的Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu)，及其隨后衍生出的三種變體。從大模型的發(fā)展軌跡觀察，現(xiàn)今模型的構(gòu)建無不在“借鑒”Transformer及其變體架構(gòu)的基礎(chǔ)上展開。

關(guān)于“套殼”的界定，國內(nèi)一名AI上市公司大模型架構(gòu)師《科創(chuàng)板日報》記者解釋稱，在參考其他模型架構(gòu)時，開發(fā)者會在原有基礎(chǔ)上進行重要創(chuàng)新，比如采用新的數(shù)據(jù)處理方法、提升算法效率等。同時，開發(fā)者會公開說明自己的改動是基于哪個開源模型，并闡述所做的創(chuàng)新和改進，這符合開源社區(qū)的規(guī)則和理念。然而，如果改動只停留在表面，沒有帶來新的技術(shù)洞察或?qū)嵸|(zhì)的性能提升，那么這種改動就可能被看作是簡單的套殼。

在利用開源進行“套殼”成常態(tài)的行業(yè)背景下，對于后來者的模型或者公司而言，究竟什么才是核心競爭力？

前述大模型架構(gòu)師認為，核心還是有充足的算力和高質(zhì)量的數(shù)據(jù)。其中，數(shù)據(jù)質(zhì)量決定模型好壞，要得到高質(zhì)量的數(shù)據(jù)，關(guān)鍵在于處理和標(biāo)注，現(xiàn)在大模型廠商的數(shù)據(jù)來源基本相同，但處理后的質(zhì)量差別很大。此外，在模型和算法方面也還有很多提升和創(chuàng)新的空間，足夠的人才儲備和持續(xù)投入，才能有持久競爭力。

來源：財聯(lián)社作者：張洋洋

版權(quán)與免責(zé)：以上作品（包括文、圖、音視頻）版權(quán)歸發(fā)布者【張洋洋】所有。本App為發(fā)布者提供信息發(fā)布平臺服務(wù)，不代表經(jīng)觀的觀點和構(gòu)成投資等建議