通義千問實現(xiàn)“全尺寸、全模態(tài)”開源

陳奇杰2023-12-01 19:12

經(jīng)濟(jì)觀察網(wǎng) 記者 陳奇杰 12月1日,阿里云宣布通義千問720億參數(shù)模型Qwen-72B開源,一同開源的還有18億參數(shù)模型Qwen-1.8B和音頻大模型Qwen-Audio。加上之前開源的70億、140億參數(shù)的2款大語言模型,以及視覺理解模型Qwen-VL,通義千問實現(xiàn)了“全尺寸、全模態(tài)”開源。

“開源生態(tài)對促進(jìn)中國大模型的技術(shù)進(jìn)步與應(yīng)用落地至關(guān)重要,通義千問將持續(xù)投入開源,希望成為‘AI時代最開放的大模型’,與伙伴們共同促進(jìn)大模型生態(tài)建設(shè)。”阿里云CTO周靖人說道。

阿里云方面表示,此前中國大模型市場還沒出現(xiàn)足以對標(biāo)國外Llama 2-70B的優(yōu)質(zhì)開源模型,Qwen-72B抬升了開源大模型的尺寸和性能,是業(yè)界最強開源模型,填補了國內(nèi)空白?;赒wen-72B,大中型企業(yè)可開發(fā)商業(yè)應(yīng)用,高校、科研院所可開展AI for Science等科研工作。

據(jù)周靖人稱,8月以來開源的大模型Qwen-7B(70億參數(shù))、Qwen-14B(140億參數(shù))和視覺理解模型Qwen-VL得到中小企業(yè)和個人開發(fā)者的青睞,累計下載量超過150萬,催生出150多款新模型、新應(yīng)用。

本次開源的Qwen-72B性能更勝一籌,在10個權(quán)威基準(zhǔn)測評中奪得開源模型最優(yōu)成績,在部分測評中超越閉源的GPT-3.5和GPT-4。據(jù)悉,Qwen-72B可以處理最多32k的長文本輸入,在長文本理解測試集LEval上取得了超越ChatGPT-3.5-16k的效果。研發(fā)團(tuán)隊優(yōu)化了Qwen-72B的指令遵循、工具使用等技能,使之能更好地被下游應(yīng)用集成。

用戶可在魔搭社區(qū)直接體驗Qwen系列模型效果,也可通過阿里云靈積平臺調(diào)用模型API(應(yīng)用程序接口),或基于阿里云百煉平臺定制大模型應(yīng)用。阿里云人工智能平臺PAI針對通義千問全系列模型進(jìn)行深度適配,推出了輕量級微調(diào)、全參數(shù)微調(diào)、分布式訓(xùn)練、離線推理驗證、在線服務(wù)部署等服務(wù)。

另外,發(fā)布會上的另一開源模型Qwen-1.8B則“向下探底”,成為中國尺寸最小的開源大模型,推理2K長度文本內(nèi)容僅需3G顯存,可在消費級終端部署。

周靖人還提到,通義千問閉源模型也在持續(xù)進(jìn)化,一個月前發(fā)布的通義千問2.0版閉源模型,最近已進(jìn)階至2.1版,上下文窗口長度擴(kuò)展到32k,代碼理解生成能力、數(shù)學(xué)推理能力、中英文百科知識、幻覺誘導(dǎo)抵抗能力分別提升30%、10%、近5%和14%,用戶可以在通義千問APP免費體驗最新版本的閉源模型。

版權(quán)聲明:以上內(nèi)容為《經(jīng)濟(jì)觀察報》社原創(chuàng)作品,版權(quán)歸《經(jīng)濟(jì)觀察報》社所有。未經(jīng)《經(jīng)濟(jì)觀察報》社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,否則將依法追究相關(guān)行為主體的法律責(zé)任。版權(quán)合作請致電:【010-60910566-1260】。
TMT新聞部記者
長期關(guān)注并報道TMT(科技、游戲等)領(lǐng)域重大事件,擅長人物專訪、行業(yè)分析報道。
郵箱:chenqijie@eeo.com.cn 微信號:Q1191278317

熱新聞

電子刊物

點擊進(jìn)入