通義千問實現(xiàn)“全尺寸、全模態(tài)”開源

陳奇杰2023-12-01 19:12

經(jīng)濟(jì)觀察網(wǎng) 記者陳奇杰 12月1日，阿里云宣布通義千問720億參數(shù)模型Qwen-72B開源，一同開源的還有18億參數(shù)模型Qwen-1.8B和音頻大模型Qwen-Audio。加上之前開源的70億、140億參數(shù)的2款大語言模型，以及視覺理解模型Qwen-VL，通義千問實現(xiàn)了“全尺寸、全模態(tài)”開源。

“開源生態(tài)對促進(jìn)中國大模型的技術(shù)進(jìn)步與應(yīng)用落地至關(guān)重要，通義千問將持續(xù)投入開源，希望成為‘AI時代最開放的大模型’，與伙伴們共同促進(jìn)大模型生態(tài)建設(shè)。”阿里云CTO周靖人說道。

阿里云方面表示，此前中國大模型市場還沒出現(xiàn)足以對標(biāo)國外Llama 2-70B的優(yōu)質(zhì)開源模型，Qwen-72B抬升了開源大模型的尺寸和性能，是業(yè)界最強開源模型，填補了國內(nèi)空白?；赒wen-72B，大中型企業(yè)可開發(fā)商業(yè)應(yīng)用，高校、科研院所可開展AI for Science等科研工作。

據(jù)周靖人稱，8月以來開源的大模型Qwen-7B（70億參數(shù)）、Qwen-14B（140億參數(shù)）和視覺理解模型Qwen-VL得到中小企業(yè)和個人開發(fā)者的青睞，累計下載量超過150萬，催生出150多款新模型、新應(yīng)用。

本次開源的Qwen-72B性能更勝一籌，在10個權(quán)威基準(zhǔn)測評中奪得開源模型最優(yōu)成績，在部分測評中超越閉源的GPT-3.5和GPT-4。據(jù)悉，Qwen-72B可以處理最多32k的長文本輸入，在長文本理解測試集LEval上取得了超越ChatGPT-3.5-16k的效果。研發(fā)團(tuán)隊優(yōu)化了Qwen-72B的指令遵循、工具使用等技能，使之能更好地被下游應(yīng)用集成。

用戶可在魔搭社區(qū)直接體驗Qwen系列模型效果，也可通過阿里云靈積平臺調(diào)用模型API（應(yīng)用程序接口），或基于阿里云百煉平臺定制大模型應(yīng)用。阿里云人工智能平臺PAI針對通義千問全系列模型進(jìn)行深度適配，推出了輕量級微調(diào)、全參數(shù)微調(diào)、分布式訓(xùn)練、離線推理驗證、在線服務(wù)部署等服務(wù)。

另外，發(fā)布會上的另一開源模型Qwen-1.8B則“向下探底”，成為中國尺寸最小的開源大模型，推理2K長度文本內(nèi)容僅需3G顯存，可在消費級終端部署。

周靖人還提到，通義千問閉源模型也在持續(xù)進(jìn)化，一個月前發(fā)布的通義千問2.0版閉源模型，最近已進(jìn)階至2.1版，上下文窗口長度擴(kuò)展到32k，代碼理解生成能力、數(shù)學(xué)推理能力、中英文百科知識、幻覺誘導(dǎo)抵抗能力分別提升30%、10%、近5%和14%，用戶可以在通義千問APP免費體驗最新版本的閉源模型。

版權(quán)聲明：以上內(nèi)容為《經(jīng)濟(jì)觀察報》社原創(chuàng)作品，版權(quán)歸《經(jīng)濟(jì)觀察報》社所有。未經(jīng)《經(jīng)濟(jì)觀察報》社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，否則將依法追究相關(guān)行為主體的法律責(zé)任。版權(quán)合作請致電：【010-60910566-1260】。