經(jīng)濟觀察網(wǎng) 記者 沈怡然 實習(xí)記者 葛璇 3月23日,生命科學(xué)平臺公司百圖生科對外發(fā)布了一款A(yù)IGP平臺,這也是基于其自研的AI大模型“xTrimo”開發(fā)的、能幫助解決生命科學(xué)問題的工具。
百圖生科(BioMap)是中國首家生物計算引擎驅(qū)動的創(chuàng)新藥物研發(fā)平臺,由百度創(chuàng)始人李彥宏于2020年創(chuàng)立。“xTrimo”是一個AI大模型,也是全球首個針對生命科學(xué)領(lǐng)域的多模態(tài)預(yù)訓(xùn)練模型,相當(dāng)于“大腦”。該公司基于“xTrimo”研發(fā)的AIGP平臺,則是一個與用戶交互的窗口,它可以理解基本的生命科學(xué)語言并據(jù)此推理和自主設(shè)計,例如用戶向AIGP輸入蛋白質(zhì)或酶的一些參數(shù)、功能,就能得到一個相應(yīng)的蛋白質(zhì)或酶的設(shè)計方案。
百圖生科CEO劉維表示,與以ChatGPT為代表的自然語言處理AI大模型相比,基于“xTrimo”的AIGP平臺,更像是一個基于生命科學(xué)語言大模型開發(fā)而得的交互界面,它生成的不是文本和語言,而是一個個蛋白質(zhì)、酶、細(xì)胞等的設(shè)計方案,可以提供蛋白質(zhì)結(jié)構(gòu)預(yù)測、DNA序列比對、細(xì)胞代謝分析等。
在沒有AI大模型之前,生命科學(xué)領(lǐng)域的研究者主要通過實驗和觀察等方法開展研究,這需要花費大量時間和精力,且結(jié)果存在不確定性和局限性。劉維表示,如今,基于AI大模型“xTrimo”的AIGP平臺,嘗試為科研人員提供一個生命科學(xué)技術(shù)的基礎(chǔ)版本,讓研究者可以在基礎(chǔ)版本上進(jìn)行創(chuàng)造,節(jié)約了一定的實驗時間和實驗費用。
該公司正試圖將其融入整個醫(yī)藥研發(fā)鏈條上。劉維表示,公司曾幫助國內(nèi)研究者推進(jìn)人工設(shè)計蛋白進(jìn)化的速度,傳統(tǒng)蛋白質(zhì)研究中常用動物篩選實驗法,例如小鼠篩選實驗,一次實驗時間可能需要很多天,而AI在虛擬空間生成一個方案只需要幾個小時,一些常用動物實驗法的生命科學(xué)公司正成為公司的合作伙伴,AI大模型和AIGP平臺可以幫助他們解決一些動物實驗中的時間成本和不可控性。
建立一個AI大模型需要大量的數(shù)據(jù)和參數(shù),這些參數(shù)包括但不限于序列比對、蛋白質(zhì)結(jié)構(gòu)預(yù)測、RNA折疊預(yù)測、化學(xué)計量學(xué)建模等方面。劉維表示,目前大模型參數(shù)已經(jīng)破千億級,還需要使用深度學(xué)習(xí)算法和優(yōu)化技巧來處理這些海量數(shù)據(jù),以提高模型的性能和效率。
為了預(yù)訓(xùn)練大模型,該公司還構(gòu)建了一個大型生命科學(xué)知識圖譜,其中很多數(shù)據(jù)來自于公開數(shù)據(jù)和半公開數(shù)據(jù)的整理,相當(dāng)于一個數(shù)據(jù)集,然后向大模型輸入。大模型研發(fā)的過程,也得益于數(shù)據(jù)、算力、模型本身的充分發(fā)展。劉維表示,訓(xùn)練過程也是很艱難的,需要數(shù)百個GPU來支撐分析過程中所需的巨大算力。
目前,全球范圍內(nèi)的生命科學(xué)領(lǐng)域AI大模型還處于發(fā)展階段。在疾病預(yù)測、基因組學(xué)等方面,DeepMind、IBM Research都建立了自己的AI大模型,一些開源平臺和社區(qū)也在不斷推動該領(lǐng)域的發(fā)展,如TensorFlow-Hub、PaddlePaddle、BioDynaStax等。
劉維表示,國內(nèi)外生物醫(yī)藥產(chǎn)業(yè)存在差距,但隨著技術(shù)的換代,其實有跨越式發(fā)展的機會,國外的生命科學(xué)在過去幾十年圍繞實驗篩選的方法積累了很多的方法,而百圖生科現(xiàn)在做的,其實利用了跨界能力,包括將AI、前沿生物傳感器、高速蛋白打印、合成生物學(xué)新技術(shù)等等新技術(shù)的結(jié)合。此外,研發(fā)大模型和推動AIGP迭代所需資金量很大,公司2023年新一輪融資也在推進(jìn)之中。
京公網(wǎng)安備 11010802028547號