計算醫(yī)學(xué)是如何讓“虛擬小人”吃“電子藥”的?

季敬杰2024-05-27 07:56

病史、疾病影像、藥物反應(yīng)、生物標志物、基因組學(xué)數(shù)據(jù)……現(xiàn)代醫(yī)學(xué)診療和研究正在生產(chǎn)海量的數(shù)據(jù)?,F(xiàn)在,隨著大數(shù)據(jù)、人工智能等技術(shù)的發(fā)展,科學(xué)家們能夠在這些數(shù)據(jù)的基礎(chǔ)上建立更為精致的數(shù)學(xué)模型,揭示人體、疾病和藥物之間的復(fù)雜關(guān)系。

這一領(lǐng)域被稱為“計算醫(yī)學(xué)”(Computational Medicine),是一門橫跨數(shù)學(xué)、計算機、生物學(xué)、醫(yī)學(xué)等多個領(lǐng)域的交叉學(xué)科。

計算醫(yī)學(xué)的出現(xiàn)是為了應(yīng)對生物系統(tǒng)的復(fù)雜性問題。以基因為例,人類23條染色體上約有2.5萬基因,它們就像一個個“開關(guān)”,決定了人體的生物性狀。然而,這些基因“開關(guān)”相互聯(lián)接,互相影響,形成了一個復(fù)雜的非線性網(wǎng)絡(luò)。在這個網(wǎng)絡(luò)中,“牽一發(fā)而動全身”,在認識某些復(fù)雜疾病時,人們很難將某個性狀完全歸因到特定基因上去。

擁有了機器學(xué)習(xí)等大數(shù)據(jù)建模技術(shù)之后,人們就能建立具備數(shù)以億計參數(shù)的復(fù)雜數(shù)學(xué)模型,去模擬同樣復(fù)雜的生物系統(tǒng),重現(xiàn)和預(yù)測各種各樣的生物過程,實現(xiàn)人體的“數(shù)字孿生”。

通過這些模型,計算醫(yī)學(xué)可以幫助人們理解疾病與人體的關(guān)系,找出潛在的疾病靶點,幫助科學(xué)家們開發(fā)藥物。

除此之外,科學(xué)家們還能夠在這些模型中預(yù)測不同患者對藥物的反應(yīng),幫助制定更加精準的醫(yī)療方案,調(diào)整臨床試驗計劃,甚至被人們期待降低傳統(tǒng)臨床試驗的風(fēng)險,利用模型來預(yù)測藥物安全性和有效性,減少依靠大規(guī)模入組患者人群的高成本試錯。

“喂虛擬小人吃電子藥?!眻D靈-達爾文實驗室副主任、哲源科技聯(lián)合創(chuàng)始人趙宇常常如是描述計算醫(yī)學(xué)的工作。趙宇是中國計算醫(yī)學(xué)的發(fā)起與倡導(dǎo)者之一,致力于以該技術(shù)體系推動創(chuàng)新藥物研發(fā)。

“虛擬小人”究竟是如何吃“電子藥”的?計算醫(yī)學(xué)與AIDD(人工智能輔助藥物設(shè)計)有何區(qū)別?與時下大火的生成式人工智能(AIGC)又有什么關(guān)系?為了回答這些問題,2024年5月21日,在上海舉辦的國際生物技術(shù)與醫(yī)藥研討會上,澎湃科技對趙宇進行了專訪。

【對話】

澎湃科技:你說的“虛擬小人”還好理解,“電子藥”是如何進行模擬的?

趙宇(圖靈-達爾文實驗室副主任、哲源科技聯(lián)合創(chuàng)始人):每一個藥物都有作用靶點(指生物體內(nèi)能夠被藥物分子識別和結(jié)合的結(jié)構(gòu),如蛋白質(zhì)、核酸和離子通道等)。我們所謂“電子藥”,不是去模擬化合物本身,而是藥物發(fā)生效應(yīng)的機制,這些機制再抽象回來就是靶點信息。

從另一個角度可以這么理解,比如說我們在臨床上經(jīng)常會有一些人對藥物無反應(yīng),有的人會是積極反應(yīng)。把這兩個人群放在一起,從底層信號通路層面去比對,其中的差異就是藥物的實現(xiàn)機制。所以“電子藥”實際上是通過(藥效-機制)映射關(guān)系比對出來的。

澎湃科技:以Alphafold為代表的AIDD技術(shù)主要用于藥物分子的預(yù)測與開發(fā),它與計算醫(yī)學(xué)有何區(qū)別?你似乎把計算醫(yī)學(xué)置于比AIDD和CADD(計算機輔助藥物設(shè)計)更加重要的位置,為什么?

趙宇:廣義上來說,AIDD、CADD通過大數(shù)據(jù)、人工智能等技術(shù)對藥物分子和作用機制進行建模,幫助發(fā)現(xiàn)新的藥用化合物,這也屬于計算醫(yī)學(xué)的一部分。但更強調(diào)的是計算醫(yī)學(xué)作為認知生命的新技術(shù)體系,在對于疾病機制方面的發(fā)現(xiàn)作用,在計算醫(yī)學(xué)的AI+疾病工作,更加注重疾病和靶點之間的聯(lián)系,而AIDD、CADD等計算化學(xué)工作則關(guān)注靶點和分子之間的聯(lián)系。

我常說我們這個行業(yè)其實不需要那么多分子。在之前的“以分子為中心”模式中,我們常常是建立了一大堆分子,它們能干什么我們并不知道,缺乏對于生物學(xué)機制的理解,然后依靠臨床醫(yī)學(xué)科學(xué)家一個個上臨床去試。我們應(yīng)該反過來,在理解疾病的情況下,探索疾病的靶點在哪兒,在細胞內(nèi)還是細胞膜上,再回答需要大分子還是小分子,再進行藥物實驗。建立“以疾病為中心”的藥物研發(fā)邏輯,這才是底層邏輯,是第一性原理,分子發(fā)現(xiàn)應(yīng)當建立其上。

因此,對于研發(fā)新藥物而言,疾病和靶點之間的聯(lián)系更為重要。一個可成藥的靶點,為它作出一個專利的分子并不是太難的事,目前這一領(lǐng)域在國內(nèi)發(fā)展的非??臁6剿骷膊?yīng)的靶點,在全球來講都是很困難的工作,一個靶點就是一個千億級的產(chǎn)業(yè)。

澎湃科技:計算醫(yī)學(xué)與生成式人工智能有何聯(lián)系?

趙宇:計算醫(yī)學(xué)也是大模型,是專業(yè)領(lǐng)域的專有模型。生成式人工智能,現(xiàn)在更多是指語言大模型,遠不是人工智能的終極形態(tài),要知道人類超過八成的知識不能被語言描述。語言大模型還處于大模型的初級階段,如同第三次工業(yè)革命開始時的網(wǎng)上聊天軟件。未來一定會在各自領(lǐng)域出現(xiàn)垂直類大模型。

語言模型有大量的語言數(shù)據(jù)用于訓(xùn)練,基于統(tǒng)計學(xué)及概率分布而建立。在生物醫(yī)藥領(lǐng)域,我們沒有那么多數(shù)據(jù),人類疾病數(shù)據(jù)天生就是“小數(shù)據(jù)”。有限的數(shù)據(jù)一經(jīng)分層,每層數(shù)據(jù)非常少,很難通過語言大模型那樣的方式去“暴力”計算出來。那么計算醫(yī)學(xué)要認知疾病,就要回到第一性原理,基于信息論,尋找每個人的根本性差異。

生成式人工智能模型應(yīng)該向AI for Science方向上去努力。語言模型已經(jīng)為我們展現(xiàn)了一個非常好的前景,那么,如果我們能結(jié)合數(shù)據(jù),例如單細胞數(shù)據(jù)或真實的患者數(shù)據(jù),再利用這些數(shù)據(jù),我們就可以用生成式模型來建立全新的“AI for Science”。

澎湃科技:基因組學(xué)數(shù)據(jù)是探索疾病機制的主要基石。我們知道在傳統(tǒng)的基因-疾病關(guān)系的探索中,科學(xué)家們會通過動物或人體模型,對相關(guān)的基因變量進行控制和對比。請問計算醫(yī)學(xué)能代替這部分工作嗎?

趙宇:中國科學(xué)院院士、復(fù)旦大學(xué)校長金力教授說,基因之外皆為表型。而之前大家的研究一直是“從基因型到表型”,或者是“從表型到表型”,建立了相關(guān)性,但無法建立因果,所以不能說取代,但是能用更優(yōu)化的,或者說更接近生命的本質(zhì)——穿透到DNA層面去理解這件事。

在臨床中,人們都希望將疾病表型與病因建立聯(lián)系。而在計算醫(yī)學(xué)中,我們希望從底層接觸到這些聯(lián)系,在這個意義上,基因數(shù)據(jù)就是最穩(wěn)定的輸入。因為它比較穩(wěn)定,因此在我們的工作中,其它類型的中間層數(shù)據(jù)并沒有全部用到,我們只是構(gòu)建好了它們與底層基因數(shù)據(jù)之間的關(guān)系。

澎湃科技:你提到計算醫(yī)學(xué)能夠幫助對真實世界中的臨床試驗作出調(diào)整,甚至在未來能夠取代一部分臨床試驗?;谝阎獢?shù)據(jù)和統(tǒng)計學(xué)的疾病數(shù)學(xué)模型在什么意義上能夠預(yù)測未知的藥效和安全風(fēng)險?它的優(yōu)勢和局限性在哪里?

趙宇:這個問題比較大。知識模型會出現(xiàn)的“幻覺”問題(含有貌似事實的虛假或誤導(dǎo)性資訊)為例,單純依靠數(shù)據(jù)建立模型,就可能會產(chǎn)生過擬合,都產(chǎn)生錯誤的預(yù)測。

清華大學(xué)人工智能研究院院長、中國科學(xué)院院士張鈸教授提出,第三代人工智能的發(fā)展路徑是融合第一代的知識驅(qū)動和第二代的數(shù)據(jù)驅(qū)動的人工智能。計算醫(yī)學(xué)采用知識與數(shù)據(jù)雙驅(qū)動的人工智能來處理這個問題?;糜X問題,我們用真實世界的數(shù)據(jù)去修正;數(shù)據(jù)出現(xiàn)過擬合,我們通過建立的醫(yī)學(xué)生物知識去校準。通過這種方式,我們才在底層數(shù)據(jù)邏輯上重新建構(gòu)生命機制。

為此,我們自主開發(fā)了專門用來理解生命科學(xué)知識的垂直領(lǐng)域模型——“超腦”?,F(xiàn)代生物醫(yī)療的知識不斷細分,都是一個個“山頭”,可能在某一個領(lǐng)域研究已經(jīng)很成熟的東西,在其它領(lǐng)域大家還在孜孜以求。而當我們把它們放到一起,通過知識推理和演繹,就會產(chǎn)生新的知識,這也是李國杰院士所講的“從知識產(chǎn)生知識”。

最大的優(yōu)勢也是于此,我們不依賴人類已有的認知而產(chǎn)生大量新的發(fā)現(xiàn)。如果說有局限的話,就是深度交叉學(xué)科下,鄰域知識很難理解,出現(xiàn)“顛覆性技術(shù)請被顛覆者評價”的現(xiàn)象。

澎湃科技:從上世紀90年代開始,計算醫(yī)學(xué)就在西方開始發(fā)展,就近年來的論文數(shù)量來看,美國在該領(lǐng)域處于相當領(lǐng)先的地位,在很多大學(xué)也專門開設(shè)有計算醫(yī)學(xué)專業(yè)。能否介紹一下目前國內(nèi)的教學(xué)和研究狀況?

趙宇:國內(nèi)計算化學(xué)、計算生物學(xué)這些都已經(jīng)有了,但還沒有計算醫(yī)學(xué)這個學(xué)科。2020年,我們在國內(nèi)重新定義計算醫(yī)學(xué)的維度,因為面臨一個新的學(xué)科設(shè)置。

到現(xiàn)在為止,其實國內(nèi)還沒有這方面的教學(xué),甚至對它的定義還是比較窄的。未來各行各業(yè)都要擁抱數(shù)字化,計算醫(yī)學(xué)是在最正確的趨勢(數(shù)字化)下最正確的賽道(生命科學(xué)),“晚革命不如早革命”,大家還是應(yīng)當盡早地去理解學(xué)習(xí)。但我們也發(fā)現(xiàn),這個行業(yè)的人才極其稀有,需要既懂IT,又懂BT(Biological Technology,生物技術(shù))。

IT和BT團隊的人在一起簡直要“打架”。IT的人對沒有組織邊界的東西非常焦慮,而BT背景的人講的都是一個邏輯、一個故事,穿起一個想象的東西。因此需要一個“總師”級別的人,能站在多個背景的角度看問題,將問題拆解并分配給各個專業(yè)的人。

計算醫(yī)學(xué)到底需要什么樣的人才?前不久我們在一篇文章中探討了這個問題,列出了高性能計算、生物信息學(xué)、基因組學(xué)、遺傳學(xué)等廿幾個學(xué)科。但凡深入其中一個領(lǐng)域,再對其它有所涉獵,我們認為都是人才。我們希望大家能認識到人才培養(yǎng)中跨學(xué)科發(fā)展的重要性。

我經(jīng)常說,當一個生物專家有數(shù)學(xué)思維,那么計算醫(yī)學(xué)就能得到推進。

來源:澎湃新聞

作者:季敬杰

版權(quán)與免責(zé):以上作品(包括文、圖、音視頻)版權(quán)歸發(fā)布者【季敬杰】所有。本App為發(fā)布者提供信息發(fā)布平臺服務(wù),不代表經(jīng)觀的觀點和構(gòu)成投資等建議

熱新聞

電子刊物

點擊進入