計算醫(yī)學(xué)是如何讓“虛擬小人”吃“電子藥”的？

季敬杰2024-05-27 07:56

病史、疾病影像、藥物反應(yīng)、生物標志物、基因組學(xué)數(shù)據(jù)……現(xiàn)代醫(yī)學(xué)診療和研究正在生產(chǎn)海量的數(shù)據(jù)?，F(xiàn)在，隨著大數(shù)據(jù)、人工智能等技術(shù)的發(fā)展，科學(xué)家們能夠在這些數(shù)據(jù)的基礎(chǔ)上建立更為精致的數(shù)學(xué)模型，揭示人體、疾病和藥物之間的復(fù)雜關(guān)系。

這一領(lǐng)域被稱為“計算醫(yī)學(xué)”（Computational Medicine），是一門橫跨數(shù)學(xué)、計算機、生物學(xué)、醫(yī)學(xué)等多個領(lǐng)域的交叉學(xué)科。

計算醫(yī)學(xué)的出現(xiàn)是為了應(yīng)對生物系統(tǒng)的復(fù)雜性問題。以基因為例，人類23條染色體上約有2.5萬基因，它們就像一個個“開關(guān)”，決定了人體的生物性狀。然而，這些基因“開關(guān)”相互聯(lián)接，互相影響，形成了一個復(fù)雜的非線性網(wǎng)絡(luò)。在這個網(wǎng)絡(luò)中，“牽一發(fā)而動全身”，在認識某些復(fù)雜疾病時，人們很難將某個性狀完全歸因到特定基因上去。

擁有了機器學(xué)習(xí)等大數(shù)據(jù)建模技術(shù)之后，人們就能建立具備數(shù)以億計參數(shù)的復(fù)雜數(shù)學(xué)模型，去模擬同樣復(fù)雜的生物系統(tǒng)，重現(xiàn)和預(yù)測各種各樣的生物過程，實現(xiàn)人體的“數(shù)字孿生”。

通過這些模型，計算醫(yī)學(xué)可以幫助人們理解疾病與人體的關(guān)系，找出潛在的疾病靶點，幫助科學(xué)家們開發(fā)藥物。

除此之外，科學(xué)家們還能夠在這些模型中預(yù)測不同患者對藥物的反應(yīng)，幫助制定更加精準的醫(yī)療方案，調(diào)整臨床試驗計劃，甚至被人們期待降低傳統(tǒng)臨床試驗的風(fēng)險，利用模型來預(yù)測藥物安全性和有效性，減少依靠大規(guī)模入組患者人群的高成本試錯。

“喂虛擬小人吃電子藥?！眻D靈-達爾文實驗室副主任、哲源科技聯(lián)合創(chuàng)始人趙宇常常如是描述計算醫(yī)學(xué)的工作。趙宇是中國計算醫(yī)學(xué)的發(fā)起與倡導(dǎo)者之一，致力于以該技術(shù)體系推動創(chuàng)新藥物研發(fā)。

“虛擬小人”究竟是如何吃“電子藥”的？計算醫(yī)學(xué)與AIDD（人工智能輔助藥物設(shè)計）有何區(qū)別？與時下大火的生成式人工智能（AIGC）又有什么關(guān)系？為了回答這些問題，2024年5月21日，在上海舉辦的國際生物技術(shù)與醫(yī)藥研討會上，澎湃科技對趙宇進行了專訪。

【對話】

澎湃科技：你說的“虛擬小人”還好理解，“電子藥”是如何進行模擬的？

趙宇（圖靈-達爾文實驗室副主任、哲源科技聯(lián)合創(chuàng)始人）：每一個藥物都有作用靶點（指生物體內(nèi)能夠被藥物分子識別和結(jié)合的結(jié)構(gòu)，如蛋白質(zhì)、核酸和離子通道等）。我們所謂“電子藥”，不是去模擬化合物本身，而是藥物發(fā)生效應(yīng)的機制，這些機制再抽象回來就是靶點信息。

從另一個角度可以這么理解，比如說我們在臨床上經(jīng)常會有一些人對藥物無反應(yīng)，有的人會是積極反應(yīng)。把這兩個人群放在一起，從底層信號通路層面去比對，其中的差異就是藥物的實現(xiàn)機制。所以“電子藥”實際上是通過（藥效-機制）映射關(guān)系比對出來的。

澎湃科技：以Alphafold為代表的AIDD技術(shù)主要用于藥物分子的預(yù)測與開發(fā)，它與計算醫(yī)學(xué)有何區(qū)別？你似乎把計算醫(yī)學(xué)置于比AIDD和CADD（計算機輔助藥物設(shè)計）更加重要的位置，為什么？

趙宇：廣義上來說，AIDD、CADD通過大數(shù)據(jù)、人工智能等技術(shù)對藥物分子和作用機制進行建模，幫助發(fā)現(xiàn)新的藥用化合物，這也屬于計算醫(yī)學(xué)的一部分。但更強調(diào)的是計算醫(yī)學(xué)作為認知生命的新技術(shù)體系，在對于疾病機制方面的發(fā)現(xiàn)作用，在計算醫(yī)學(xué)的AI+疾病工作，更加注重疾病和靶點之間的聯(lián)系，而AIDD、CADD等計算化學(xué)工作則關(guān)注靶點和分子之間的聯(lián)系。

我常說我們這個行業(yè)其實不需要那么多分子。在之前的“以分子為中心”模式中，我們常常是建立了一大堆分子，它們能干什么我們并不知道，缺乏對于生物學(xué)機制的理解，然后依靠臨床醫(yī)學(xué)科學(xué)家一個個上臨床去試。我們應(yīng)該反過來，在理解疾病的情況下，探索疾病的靶點在哪兒，在細胞內(nèi)還是細胞膜上，再回答需要大分子還是小分子，再進行藥物實驗。建立“以疾病為中心”的藥物研發(fā)邏輯，這才是底層邏輯，是第一性原理，分子發(fā)現(xiàn)應(yīng)當建立其上。

因此，對于研發(fā)新藥物而言，疾病和靶點之間的聯(lián)系更為重要。一個可成藥的靶點，為它作出一個專利的分子并不是太難的事，目前這一領(lǐng)域在國內(nèi)發(fā)展的非?？臁６剿骷膊?yīng)的靶點，在全球來講都是很困難的工作，一個靶點就是一個千億級的產(chǎn)業(yè)。

澎湃科技：計算醫(yī)學(xué)與生成式人工智能有何聯(lián)系？

趙宇：計算醫(yī)學(xué)也是大模型，是專業(yè)領(lǐng)域的專有模型。生成式人工智能，現(xiàn)在更多是指語言大模型，遠不是人工智能的終極形態(tài)，要知道人類超過八成的知識不能被語言描述。語言大模型還處于大模型的初級階段，如同第三次工業(yè)革命開始時的網(wǎng)上聊天軟件。未來一定會在各自領(lǐng)域出現(xiàn)垂直類大模型。

語言模型有大量的語言數(shù)據(jù)用于訓(xùn)練，基于統(tǒng)計學(xué)及概率分布而建立。在生物醫(yī)藥領(lǐng)域，我們沒有那么多數(shù)據(jù)，人類疾病數(shù)據(jù)天生就是“小數(shù)據(jù)”。有限的數(shù)據(jù)一經(jīng)分層，每層數(shù)據(jù)非常少，很難通過語言大模型那樣的方式去“暴力”計算出來。那么計算醫(yī)學(xué)要認知疾病，就要回到第一性原理，基于信息論，尋找每個人的根本性差異。

生成式人工智能模型應(yīng)該向AI for Science方向上去努力。語言模型已經(jīng)為我們展現(xiàn)了一個非常好的前景，那么，如果我們能結(jié)合數(shù)據(jù)，例如單細胞數(shù)據(jù)或真實的患者數(shù)據(jù)，再利用這些數(shù)據(jù)，我們就可以用生成式模型來建立全新的“AI for Science”。

澎湃科技：基因組學(xué)數(shù)據(jù)是探索疾病機制的主要基石。我們知道在傳統(tǒng)的基因-疾病關(guān)系的探索中，科學(xué)家們會通過動物或人體模型，對相關(guān)的基因變量進行控制和對比。請問計算醫(yī)學(xué)能代替這部分工作嗎？

趙宇：中國科學(xué)院院士、復(fù)旦大學(xué)校長金力教授說，基因之外皆為表型。而之前大家的研究一直是“從基因型到表型”，或者是“從表型到表型”，建立了相關(guān)性，但無法建立因果，所以不能說取代，但是能用更優(yōu)化的，或者說更接近生命的本質(zhì)——穿透到DNA層面去理解這件事。

在臨床中，人們都希望將疾病表型與病因建立聯(lián)系。而在計算醫(yī)學(xué)中，我們希望從底層接觸到這些聯(lián)系，在這個意義上，基因數(shù)據(jù)就是最穩(wěn)定的輸入。因為它比較穩(wěn)定，因此在我們的工作中，其它類型的中間層數(shù)據(jù)并沒有全部用到，我們只是構(gòu)建好了它們與底層基因數(shù)據(jù)之間的關(guān)系。

澎湃科技：你提到計算醫(yī)學(xué)能夠幫助對真實世界中的臨床試驗作出調(diào)整，甚至在未來能夠取代一部分臨床試驗?；谝阎獢?shù)據(jù)和統(tǒng)計學(xué)的疾病數(shù)學(xué)模型在什么意義上能夠預(yù)測未知的藥效和安全風(fēng)險？它的優(yōu)勢和局限性在哪里？

趙宇：這個問題比較大。知識模型會出現(xiàn)的“幻覺”問題（含有貌似事實的虛假或誤導(dǎo)性資訊）為例，單純依靠數(shù)據(jù)建立模型，就可能會產(chǎn)生過擬合，都產(chǎn)生錯誤的預(yù)測。

清華大學(xué)人工智能研究院院長、中國科學(xué)院院士張鈸教授提出，第三代人工智能的發(fā)展路徑是融合第一代的知識驅(qū)動和第二代的數(shù)據(jù)驅(qū)動的人工智能。計算醫(yī)學(xué)采用知識與數(shù)據(jù)雙驅(qū)動的人工智能來處理這個問題?；糜X問題，我們用真實世界的數(shù)據(jù)去修正；數(shù)據(jù)出現(xiàn)過擬合，我們通過建立的醫(yī)學(xué)生物知識去校準。通過這種方式，我們才在底層數(shù)據(jù)邏輯上重新建構(gòu)生命機制。

為此，我們自主開發(fā)了專門用來理解生命科學(xué)知識的垂直領(lǐng)域模型——“超腦”?，F(xiàn)代生物醫(yī)療的知識不斷細分，都是一個個“山頭”，可能在某一個領(lǐng)域研究已經(jīng)很成熟的東西，在其它領(lǐng)域大家還在孜孜以求。而當我們把它們放到一起，通過知識推理和演繹，就會產(chǎn)生新的知識，這也是李國杰院士所講的“從知識產(chǎn)生知識”。

最大的優(yōu)勢也是于此，我們不依賴人類已有的認知而產(chǎn)生大量新的發(fā)現(xiàn)。如果說有局限的話，就是深度交叉學(xué)科下，鄰域知識很難理解，出現(xiàn)“顛覆性技術(shù)請被顛覆者評價”的現(xiàn)象。

澎湃科技：從上世紀90年代開始，計算醫(yī)學(xué)就在西方開始發(fā)展，就近年來的論文數(shù)量來看，美國在該領(lǐng)域處于相當領(lǐng)先的地位，在很多大學(xué)也專門開設(shè)有計算醫(yī)學(xué)專業(yè)。能否介紹一下目前國內(nèi)的教學(xué)和研究狀況？

趙宇：國內(nèi)計算化學(xué)、計算生物學(xué)這些都已經(jīng)有了，但還沒有計算醫(yī)學(xué)這個學(xué)科。2020年，我們在國內(nèi)重新定義計算醫(yī)學(xué)的維度，因為面臨一個新的學(xué)科設(shè)置。

到現(xiàn)在為止，其實國內(nèi)還沒有這方面的教學(xué)，甚至對它的定義還是比較窄的。未來各行各業(yè)都要擁抱數(shù)字化，計算醫(yī)學(xué)是在最正確的趨勢（數(shù)字化）下最正確的賽道（生命科學(xué)），“晚革命不如早革命”，大家還是應(yīng)當盡早地去理解學(xué)習(xí)。但我們也發(fā)現(xiàn)，這個行業(yè)的人才極其稀有，需要既懂IT，又懂BT（Biological Technology，生物技術(shù)）。

IT和BT團隊的人在一起簡直要“打架”。IT的人對沒有組織邊界的東西非常焦慮，而BT背景的人講的都是一個邏輯、一個故事，穿起一個想象的東西。因此需要一個“總師”級別的人，能站在多個背景的角度看問題，將問題拆解并分配給各個專業(yè)的人。

計算醫(yī)學(xué)到底需要什么樣的人才？前不久我們在一篇文章中探討了這個問題，列出了高性能計算、生物信息學(xué)、基因組學(xué)、遺傳學(xué)等廿幾個學(xué)科。但凡深入其中一個領(lǐng)域，再對其它有所涉獵，我們認為都是人才。我們希望大家能認識到人才培養(yǎng)中跨學(xué)科發(fā)展的重要性。

我經(jīng)常說，當一個生物專家有數(shù)學(xué)思維，那么計算醫(yī)學(xué)就能得到推進。

來源：澎湃新聞

作者：季敬杰

版權(quán)與免責(zé)：以上作品（包括文、圖、音視頻）版權(quán)歸發(fā)布者【季敬杰】所有。本App為發(fā)布者提供信息發(fā)布平臺服務(wù)，不代表經(jīng)觀的觀點和構(gòu)成投資等建議