從3000億級真實藥物庫出發(fā),盛世君聯(lián)如何用BioAI改寫生物藥物發(fā)現(xiàn)

李秋萩2023-11-24 10:16

2016年,成都盛世君聯(lián)生物技術有限公司(后簡稱“盛世君聯(lián)”)創(chuàng)立。8年時間,盛世君聯(lián)搭建起三千億級多樣性的真實生物藥物庫,并在此基礎上創(chuàng)建干濕試驗結(jié)合的大分子AI藥物研發(fā)平臺BioAI。

8年時間,如何從真實生物藥物庫進軍AI藥物研發(fā)平臺?又如何攻破AI藥物研發(fā)的高壁壘?動脈網(wǎng)對盛世君聯(lián)CEO劉江海進行了專訪。

>>>>動脈網(wǎng):盛世君聯(lián)是做生物藥物發(fā)現(xiàn)、優(yōu)化服務起家的,為什么會自發(fā)創(chuàng)建以AI為驅(qū)動的藥物研發(fā)?

劉江海:AI概念從爆火到稍微降溫的這三年,產(chǎn)生了很多優(yōu)秀的AI大模型。當他們應用于數(shù)據(jù)龐大、交互頻繁的生活領域時,對傳統(tǒng)工作產(chǎn)生了碾壓式勝利。但在公開數(shù)據(jù)相對較少、數(shù)據(jù)驗證反饋較慢的專業(yè)領域,比如生物醫(yī)藥領域,AI又該如何進入呢?我個人是非常相信AI終究會改變藥物的研發(fā)模式,但是作為生物醫(yī)學背景的研發(fā)人員,我看不懂AI模型中的數(shù)學公式、計算機代碼,更不會編程和修改參數(shù),因此無法直接使用AI開展工作。同時,像大多數(shù)已經(jīng)習慣于傳統(tǒng)方法的研究者一樣,我也會時刻懷疑AI生成數(shù)據(jù)的準確性。

本質(zhì)上,這是算法模型開發(fā)者與生物藥物研發(fā)者之間存在著認知、語言、理解、和路徑邏輯上的差異,在真實場景中變成了“你不懂我、我不懂你”的無效交流和應用障礙。我們并不缺乏優(yōu)秀的AI大模型,而是缺少將這些大模型在專業(yè)領域進行深度應用的方式方法。過去的幾年,我們一邊積極接觸和使用最新AI工具成果,一邊與國內(nèi)多家頭部的AI醫(yī)藥企業(yè)合作或服務,在這個過程中積累了很多真實經(jīng)驗。我們認為,高質(zhì)量的標簽化數(shù)據(jù)、基于生物學邏輯的AI算法和“傻瓜式”的應用軟件,是AI打開生物藥物研發(fā)大門的鑰匙。

搭建三千億級多樣性的真實生物藥物庫

>>>>動脈網(wǎng):您可以具體談談AI用于生物藥研發(fā)的深入思考嗎?比如什么才是高質(zhì)量的標簽化數(shù)據(jù)?盛世君聯(lián)用于AI學習訓練的數(shù)據(jù)從哪兒來?

劉江海:高質(zhì)量的數(shù)據(jù)是AI學習訓練的基礎,在生物醫(yī)藥領域尤其需要真實的、驗證的、帶生物學標簽的數(shù)據(jù)。在過去的7年時間,盛世君聯(lián)搭建了“三千億級多樣性”的真實生物藥物庫,包括人源抗體庫、納米抗體庫、多肽庫、affibody庫、CAR-T庫和TCR庫等。依賴此平臺,盛世君聯(lián)自有項目已獲得了千萬級帶多重生物學標簽的自有數(shù)據(jù),且仍在持續(xù)高速增長中。

數(shù)據(jù)質(zhì)量和獨創(chuàng)性由持續(xù)精進的技術壁壘保護。盛世君聯(lián)藥物庫能達到“三千億級多樣性”源于公司核心技術之一——“全合成庫技術”,基礎方法在2016年引進自美國的基因泰克公司,此后5年實現(xiàn)了2次重要的本地技術突破,一是“多位點突變效率從最初的20%提高到100%”,二是“單次構(gòu)建1011多樣性合成庫”。目前可以做到在2周內(nèi)構(gòu)建1011多樣性全合成庫,3個月構(gòu)建1013多樣性全合成庫,這使得盛世君聯(lián)建庫效率和序列多樣性都遠遠超過傳統(tǒng)技術路線(如小鼠雜交瘤、B 細胞分選)的同行。

利用全球領先的全合成庫技術和“三千億級多樣性”的真實生物藥物庫,盛世君聯(lián)從2019年開始為眾多的頭部藥企提供了生物藥物庫構(gòu)建和生物藥物發(fā)現(xiàn)優(yōu)化等技術服務,在業(yè)內(nèi)建立了良好的口碑,也對藥物研發(fā)過程中的真實痛點和難點有了豐富的行業(yè)一線認知。

在保證數(shù)據(jù)質(zhì)量、真實性和獨創(chuàng)性的基礎上,對AI的學習和訓練來說,數(shù)據(jù)的連續(xù)性、標簽化、高低排序也很重要。通常AI訓練使用的是公共數(shù)據(jù)庫的數(shù)據(jù),這些數(shù)據(jù)在序列的相似性上是碎片化的,在序列的標簽化上是單一的、無關聯(lián)的,但我們生物藥物庫獲得的序列具有極佳的連續(xù)性和關聯(lián)性。

首先,全合成庫技術的定點連續(xù)突變使得生物藥物庫的序列呈現(xiàn)連續(xù)的氨基酸變化,且與生物學屬性是一一對應的,這樣AI就容易學習到單個或者多個氨基酸突變所對應的生物學意義。

第二,通過定向設計和篩選,全合成庫可以使不同的序列帶上相同的生物學標簽,也可以使相同或者相似的序列帶上不同的生物學標簽。

第三,全合成庫生產(chǎn)的序列是直接排序的,篩選獲得的序列會按照親和力大小、穩(wěn)定性高低、激活能力強弱進行呈現(xiàn)。

第四,通過正篩和負篩,全合成庫生產(chǎn)的數(shù)據(jù)也是陽性數(shù)據(jù)和陰性數(shù)據(jù)明顯分群的。

因此我們的真實生物藥物庫可以獲得具有非常豐富標簽組合的、氨基酸變化連續(xù)的、生物屬性排序的藥物序列,更適應“多任務協(xié)同優(yōu)化”的AI應用理念?;谶@些優(yōu)點,盛世君聯(lián)的全合成庫從2021年起已先后為國內(nèi)的7家AI企業(yè)提供數(shù)據(jù)包或者定向生產(chǎn)數(shù)據(jù)。

另外,全合成庫技術也是對AI預測數(shù)據(jù)進行高通量驗證的強力工具。AI能否優(yōu)于傳統(tǒng)人力工作流,驗證和迭代效率也是關鍵。在小分子藥物領域,AI已經(jīng)可以針對某一疾病靶點,設計出20個以內(nèi)的小分子候選物,因此比較容易進行逐個驗證。但在大分子藥物領域,AI針對一個靶點,預測出來的大分子候選物往往在1010以上,無法實現(xiàn)逐一的表達和驗證。全合成庫針對AI預測的序列進行建庫和高通篩選,可以在短時間內(nèi)完成>1012個大分子候選物的快速驗證。目前盛世君聯(lián)對AI預測數(shù)據(jù)進行驗證的最大多樣性超過1020,是為國內(nèi)一家頭部AI企業(yè)的提供的商業(yè)服務項目。

構(gòu)筑“模型+軟件”的AI生物藥物研發(fā)系統(tǒng)

>>>>動脈網(wǎng):為什么要用生物學邏輯去搭建AI算法?盛世君聯(lián)是怎么做的呢?

劉江海:我們知道小分子藥物是較小的剛性結(jié)構(gòu),與靶點蛋白的結(jié)合面積小,空間相對穩(wěn)定,使用基于能量或者氨基酸理化性質(zhì)為基礎的AI模型,通過幾何學的近似模擬,并不會丟失太多關鍵的真實信息。但是大分子藥物與靶點的結(jié)合面積大,兩者的結(jié)合始終處在相互吸引、相互拉扯的動態(tài)過程之中。

我們團隊成員因為有結(jié)構(gòu)生物學和生物醫(yī)學背景,所以始終認為蛋白大分子本身或者之間的動態(tài)變化,通過能量和物理學計算的數(shù)據(jù)去訓練AI是不合理的,這會導致AI預測的大分子藥物在結(jié)構(gòu)上不準確、在生物活性的判斷上不準確,帶來藥物開發(fā)的不確定。

那AI技術應如何賦能大分子藥物研發(fā)呢?能不能開發(fā)一個基于生物學,尤其是蛋白質(zhì)結(jié)構(gòu)和進化為底層邏輯的AI模型?我們獨有的全合成庫技術具有持續(xù)、定向的生產(chǎn)海量、高質(zhì)量數(shù)據(jù)的能力。如果我們能用這些帶生物學標簽的、連續(xù)的、排序的蛋白序列訓練AI,同時特別關注這些序列的生物進化和結(jié)構(gòu)生物學邏輯,那就能夠獲得一個獨特的生物學AI模型(BioAI)。

因此,2021年我們開始搭建自己的AI技術團隊。建立之初,團隊就設立了明確目標:

(1)不單獨開發(fā)Transformer和超參數(shù)大模型,使用授權(quán)的大模型和獨有數(shù)據(jù)開發(fā)適用于生物藥物研發(fā)的預訓練模型、專業(yè)模型,就是我們的BioAI。

(2)同時以BioAI為基礎開發(fā)專業(yè)軟件,幫助每位科研工作者解決生物藥物研發(fā)的具體工作。

BioAI以蛋白質(zhì)的氨基酸序列為代碼,關聯(lián)多重生物學標簽,訓練中關注蛋白進化中的序列隨機性和偏好性、抗體序列的保守性和多樣性、蛋白質(zhì)結(jié)構(gòu)的多態(tài)性、以及蛋白-蛋白作用界面剛性和柔性序列。BioAI可能并不清楚為什么40多億年進化會演變?yōu)榻裉斓鞍踪|(zhì)的特定序列,但是它通過比對和關聯(lián),一定會將序列代碼與生物屬性一一對應,進而預測出特定位置的氨基酸改變所帶來的生物屬性改變,實現(xiàn)智能化的蛋白質(zhì)定向進化。這正是生物藥物生成和優(yōu)化所需要的。

BioAI的搭建需要不同的專業(yè)背景的人才共同實現(xiàn)。為了解決海量數(shù)據(jù)的分類和高維關聯(lián)問題,盛世君聯(lián)引入了擁有微軟、甲骨文多年工作經(jīng)驗的黃琛作為Co-CEO,同時負責生成式AI的應用。為了從生物學邏輯出發(fā)訓練AI,盛世君聯(lián)聘請清華大學生物學博士曾昕擔任CTO和多年從事AI醫(yī)學應用的張康教授擔任CSO。同時,為了快速開發(fā)專業(yè)軟件,盛世君聯(lián)還引入了擁有微軟多年工作經(jīng)驗的沈云擔任首席架構(gòu)師,負責開發(fā)“傻瓜式”的生物藥物研發(fā)軟件。

值得欣喜的是,張康教授主導的、盛世君聯(lián)參與的,通過生物學邏輯AI研究蛋白-蛋白相互作用(PPI)的論文在今年8月發(fā)表在Nature Medicine上。

“BioAI for Scientists”軟件上線

>>>>動脈網(wǎng):您提到要用BioAI做“傻瓜式”軟件,可以詳細講講,如何幫助科研工作者能夠用上AI來解決研發(fā)問題?

劉江海:有了AI模型不代表可以直接將其用于生物藥物研發(fā)的具體項目中。盛世君聯(lián)做的專業(yè)軟件叫“BioAI for Scientists”。我們希望這個軟件可以實現(xiàn)“AI四化”:

AI專業(yè)化: 聚焦AI大模型在生物藥物專業(yè)領域的深度應用,使用獨有的真實數(shù)據(jù)進行預訓練,讓AI在垂直應用上不斷迭代、演進,使AI預測數(shù)據(jù)接近甚至優(yōu)于傳統(tǒng)實驗獲得的數(shù)據(jù)。

AI場景化:將生物藥物研發(fā)中具體實驗進行數(shù)字場景設定,每個場景分步驟匹配AI算法進行計算、預測,每個步驟嵌入生物藥物研發(fā)的邏輯、規(guī)則,來控制AI輸出的結(jié)果質(zhì)量,實現(xiàn)AI替代傳統(tǒng)研發(fā)流程。

AI工具化:將專業(yè)化和場景化的AI,通過軟件工程,集成、整合成能夠解決生物藥物研發(fā)關鍵問題、步驟的軟件、APP,通過“一鍵輸入、一鍵輸出”的傻瓜操作,讓每一個科學家、研究者、技術員、學生都能輕松使用AI。

AI高通化:通過持續(xù)訓練和真實驗證,將AI訓練為最優(yōu)秀的科學家,實現(xiàn)近乎實時的結(jié)果反饋,同時能夠并行實施多項工作流程,極大提升藥物研發(fā)和科學研究的效率。

2023年10月,經(jīng)過3年的技術沉淀和大量數(shù)據(jù)驗證,盛世君聯(lián)的“BioAI for Scientists”系列軟件已經(jīng)正式上線?,F(xiàn)在科研工作者只用登錄盛世君聯(lián)“BioAI驅(qū)動的生物藥物研發(fā)”門戶網(wǎng)站,選擇相應服務類型、提交相應序列數(shù)據(jù),即可等待AI篩選結(jié)果。常規(guī)AI計算的時間不超過1周。 圖片2.png

BioAI for Scientists結(jié)構(gòu)圖

“BioAI for Scientists”依托盛世君聯(lián)自有技術平臺和生物學人工智能(BioAI),搭建了包括真實數(shù)據(jù)生產(chǎn)、AbCypher數(shù)據(jù)處理、BioAI算法、AI軟件、高通量真實驗證的閉環(huán)式、干濕輪轉(zhuǎn)、自動迭代的AI生物藥物研發(fā)軟件系統(tǒng)。通過“一鍵輸入靶點序列、一鍵輸出藥物序列”、“一鍵輸入母本序列、一鍵輸出優(yōu)化序列”的簡單操作,為每一位藥物研發(fā)人員提供高效、便捷、準確的AI技術服務軟件。最重要的在于通過在軟件的步驟間嵌入生物藥物研發(fā)規(guī)則,保證輸出結(jié)果不弱于傳統(tǒng)實驗結(jié)果,達到生物藥物研發(fā)的專業(yè)性。

AI制藥的未來:“無邊界”的生物藥物創(chuàng)造

>>>>動脈網(wǎng):請問您對BioAI未來的期許是什么?或者說盛世君聯(lián)未來的奮斗目標是什么

劉江海:BioAI其實存在著很強的可拓展性,其應用不止能作用于生物藥物的發(fā)現(xiàn),還可以拓展到生物酶、理化性質(zhì)研究、mRNA下游驗證、下游工藝開發(fā)等。虛擬生物藥物庫是無限大、無限多樣性的,這是真實藥物庫無法比擬的優(yōu)點。這意味著藥物源頭的池子更大、更有序,將帶來無限多樣性的藥物發(fā)現(xiàn)。

我認為盛世君聯(lián)已來到生物藥AI發(fā)展的第二階段:從人類經(jīng)驗到AI智能、從有限發(fā)現(xiàn)到無限發(fā)現(xiàn)。盡管我們目前的AI還不能擺脫自然法則和數(shù)據(jù)依賴,但是我相信經(jīng)過2-3年的技術發(fā)展,AI是可以進行到藥物創(chuàng)造階段的。當完成了足夠多的數(shù)據(jù)訓練和項目哺育后,AI將不再需要數(shù)據(jù)的預訓練,從而升級成為藥物創(chuàng)造者AI,也就是第三階段的GenAI。它將成為無邊界的藥物創(chuàng)造者,創(chuàng)造出全新的、從未有過的藥物。從自然發(fā)現(xiàn)到AI“無邊界”創(chuàng)造,這將意味著生物醫(yī)藥真正達到了AI智能。這也是盛世君聯(lián)未來奮斗的目標。

來源:動脈網(wǎng)

作者:李秋萩

版權(quán)與免責:以上作品(包括文、圖、音視頻)版權(quán)歸發(fā)布者【李秋萩】所有。本App為發(fā)布者提供信息發(fā)布平臺服務,不代表經(jīng)觀的觀點和構(gòu)成投資等建議