百圖生科AI大模型研發(fā)始末

沈怡然2023-04-01 10:06

經濟觀察報記者沈怡然 “Give me aring-shaped protein”.（給我一個環(huán)形蛋白質）

“Generate a drug for ALS”.（研制一款治療漸凍癥的藥物）

當人類在對話框輸入以上指令，機器就能在一秒內生成一個相應的生命物質?，F在，這些科幻電影中的橋段有希望成為現實。就像ChatGPT打開了人機對話的窗口，一批生命科學AI大模型也在開發(fā)的路上。

3月23日，生命科學平臺公司百圖生科對外發(fā)布了一款AIGP平臺，這也是一款基于其自研的AI大模型“xTri－mo”開發(fā)的、能幫助解決生命科學問題的工具。簡單說，這就像一個能生成蛋白質的ChatGPT，根據用戶給定的參數和功能，給出各種蛋白質、酶、細胞等的設計方案。3月30日，百圖生科CEO劉維對記者表示，設計的初衷是幫助研究者提供一些生命科學技術的基礎版本，讓研究者可以在基礎版本上進行創(chuàng)造，節(jié)約了一定的實驗時間和實驗費用。

2017年前后，大模型的概念開始在業(yè)界流行，2020年劉維做這家公司的一個重要目的，就是嘗試給昂貴又有巨大價值的大模型技術找一個應用場景。

2021年公司做出了AI大模型“xTrimo”，這是一個多模態(tài)預訓練模型，相當于“大腦”，后來基于改模型研發(fā)了的AIGP平臺，則是一個與用戶交互的窗口，AIGP在2022年開始內測，直到2023年發(fā)布會上宣布了AIGP的公測，向海內外專業(yè)用戶開放。

“但是，目前AIGP還很難像Chat－GPT一樣在一秒鐘內給出回答，用戶給定的參數和功能是復雜和專業(yè)的，AI需要數小時內給出答案”，劉維對記者表示，新技術還處在初期，目前能在很多問題上有初步能力，但只能在一定概率下給出正確結果，其中又只有部分能一次性給對結果。

“我們今天很像ChatGPT0.5的時代，在技術和算力資源上具備了一定基礎，但數據圖譜的建立、實驗能力的建立過程仍然是從零開始，且復雜而艱巨的”。團隊的愿景是，將AI在生命科學研究的最終價值，是幫助解碼、治愈所有的疾病、解決當下難以應對的全球公共衛(wèi)生問題、食物能源短缺以及環(huán)境污染等人類可持續(xù)發(fā)展的問題。

理想和現實是有距離的，劉維表示，中間的過程非常復雜，算力、數據等資源上的支撐能力有限，還要考慮到社會融資的環(huán)境，團隊從改變傳統(tǒng)實驗中的一些細小流程切入，這也是一種革命性變化的開始。

設計的初衷

劉維表示，AI大模型可以處理大量生命科學數據，提高數據分析的效率和準確性，機器的推理和自學習能力還可以將研究結果進行反向推理和優(yōu)化。團隊最初的設計是，用AI大模型生成一個個蛋白質、酶、細胞等的設計方案，替代生命科學研究者的瑣碎工作，并在此基礎上幫助解決高級問題。

生命科學是一個廣泛的學科，而蛋白質和酶的研究是理解生命現象、促進生物技術發(fā)展和應用的基礎。研究者通過研究蛋白質和酶的結構和功能，可以深入了解生物體內化學反應的原理和機制，研究酶的作用條件和抑制劑，可以優(yōu)化生物體內的代謝途徑，提高生物體的生產力。

生命科學是信息的學科，研究者通常需要大量的樣本來進行統(tǒng)計分析，但許多樣本往往難以獲取或者成本較高。而生命科學數據具有復雜性，如基因序列、蛋白質結構、表達量等，使得數據分析變得困難。

較長的實驗時間也是痛點之一。劉維團隊所接觸到的一些生命科學研究者和相關公司，他們并非專業(yè)搞蛋白質設計，對他們而言，要研發(fā)一個具有基本性能指標和功能的蛋白需要昂貴的時間和資金成本，“傳統(tǒng)的蛋白生成可能要做多輪動物篩選實驗，如小鼠篩選實驗目前已經非常工業(yè)化，但仍要等待動物自己起反應，過程有時需要數月時間，而AI在虛擬空間里生成只需要數小時”，劉維表示。

劉維表示，研究者的實驗結果需要建立在過去大量實驗數據之上。而有些難成藥靶點很難找到它已有抗體的數據，AI通過推理和預測，將全新的問題預測達到八九不離十，再通過多輪迭代找到疑難問題的答案，可以幫助研究者快速切入一個沒有數據的研究難題。

研發(fā)的壁壘

AI大模型需要計算資源，數據集深度學習框架，語料庫等多項能力的支撐。劉維表示，百圖生科在研發(fā)所需的算力方案上的確是站在百度的肩膀上。

劉維表示，百圖生科的定位是李彥宏和劉維共同創(chuàng)立的一家獨立公司。根據企業(yè)工商信息資料，百圖生科（北京）智能技術有限公司中，劉維和李彥宏在股東中，分別占21.6%和1%，劉維還是企業(yè)實控人。

百度的AI大模型在技術上有一定參考借鑒之處，團隊和百度自然語言處理的團隊在一些領域合作研發(fā)。百圖生科基于百度云平臺的研發(fā)，在算力上也得到了百度的支持。

劉維表示，訓練出一個千億級別參數的模型版本需要將近1000個GPU跑幾個月時間，如果要將參數兩極達到萬億級，訓練時間則翻十倍。過程中，研發(fā)大模型和推動AIGP迭代所需資金量很大，公司在2020、2021年共獲得上億美元融資，2023年新一輪融資也在推進之中。

AI大模型需要輸入大量數據參數以增加對問題的理解度。劉維表示，生命科學作為一個及其垂直的領域，數據集的打造難度是很大的。團隊制作了生命科學的數據圖譜，90%來自于公開和半公開數據的整理，整理過程很復雜，很多數據散落在不同的數據集中，來自論文和專利等，甚至是非結構化的，將一些無關聯(lián)的數據抽取出來并分類需要大量專業(yè)人員的努力。

僅依靠公開數據無法支撐xTrimo的需求，團隊還自建實驗室自研AI/biotech技術以產生私域數據，大模型中10%的數據來自于此。

劉維表示，因為生命體的高度復雜度，目前數據量很大，但仍然是有限的。隨著生命科學領域觀測手段和技術的發(fā)展，吸收更多的數據尤其是垂直類數據，將使我們能夠更加精細精準地理解進化，理解生命。這意味著，要實現這一目標公司需要不斷吸納新合作伙伴，特別是在體外模擬體系、超精度觀測和特殊驗證體系等方面具有豐富知識和技術的生命科學家。

面對質疑

AI大模型的概念在2017、2018年左右在業(yè)界流行。海外研究機構和公司開始很對一些專業(yè)領域開發(fā)AI大模型，Google母公司 Alphabet旗下的DeepMind開發(fā)了一種基于自然語言處理的工具，用于預測蛋白質結構和藥物設計；IBMResearch也在人工智能和機器學習的基礎上，與多家生命科學企業(yè)合作，開發(fā)了一些基于人工智能的應用程序，例如用于藥物篩選和基因組測序的軟件。

在創(chuàng)辦百圖生科之前，劉維曾做18年早期技術投資，在10年前以投資人的身份關注和布局了生命體的數字化技術。劉維發(fā)現，在這樣的技術換代時期，一個新的、有能力打造平臺級技術底座、有決心長期投入做前沿創(chuàng)新藥物的公司，是市場所需要的。“2020年我們做這家公司的一個重要目的，是給昂貴又有巨大價值的大模型技術找一個應用場景”，劉維表示，當時主流互聯(lián)網公司已經在自然語言處理方面有一定的語料、技術積累，作為一個初創(chuàng)公司很難在這個領域競爭，需要在新問題、新模態(tài)上尋找答案，和主流的AI大模型互補，所以要選擇一個專業(yè)領域，而生命科學是很有價值的場景。

公司開放AI大模型后，正積極尋求合作伙伴，而劉維發(fā)現，對一種新技術往往有不同的態(tài)度，有的人更相信，有的人更質疑。

對此，劉維表示，技術在初期的確非常不完美，目前還需要技術再迭代升級，不斷提高準確和可靠。目前公司所選擇的賽道也充滿技術挑戰(zhàn)，需要傳感器、AI、生物、數據等，AI大模型、高通量實驗系統(tǒng)等技術門檻都很高，小公司完成起來難度較大；另一方面AI大模型會對傳統(tǒng)生命科學的項目制研究模式構成挑戰(zhàn)，這使得一些大型藥企難以全面擁抱它。

劉維表示，即便目前項目還不成熟，也希望開放給業(yè)內共同合作創(chuàng)新。因為這涉及到路線選擇的問題，如果AIGP的目標定在設計一些不那么挑戰(zhàn)的蛋白質，一些利用行業(yè)現有方法、軟件、實驗技術就能發(fā)現的蛋白，那么當前的準確性、可靠性要高得多，因為問題簡單、數據充沛?？傊?，既然要做底層技術創(chuàng)新，還是應該瞄準足夠有意義的高難度問題。