AI能為科學(xué)研究做什么

陳永偉2023-08-22 00:26

陳永偉/文

從蛋白質(zhì)的結(jié)構(gòu)說起

在生命過程中,蛋白質(zhì)扮演著十分重要的角色。一方面,它是生物體的構(gòu)造師,小到一個細(xì)胞,大到各種器官,都需要由蛋白質(zhì)來構(gòu)造。另一方面,它還是很多生命活動的重要參與者,無論是在生物體內(nèi)進(jìn)行物質(zhì)傳輸、對各種生化過程進(jìn)行催化,還是對來自體外的侵襲進(jìn)行抵抗,都離不開蛋白質(zhì)的參與。

目前,人類已知的蛋白質(zhì)達(dá)到了兩億多種,每一種蛋白質(zhì)的三維結(jié)構(gòu)都不相同,而它們的功能差異就是由這些不同的結(jié)構(gòu)決定的。例如,人們出于滋潤補水、護(hù)膚嫩膚的需要,經(jīng)常會設(shè)法補充膠原蛋白,其奧秘就在于這類蛋白的結(jié)構(gòu)類似于一股擰起來的繩子,因而具有很強的韌性,從而可以在軟骨、韌帶、骨骼和皮膚之間傳遞張力。又如,我們免疫系統(tǒng)中的抗體蛋白大致上呈現(xiàn)了一種Y型的結(jié)構(gòu),并能夠形成獨特的鉤狀,這就使得它們可以附著在病毒和細(xì)菌上,對致病微生物進(jìn)行檢測、標(biāo)記及消滅。正是因為蛋白質(zhì)的結(jié)構(gòu)和功能之間存在著以上這樣的關(guān)系,因此從上世紀(jì)中期開始,對蛋白質(zhì)結(jié)構(gòu)的探索就成為了生物學(xué)家研究的一個重點。

1961年,美國國立衛(wèi)生學(xué)院的研究員安芬森(ChristianAnfinsen)發(fā)表了一篇論文,對其進(jìn)行的一項實驗進(jìn)行了介紹:在實驗中,他將牛胰核糖核酸酶蛋白分子用變性試劑打開,將二硫鍵還原成巰基,由此,蛋白質(zhì)原有的折疊結(jié)構(gòu)就被破壞了,酶的活性也隨之消失。然后,他將裝有實驗樣品的燒杯暴露在空氣中過夜。令他驚奇的是,在經(jīng)過一夜的放置之后,酶的大部分活性恢復(fù)了,被破壞了結(jié)構(gòu)的蛋白質(zhì)又折疊成了原來的樣子。這有多奇怪呢?大致上就相當(dāng)于我們將一朵由鐵絲編織成的花用老虎鉗拉直,但在經(jīng)過一段時間之后,卻發(fā)現(xiàn)那段已經(jīng)被拉直的鐵絲竟又自己變成了一朵花!

為什么會出現(xiàn)這樣的情況呢?安芬森給出的一個猜想是:這或許說明了蛋白質(zhì)多肽鏈中氨基酸的排列順序,也就是所謂的蛋白質(zhì)一級結(jié)構(gòu)決定了它最終的三維結(jié)構(gòu)——當(dāng)一級結(jié)構(gòu)決定后,多肽鏈會服從熱力學(xué)的定律,自動折疊成能量最小化的狀態(tài)。在后來的生物學(xué)研究中,安芬森的上述猜測被歸納為了“安芬森法則”。1972年,安芬森憑借著這個重要的法則斬獲了諾貝爾化學(xué)獎。

對于研究者而言,安芬森法則指出了一個重要的研究方向,即“蛋白質(zhì)折疊問題”:既然蛋白質(zhì)的三維結(jié)構(gòu)取決于其一級結(jié)構(gòu),那么,從理論上講,人們就可以根據(jù)分子間的能量優(yōu)化法則通過蛋白質(zhì)的一級結(jié)構(gòu)來對其三維結(jié)構(gòu)進(jìn)行預(yù)測。由于蛋白質(zhì)的功能很大程度上取決于其結(jié)構(gòu),因此如果人們可以充分了解蛋白質(zhì)的三維結(jié)構(gòu),就可以按圖索驥地尋找,甚至創(chuàng)造自己所需要的蛋白質(zhì)。很顯然,由此帶來的想象空間是十分巨大的。

然而,正所謂“理想很豐滿,現(xiàn)實很骨感”。盡管乍看之下“蛋白質(zhì)折疊問題”的潛在價值十分巨大,不過由于組成蛋白質(zhì)多肽鏈的氨基酸數(shù)量都很龐大,因此要通過其結(jié)構(gòu)來預(yù)測蛋白質(zhì)的折疊是非常困難的。所以安芬森法則指出的道路看似光明,但在很長時間內(nèi),卻成了一條少有人走的路。

相比之下,生物學(xué)家們似乎更傾向于用直接觀測的方法來探索蛋白質(zhì)的結(jié)構(gòu)。從早期的X光衍射法到新近的冷凍電鏡法,隨著實驗器具的日益發(fā)展,人們通過實驗探索蛋白質(zhì)結(jié)構(gòu)的能力也日漸提高。但盡管如此,相比于蛋白質(zhì)龐大的種類量,人們用實驗探索蛋白質(zhì)結(jié)構(gòu)的努力只能算是杯水車薪。

2018年,轉(zhuǎn)機出現(xiàn)了。在當(dāng)年11月舉辦的第13屆全球蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽(CASP)上,DeepMind的AI程序AlphaFold成功地對43種蛋白質(zhì)中的25種的結(jié)構(gòu)進(jìn)行了預(yù)測,由此在98名參賽者中獲得了第一。而相比之下,第二名只預(yù)測準(zhǔn)確了3種蛋白質(zhì)的結(jié)構(gòu)。更值得一提的是,在對某些蛋白質(zhì)結(jié)構(gòu)的預(yù)測中,AlphaFold得到的結(jié)論甚至比用X光衍射法和冷凍電鏡法觀測到的結(jié)論更為準(zhǔn)確。

AlphaFold是靠什么獲得了如此優(yōu)異的成績呢?其實,它用的方法很簡單:學(xué)習(xí)大量蛋白質(zhì)的序列和結(jié)構(gòu)數(shù)據(jù),從中尋找氨基酸分子之間的相互作用,以及蛋白質(zhì)片段之間的演化關(guān)系,然后再按照找到的規(guī)律對蛋白質(zhì)的結(jié)構(gòu)進(jìn)行預(yù)測。

初戰(zhàn)告捷之后,AlphaFold不斷從生物學(xué)、物理學(xué)和機器學(xué)習(xí)領(lǐng)域的最新進(jìn)展中汲取靈感,以此來升級自己的算法,其預(yù)測能力也獲得了很大的提升。2022年7月28日,DeepMind在其官網(wǎng)發(fā)布了一篇名為《AlphaFold揭示蛋白質(zhì)宇宙的結(jié)構(gòu)》(AlphaFoldrevealsthestructureoftheproteinuniverse)的新聞,宣布AlphaFold已經(jīng)對幾乎所有已知蛋白質(zhì)的結(jié)構(gòu)做出了預(yù)測。隨后,又將所有預(yù)測的蛋白質(zhì)結(jié)構(gòu)放到了網(wǎng)上,供科研人員自行下載使用。據(jù)不少下載了數(shù)據(jù)的科研人員反映,這些數(shù)據(jù)的準(zhǔn)確率非常高。

雖然在未來的一段時期內(nèi),人們還需要繼續(xù)對AlphaFold給出的預(yù)測數(shù)據(jù)進(jìn)行驗證,但可以說,困擾了人們半個多世紀(jì)的“蛋白質(zhì)折疊問題”基本上已經(jīng)得到了解決。

AI在科學(xué)研究中的應(yīng)用

毫無疑問,AlphaFold破解“蛋白質(zhì)折疊問題”的成功為生物學(xué)的發(fā)展作出了巨大的貢獻(xiàn)。但這個事件還有一個更為重要的意義,即證明了AI可以在科學(xué)研究領(lǐng)域起到至關(guān)重要,甚至是決定性的作用。由此,“人工智能驅(qū)動的科學(xué)研究”(AIforscience,有時也簡稱AI4S)成為了AI研究中的顯學(xué)。

科學(xué)的發(fā)展是一個不斷猜想、不斷檢驗的過程。在科學(xué)研究當(dāng)中,研究者需要先提出假設(shè),然后根據(jù)這個假設(shè)去構(gòu)造實驗、搜集數(shù)據(jù),并通過實驗來對假設(shè)進(jìn)行檢驗。在這個過程中,研究者需要進(jìn)行大量的計算、模擬和證明。而在幾乎每一個步驟當(dāng)中,AI都有很大的用武之地。

(1)研究問題的提出

提出一個好的問題是做出一個好研究的第一步,只有提出的研究問題是重要的,后續(xù)的研究才可能有意義。傳統(tǒng)上,科學(xué)問題主要有兩個來源:一種是對現(xiàn)象以及數(shù)據(jù)的觀察來提出某些猜想,比如,天文學(xué)上著名的開普勒三定律,就是由開普勒在整理天文學(xué)家第谷留下的大量數(shù)據(jù)之后提出,然后再通過理論研究加以確立的。第二種則是對既有文獻(xiàn)的梳理,即通過閱讀既有的研究成果,看看前人的研究還有哪些地方留有不足,然后以此為突破點提出自己的問題。在使用了AI這個工具后,用以上述兩種方式尋找問題的研究者都可以大幅改善自己的效率。

先看通過觀察提問。在過去,通過觀察來提問對研究者的直覺要求是非常高的。以開普勒三定律為例,其中的第一定律(橢圓定律),即“行星繞太陽運行的軌道是橢圓,并且太陽在這個橢圓的一個焦點上”是相對直觀的,通過對記錄數(shù)據(jù)的觀察基本就可以提出這個假設(shè)。但第二定律(面積定律),即“行星和太陽的連線在相等的時間間隔內(nèi)掃過相等的面積”就不那么直觀了,即使是十分仔細(xì)的人也需要在靈感的啟發(fā)之下才可能發(fā)現(xiàn)這個規(guī)律。至于第三定律(調(diào)和定律),即“行星繞太陽一周的恒星時間(T)的平方與它們軌道長半軸(a)的立方成正比”則更是一個非常不直觀的現(xiàn)象,只有非常天才的研究者才有可能提出這樣的假說。

而應(yīng)用了AI之后,人們在占有了充分的觀測數(shù)據(jù)之后,就可以相對容易地提出相關(guān)的研究問題。比如,如果人們有了行星運行的大量數(shù)據(jù),并且猜想行星繞太陽一周的時間可能和其軌道橢圓的某條軸的長度存在著某種關(guān)系,那么他就可以讓AI去嘗試建立這些變量之間的函數(shù)關(guān)系。通過這樣的方法,開普勒第三定律就可能比較容易地被提出來。

再看通過閱讀文獻(xiàn)來提問。過去,從事科學(xué)研究的人相對較少,研究的數(shù)量也相對較少,因此一個研究者只要肯下功夫,就至少可以把自己所從事的領(lǐng)域的相關(guān)文獻(xiàn)都予以掌握。然而,隨著科學(xué)的發(fā)展,從事科研的人數(shù)不斷增加,各種科研成果也不斷地涌現(xiàn),一個科研人員要想完整地了解自己所在研究領(lǐng)域的進(jìn)展已變得越來越困難,更遑論去了解其他領(lǐng)域的動態(tài)來給自己的研究提供啟發(fā)了。

在應(yīng)用了AI工具后,以上的問題可以在很大程度上得到緩解。比如,現(xiàn)在的研究者可以讓ChatGPT等AI大模型來為自己整理已有的文獻(xiàn),并寫成摘要。這樣,他們就可以大幅減少搜索和閱讀文獻(xiàn)所花費的精力,可以以更小的成本了解現(xiàn)有研究的進(jìn)展,并在此基礎(chǔ)上提出新的研究問題。

(2)數(shù)據(jù)的搜集

在提出了相關(guān)的研究問題之后,研究人員就需要設(shè)計實驗,并搜集相關(guān)的數(shù)據(jù),為進(jìn)一步的研究做準(zhǔn)備。在這個過程中,AI的應(yīng)用潛力也是十分廣闊的。

這種作用首先體現(xiàn)在數(shù)據(jù)的選擇上。在實驗當(dāng)中,并不是所有的數(shù)據(jù)都是可用的。很多數(shù)據(jù)可能是受到干擾后產(chǎn)生的,如果不剔除這些數(shù)據(jù),后續(xù)的研究結(jié)果就可能受到嚴(yán)重的干擾?,F(xiàn)在在很多實驗中,深度學(xué)習(xí)已經(jīng)成為了這項工作的主要承擔(dān)者。

在搜集了數(shù)據(jù)之后,對數(shù)據(jù)進(jìn)行標(biāo)注也是一項艱巨的工作。例如,在生物學(xué)當(dāng)中,為新分子進(jìn)行功能和結(jié)構(gòu)標(biāo)注對于后續(xù)的研究來說是非常重要的,但要進(jìn)行這一工作則并不容易。雖然新一代測序技術(shù)不斷涌現(xiàn),但只有不到1%的已測序蛋白質(zhì)得到了生物學(xué)功能的標(biāo)注。目前,為了能夠提高數(shù)據(jù)標(biāo)注的效率,研究者們正在嘗試讓AI學(xué)習(xí)手動標(biāo)注的結(jié)果,從而訓(xùn)練出代理模型(surrogatemodels)來幫助自己對新的數(shù)據(jù)進(jìn)行標(biāo)簽。從現(xiàn)有的結(jié)果看,這種方式確實可以比較有效地改進(jìn)標(biāo)注效率。

除此之外,AI現(xiàn)在還有一個非常重要的作用,即生成數(shù)據(jù)。這一點,在AI研究領(lǐng)域表現(xiàn)得最為顯著。近十多年來,人工智能的主要發(fā)展主要來自于機器學(xué)習(xí)領(lǐng)域,眾所周知,這個領(lǐng)域的發(fā)展對數(shù)據(jù)的依賴非常強。在實踐當(dāng)中,數(shù)據(jù)的搜集和整理不僅成本高、質(zhì)量難控制,還可能衍生出侵犯個人隱私、威脅數(shù)據(jù)安全等問題。為了應(yīng)對這些問題,一些學(xué)者建議可以用合成數(shù)據(jù)作為真實數(shù)據(jù)的補充,供機器學(xué)習(xí)使用。

與真實數(shù)據(jù)相比,合成數(shù)據(jù)具有不少優(yōu)勢:一方面,從訓(xùn)練效果上看,用合成數(shù)據(jù)進(jìn)行訓(xùn)練的效果其實并不比真實數(shù)據(jù)差,在一些場合,它們的表現(xiàn)甚至更高。在真實數(shù)據(jù)的形成過程中,可能混入很多不必要的噪聲信息,這就可能對其質(zhì)量造成影響,而合成數(shù)據(jù)則沒有這樣的問題。麻省理工學(xué)院、波士頓大學(xué)和IBM曾聯(lián)合做過一項研究,用真實數(shù)據(jù)和合成數(shù)據(jù)分別訓(xùn)練模型對人類的行為進(jìn)行識別,結(jié)果采用合成數(shù)據(jù)進(jìn)行訓(xùn)練的模型表現(xiàn)要比采用真實數(shù)據(jù)訓(xùn)練的模型更優(yōu)。另一方面,從成本上看,合成數(shù)據(jù)的成本要遠(yuǎn)遠(yuǎn)低于真實數(shù)據(jù)。除此之外,由于合成數(shù)據(jù)都是生成而非搜集的,所以使用它們來進(jìn)行研究還可以規(guī)避很多法律和道德風(fēng)險。

目前已經(jīng)有越來越多的AI研究者開始用合成數(shù)據(jù)取代真實數(shù)據(jù)作為機器學(xué)習(xí)的材料,其對AI技術(shù)發(fā)展的貢獻(xiàn)正在變得越來越顯著。正是因為這個原因,所以《麻省理工科技評論》(MITTechnologyReview)將合成數(shù)據(jù)技術(shù)評為了2022年全球十大突破性技術(shù)之一。

(3)科學(xué)計算和模擬

在科學(xué)研究的過程中,通常需要進(jìn)行大量的計算和模擬工作。比如,如果科學(xué)家發(fā)現(xiàn)了某個星體的運行規(guī)律,怎樣才能證明他的發(fā)現(xiàn)是正確的呢?最直觀的方法就是根據(jù)他發(fā)現(xiàn)的規(guī)律計算出這個星體在未來某個時間點的位置,然后進(jìn)行比對。從這個意義上講,精確的計算和模擬就是驗證理論的關(guān)鍵。

但計算并不是那么容易的事情。例如,從理論上講,各大星體之間的相對運動關(guān)系都可以由萬有引力定律推出。牛頓在發(fā)現(xiàn)三大定律之后,就曾經(jīng)很自豪地宣稱,他已經(jīng)掌握了宇宙運行的終極奧秘。但是,真實情況卻并非如此。以由于劉慈欣的小說而被人們所熟知的“三體”問題為例。從表面上看,“三體”系統(tǒng)是非常簡單的,總共只有三顆彼此糾纏的恒星,以及一顆夾在其中的行星,要模擬它的運動軌跡似乎并不難。但一旦我們試圖用牛頓力學(xué)來對其位置進(jìn)行推導(dǎo),就會發(fā)現(xiàn)得到的聯(lián)立微分方程其實構(gòu)成了一個混沌系統(tǒng),其運動的軌跡是很難確定的,一個微小的擾動都可能帶來巨大的偏差。正是因為這個原因,所以在《三體》小說中,即使科技水平遠(yuǎn)超地球的三體人也無法制成一張精確的萬年歷。

在現(xiàn)實中,遠(yuǎn)比“三體”系統(tǒng)復(fù)雜的問題比比皆是。在對這些問題進(jìn)行研究時,人們都不得不直面“維度爆炸”問題的挑戰(zhàn)。

舉例來說,臺風(fēng)軌跡的預(yù)測就是一件計算量需求非常高的工作。傳統(tǒng)上,人們主要是依靠動力系統(tǒng)模型來進(jìn)行預(yù)測。這種方法會根據(jù)流體動力學(xué)和熱力學(xué)等物理定律來構(gòu)造大量的微分方程,用它們來模擬大氣的運動,進(jìn)而對臺風(fēng)的走向進(jìn)行預(yù)測。顯然,這個動力系統(tǒng)是非常復(fù)雜的,不僅預(yù)測所需要的計算量非常大,并且非常容易受外生擾動因素的影響。正是因為這個原因,所以世界各國即使動用了最先進(jìn)的超級計算機,預(yù)測也經(jīng)常出錯。最近幾年,人們調(diào)整了預(yù)測的思路,開始嘗試用AI模型預(yù)測臺風(fēng),由此涌現(xiàn)了一大批相關(guān)的AI模型。這類模型放棄了傳統(tǒng)物理模型的預(yù)測思路,轉(zhuǎn)而用機器學(xué)習(xí)的方法來進(jìn)行預(yù)測,不僅大幅降低了計算負(fù)擔(dān),而且有效提升了預(yù)測精度。比如,“風(fēng)烏”模型在一個單GPU的計算機上就可以運行,并且僅需30秒即可生成未來10天全球高精度預(yù)報結(jié)果。在最近預(yù)測臺風(fēng)“杜蘇芮”的過程中,“風(fēng)烏”模型預(yù)測的軌跡誤差遠(yuǎn)遠(yuǎn)小于傳統(tǒng)模型,從而為人們抗擊臺風(fēng)做出了很大的貢獻(xiàn)。

(4)輔助證明

在一些學(xué)科(例如數(shù)學(xué))的研究過程中,需要對命題進(jìn)行理論上的證明。從很早開始,人們就試圖借助計算機來幫助他們完成這項困難的工作。他們的基本思路是:首先將一個數(shù)學(xué)命題形式化(formalisation),然后借助計算機來對形式化的命題給出證明。

在現(xiàn)實當(dāng)中,很多數(shù)學(xué)命題是由自然語言表述的。比如,著名的“四色問題”就是要證明“任何一張地圖只用四種顏色就能使具有共同邊界的國家著上不同的顏色。”對于計算機來講,這種自然語言是它們難以理解的,因此它們也不可能幫助人們以自然語言的形式來解決證明問題。幸運的是,數(shù)學(xué)家們經(jīng)過長期的努力,已經(jīng)對大部分的數(shù)學(xué)分支建立起了公理化的表述體系。借助于公理化體系,用自然語言表述的命題就可以表述為由一個系列邏輯判斷構(gòu)成的形式化命題。通過特定的方式編碼,計算機可以對這些形式化命題進(jìn)行識別,于是,計算機就可以幫助人們用來進(jìn)行輔助證明。

仍以“四色問題”的證明為例:在歷史上,這個著名的問題曾經(jīng)有過好幾個版本的證明。盡管在每一個版本的證明中,數(shù)學(xué)家都用到了計算機作為輔助,但最初的證明都是以人工的推導(dǎo)為主,計算機的工作主要局限在提供計算的支持。2005年,英國劍橋研究院的高級研究員貢蒂埃(GeorgesGonthier)給出了“四色問題”的新一代證明。和前幾代的證明不同,貢蒂埃首先將這個問題轉(zhuǎn)化成了一系列形式化的命題,再用一個名叫Coq的交互式輔助軟件對它們進(jìn)行了證明。由于在證明的過程中,Coq完成了大量最復(fù)雜的證明,因此在某種意義上講,這個過程可以算是一個機器證明。

需要指出的是,盡管包括Coq在內(nèi)的輔助證明軟件已經(jīng)可以幫助人們完成很多證明工作,但它的自動化是非常低的。在多數(shù)時候,人類研究者還需要充當(dāng)引導(dǎo)員的角色,幫它們把自然命題轉(zhuǎn)化為形式化命題。

隨著AI的發(fā)展,人們開始嘗試讓AI來解決這個問題。比如,2022年,由谷歌、斯坦福大學(xué)等單位的研究人員組成的一個團(tuán)隊就發(fā)表了一篇論文,介紹了使用OpenAICodex的神經(jīng)網(wǎng)絡(luò)進(jìn)行自動形式化的工作,顯示了用大型語言模型將非形式化語句自動翻譯成形式化語句的可行性。今年,這個團(tuán)隊又在此基礎(chǔ)之上提出了一整套名為“草圖、草稿、證明”(Draft,Sketch,andProve,簡稱DSP)的AI輔助證明方法。這套方法建議利用大型語言模型先將自然語言命題轉(zhuǎn)化為由一系列邏輯推理步驟組成的形式化命題,然后用交互式定理證明器來對這些命題進(jìn)行證明。當(dāng)然,在這些步驟之間,還存在著一系列的中間猜想。因此在證明的最后,還需要通過自動驗證器來對這些中間猜想進(jìn)行證明。這樣,上述的工作就可以合起來構(gòu)成一個完整的形式化證明。

(5)輔助寫作

對于科研工作來說,AI還有一個重要的貢獻(xiàn):輔助寫作。在很多人看來,在完成了研究、得到了相關(guān)的結(jié)論之后,把它們寫成論文就是一件非常輕松的事了。但事實上,情況未必如此。在現(xiàn)實中,有很多研究人員對做實驗、跑數(shù)據(jù)非常熱衷,但對寫論文則相當(dāng)?shù)钟|,甚至認(rèn)為花時間在遣詞造句上完全是浪費時間。而在以ChatGPT為代表的生成式AI興起之后,這類研究人員就得到了拯救。現(xiàn)在,他們在完成研究后,直接把相關(guān)的結(jié)論丟給ChatGPT,就可以得到非常規(guī)范的論文。很顯然,這會極大減輕他們的工作負(fù)擔(dān),提升他們的工作效率。

另一個容易被忽視的貢獻(xiàn)

需要指出的是,除了上述的這些直接貢獻(xiàn)之外,AI還有一個非常容易被忽視的影響,即重構(gòu)產(chǎn)學(xué)研關(guān)系、促進(jìn)企業(yè)對基礎(chǔ)研究的投資熱情。對于面臨一些領(lǐng)域被西方“卡脖子”的我國而言,這一點可能是尤其需要重視的。

根據(jù)《中國研發(fā)經(jīng)費報告2022》,2022年我國基礎(chǔ)研究經(jīng)費支出為1951億元,基礎(chǔ)研究投入強度為6.3%。雖然與歷史相比,我國對基礎(chǔ)研究投入的強度不斷上升,但如果與國外相比,就可以看到目前我國的基礎(chǔ)研究投入強度依然很低。

如果我們把基礎(chǔ)研究投入分執(zhí)行機構(gòu)進(jìn)行分析,就會發(fā)現(xiàn)以高校作為執(zhí)行機構(gòu)的比例是最高的,在總投入中占到了49.4%。其次是研究和開發(fā)機構(gòu),占39.1%,而企業(yè)作為執(zhí)行機構(gòu)的,僅占6.5%。相比之下,美國基礎(chǔ)研究經(jīng)費由企業(yè)執(zhí)行比例為32.4%,日本基礎(chǔ)研究經(jīng)費由企業(yè)執(zhí)行比例為47.07%。眾所周知,高校和科研機構(gòu)的經(jīng)費主要來自于國家撥款,而企業(yè)的研究經(jīng)費則主要是由其自行投入的。因此,這組數(shù)字就說明了,我國的企業(yè)在基礎(chǔ)研究上進(jìn)行投入的意愿要遠(yuǎn)低于美、日等國。

為什么會出現(xiàn)以上這樣的情況呢?一個重要的原因是,基礎(chǔ)研究的周期太長、風(fēng)險較大、轉(zhuǎn)化率又低,導(dǎo)致以利潤最大化為目標(biāo)的企業(yè)認(rèn)為從事基礎(chǔ)研究是無利可圖的。在發(fā)達(dá)國家,由于建立了比較完善的產(chǎn)學(xué)研共生生態(tài),類似風(fēng)險可以比較好地在企業(yè)、政府、科研機構(gòu)等眾多主體之間分擔(dān),所以企業(yè)對基礎(chǔ)研究的投資積極性就相對較高。而我國,產(chǎn)、學(xué)、研彼此之間的孤立性還較高,因而就很難有類似的風(fēng)險分擔(dān)機制。

顯然,要破解上述問題,根本的出路還是要培育健康的創(chuàng)新生態(tài),推進(jìn)產(chǎn)學(xué)研的一體化。但這是一個長期的過程,不是一朝一夕可以實現(xiàn)的。不過,即使在創(chuàng)新生態(tài)未能有效改善的條件下,AI的應(yīng)用也可以在很大程度上提升企業(yè)投資基礎(chǔ)研究的積極性。通過前面的分析可以看到,借助AI的輔助,基礎(chǔ)研究的周期可以大幅縮短,效率可以大幅提升。從經(jīng)濟(jì)角度看,這其實就增加了基礎(chǔ)科研的預(yù)期收益,同時降低了其失敗風(fēng)險。因此,原本無力可圖的基礎(chǔ)研究就可能成為一項合算的生意,企業(yè)對其投資的積極性也將提升。這樣一來,基礎(chǔ)研究投入不足的問題就可以得到有效的緩解。