科研動(dòng)態(tài)

科學(xué)研究

科研動(dòng)態(tài)

通過(guò)神經(jīng)網(wǎng)絡(luò)求解隨機(jī)化學(xué)反應(yīng)網(wǎng)絡(luò)

文章來(lái)源: 發(fā)布時(shí)間: 2023-03-20 【字體:      

隨機(jī)反應(yīng)網(wǎng)絡(luò)是物理學(xué)、化學(xué)、生物學(xué)和生態(tài)學(xué)中隨機(jī)過(guò)程的標(biāo)準(zhǔn)模型。代表性的例子包括生滅過(guò)程、自發(fā)不對(duì)稱(chēng)合成模型和基因調(diào)控網(wǎng)絡(luò)等。隨機(jī)反應(yīng)網(wǎng)絡(luò)通常通過(guò)化學(xué)主方程進(jìn)行建模,它描述了物種分子數(shù)的聯(lián)合概率分布隨時(shí)間的演化。然而,系統(tǒng)可能狀態(tài)數(shù)隨著物種的種類(lèi)數(shù)呈指數(shù)增長(zhǎng),因此,獲得物種分子數(shù)隨時(shí)間演化的聯(lián)合概率分布是一個(gè)難題。


為了通過(guò)數(shù)值方法近似求解化學(xué)主方程,研究者已經(jīng)做出了許多努力。其中最常用的方法是Gillespie算法。Gillespie算法屬于動(dòng)力學(xué)蒙特卡羅方法,可以從所有可能的狀態(tài)軌跡中采樣以生成相關(guān)變量的統(tǒng)計(jì)數(shù)據(jù)。然而,為了獲得高精度的聯(lián)合概率分布數(shù)據(jù)需要進(jìn)行大量的軌跡模擬,系統(tǒng)的動(dòng)力學(xué)可能會(huì)受到罕見(jiàn)但重要的軌跡的顯著影響,而這些軌跡很難通過(guò)Gillespie算法進(jìn)行采樣。為了改善這些問(wèn)題,研究者提出了很多改進(jìn),例如Gillespie算法的連續(xù)版本(化學(xué)Langevin方程)、對(duì)CME的狀態(tài)空間進(jìn)行截?cái)?、Finite state projection以及ACME等方法等。然而當(dāng)物種的分子數(shù)有很大波動(dòng),或者種類(lèi)數(shù)和分子數(shù)都很大時(shí),這些方法仍然具有高計(jì)算成本和低計(jì)算精度的問(wèn)題。盡管在這一方面已經(jīng)付出了很大的努力,目前仍然缺乏一種通過(guò)直接表示聯(lián)合概率分布演化的方式來(lái)求解化學(xué)主方程的通用方法。


近日,中科院理論物理所彭桓武青年訪(fǎng)問(wèn)科學(xué)家、北京師范大學(xué)復(fù)雜系統(tǒng)國(guó)際科學(xué)中心的湯迎副研究員和學(xué)生翁佳鈺與中國(guó)科學(xué)院理論物理研究所的張潘研究員合作,在Nature Machine Intelligence發(fā)表論文“Neural-network solutions to stochastic reaction networks”,提出了使用變分自回歸網(wǎng)絡(luò)來(lái)求解化學(xué)主方程的機(jī)器學(xué)習(xí)方法,提出用變分自回歸神經(jīng)網(wǎng)絡(luò)(VAN)[1] 來(lái)研究隨機(jī)反應(yīng)網(wǎng)絡(luò)中物種分子數(shù)的聯(lián)合概率分布,刻畫(huà)聯(lián)合分布演化并求解化學(xué)主方程(圖?1)。VAN是張潘研究員與合作者于2019年提出的神經(jīng)網(wǎng)絡(luò)變分方法,能夠?qū)y(tǒng)計(jì)物理微觀(guān)構(gòu)型進(jìn)行有效采樣,并計(jì)算不同構(gòu)型的歸一化概率,已被應(yīng)用于統(tǒng)計(jì)物理學(xué)、量子多體系統(tǒng)、開(kāi)放量子系統(tǒng)、量子電路和計(jì)算生物學(xué)。這項(xiàng)工作擴(kuò)展了VAN以表征隨機(jī)反應(yīng)網(wǎng)絡(luò)中物種分子數(shù)的聯(lián)合概率分布。作為VAN的神經(jīng)網(wǎng)絡(luò)單元,作者采用了遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和Transformer架構(gòu),它們可以靈活地表示高維概率分布并靈活調(diào)整物種分子數(shù)的上限。拓展的VAN也允許對(duì)每個(gè)物種添加物種分子數(shù)上限的約束,或者維持某些系統(tǒng)中物種分子總數(shù)守恒的約束,這都可以收縮概率空間以提高計(jì)算的準(zhǔn)確性。新方法采用強(qiáng)化學(xué)習(xí)框架中的策略梯度算法訓(xùn)練自回歸網(wǎng)絡(luò),不需要使用其他方法先驗(yàn)?zāi)M的任何數(shù)據(jù),給出了一個(gè)自動(dòng)歸一化分布作為任意有限時(shí)間內(nèi)化學(xué)主方程的解,得到隨時(shí)間演化的聯(lián)合分布,提供了高維狀態(tài)空間中每種構(gòu)型在不同時(shí)刻的概率。此外,此方法在表示多峰分布方面表現(xiàn)出可塑性,對(duì)于物種分子數(shù)守恒的系統(tǒng),具有隨時(shí)間變化的反應(yīng)速率的系統(tǒng)和高維系統(tǒng)均是非常有效的。



圖1:跟蹤隨機(jī)反應(yīng)網(wǎng)絡(luò)隨時(shí)間變化的聯(lián)合概率分布。(上)對(duì)于反應(yīng)網(wǎng)絡(luò),狀態(tài)空間隨物種的種類(lèi)數(shù)增多呈指數(shù)級(jí)增長(zhǎng),使得跟蹤聯(lián)合分布的時(shí)間演化變得困難。變分自回歸方法(VAN)可以參數(shù)化表示聯(lián)合分布。(中)從初始分布出發(fā),通過(guò)連續(xù)時(shí)間步長(zhǎng)的聯(lián)合分布之間的KL散度來(lái)最小化損失函數(shù),以學(xué)習(xí)其時(shí)間演化。為了在下一時(shí)刻訓(xùn)練VAN,從上一時(shí)刻分布中抽取樣本。每個(gè)樣本都由一列堆疊的正方形表示,其顏色代表物種,數(shù)字表示它們的分子數(shù)。對(duì)于每個(gè)樣本,連接構(gòu)型的數(shù)量與化學(xué)反應(yīng)的數(shù)量相等。(下)用Gillespie算法模擬軌跡可以產(chǎn)生邊際分布,但一般不能準(zhǔn)確產(chǎn)生高維聯(lián)合分布,而VAN跟蹤了所有物種數(shù)隨時(shí)間變化的聯(lián)合分布。


作者將該方法應(yīng)用于物理學(xué)和生物學(xué)中的代表性示例,具體的應(yīng)用包括基因切換開(kāi)關(guān)、細(xì)胞內(nèi)信號(hào)級(jí)聯(lián)反應(yīng)、早期生命自我復(fù)制以及具有時(shí)變速率的流行病模型等,結(jié)果(見(jiàn)圖2和圖3)證明該方法是一種基于現(xiàn)代機(jī)器學(xué)習(xí)研究隨機(jī)反應(yīng)網(wǎng)絡(luò)的通用方法。



圖2:基因切換開(kāi)關(guān)的結(jié)果。(a) 隨機(jī)反應(yīng)網(wǎng)絡(luò)的示意圖。(b)由VAN(點(diǎn))和Gillespie算法(線(xiàn))得到的基因和蛋白質(zhì)的平均分子數(shù)隨時(shí)間的演化。(c)比較VAN和Gillespie模擬在時(shí)間點(diǎn)t = 0,1,…,40的基因和蛋白質(zhì)的均值和標(biāo)準(zhǔn)差。(d)Gillespie模擬(灰色)和VAN的邊緣分布。圖例中包含兩個(gè)分布之間的Hellinger距離。(e)由VAN得到的兩種蛋白質(zhì)在時(shí)間點(diǎn)t = 1,40的聯(lián)合分布,顏色表示了對(duì)數(shù)尺度上的概率值。



圖3:細(xì)胞內(nèi)信號(hào)級(jí)聯(lián)反應(yīng)的結(jié)果。(a)隨機(jī)反應(yīng)網(wǎng)絡(luò)的示意圖。(b)由VAN(點(diǎn))和Gillespie算法(線(xiàn))得到的基因和蛋白質(zhì)的平均分子數(shù)隨時(shí)間的演化。不同顏色表示不同物種種類(lèi)。(c)在時(shí)間點(diǎn)t=1,2,…,10,VAN和Gillespie模擬之間物種分子數(shù)的平均值和標(biāo)準(zhǔn)差的比較。(d)Gillespie模擬(灰色)和VAN的邊緣分布。圖例中包含兩個(gè)分布之間的Hellinger距離。(e)第一個(gè)物種和最后一個(gè)物種在VAN時(shí)間點(diǎn)t = 2,10的聯(lián)合概率分布,顏色表示概率值。(f)物種種類(lèi)數(shù)不同的系統(tǒng)的計(jì)算時(shí)間,可以發(fā)現(xiàn)計(jì)算時(shí)間尺度幾乎與物種的種類(lèi)數(shù)成線(xiàn)性關(guān)系,對(duì)于高維系統(tǒng)有高效的計(jì)算效率。


論文鏈接:

https://www.nature.com/articles/s42256-023-00632-6

論文免費(fèi)只讀版本:

https://rdcu.be/c7MVp

程序包:

https://github.com/jamestang23/NNCME

附件下載: