包括深度學(xué)習(xí)在內(nèi)的機器學(xué)習(xí)研究近年來發(fā)展迅速,掀起了人工智能領(lǐng)域新一輪熱潮,并使人工智能成為大眾廣泛討論的議題。機器學(xué)習(xí)程序,例如谷歌公司的 Alpha Go,在語音分析、圍棋、圖像識別等方面之所以取得巨大的成功,其中最重要的原因是用來進行模型訓(xùn)練的數(shù)據(jù)量在不斷增大,而且計算性能的快速提高使得可以構(gòu)建的模型尺寸也在快速增大。大數(shù)據(jù)的涌現(xiàn)為統(tǒng)計物理應(yīng)用于這個快速發(fā)展領(lǐng)域提供了極好的契機。中國科學(xué)院理論物理研究所副研究員張潘博士以統(tǒng)計物理與機器學(xué)習(xí)這一新興交叉學(xué)科研究前沿為主攻對象,將自旋玻璃理論與消息傳遞算法用于機器學(xué)習(xí)中的統(tǒng)計推斷和神經(jīng)網(wǎng)絡(luò)等理論問題中,取得了可喜的階段性成果,論文接連發(fā)表于物理學(xué)頂級刊物 PRX (Physical Review X) 及機器學(xué)習(xí)頂級國際會議 NIPS (Neural Information Processing Systems), 受到國際國內(nèi)同行的關(guān)注。
在 NIPS 論文 [1] 中,張潘探討復(fù)雜數(shù)據(jù)的全局結(jié)構(gòu)問題,他的目標是通過譜方法尋找并表征高維數(shù)據(jù)的全局結(jié)構(gòu)。雖然譜方法(包括譜聚類、主成分析、奇異值分解等等)因為其低復(fù)雜度和簡潔性在機器學(xué)習(xí)中被廣泛使用,但實際數(shù)據(jù)通常有很強的稀疏性且包含各種噪聲,導(dǎo)致傳統(tǒng)的譜方法出現(xiàn)本征向量或者奇異向量的局域化現(xiàn)象而不能很好的描述數(shù)據(jù)的全局結(jié)構(gòu)。張潘發(fā)現(xiàn)可以用刻畫波函數(shù)局域化的方法來描述譜方法局域化現(xiàn)象,并在此基礎(chǔ)上提出了一種基于微擾分析的快速譜算法用于提取稀疏高維數(shù)據(jù)的重要結(jié)構(gòu)信息,從而克服了譜方法的一個嚴重瓶頸問題。新的譜方法在測試數(shù)據(jù)集上非常成功,將擴展譜方法的應(yīng)用范圍,推動大數(shù)據(jù)挖掘研究。
在 PRX 論文 [2] 中,張潘和合作者基于統(tǒng)計物理自旋玻璃方法和相變理論研究隨時間演化的大規(guī)模網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu)探測問題。他們能夠精確計算出基準模型網(wǎng)絡(luò)的可探測相變點,而且提出并驗證了可以工作到理論極限的消息傳遞算法和譜算法。這項工作預(yù)期將推動網(wǎng)絡(luò)科學(xué)的模式識別研究的進一步發(fā)展。
張潘副研究員的工作得到中國科學(xué)院理論物理重點實驗室的資助。
[1] "Robust Spectral Detection of Global Structures in the Data by Learning a Regularization", P. Zhang,Advances in Neural Information Processing Systems (2016) , arXiv: 1609.02906 (2016).
[2] "Detectability Thresholds and Optimal Algorithms for Community Structure in Dynamic Networks", A. Ghasemian, P. Zhang, A. Clauset, C. Moore, and L. Peel, ?Physical Review X 6, 031005 (2016). |