《npj Systems Biology and Applications》:Effective integration of multi-omics with prior knowledge to identify biomarkers via explainable graph neural networks
編輯推薦:
為解決多組學數據整合難題及精準識別生物標志物問題,研究人員開展了 GNNRAI 框架的研究。結果顯示,該框架整合轉錄組和蛋白質組數據,優于單組學分析及 MOGONET 方法,還識別出多個 AD 相關生物標志物。這為 AD 研究及精準醫療提供了新方向。
在生命科學領域,隨著高通量技術的蓬勃發展,分子數據呈爆炸式增長。多組學(涵蓋 DNA、RNA、蛋白質和代謝物等分析)研究為探索生命奧秘打開了新大門,能幫助人們從多個層面理解復雜生物系統和疾病機制 。然而,多組學數據整合面臨重重挑戰。這些數據通常是高維且異質的,樣本量相對特征數量較小,還存在數據缺失等問題。傳統的無監督整合方法雖能發現一些分子機制和生物標志物,但無法針對特定疾病表型檢測相關信號或模式。在有監督的情況下,多組學數據整合方法相對較少,現有的基于樣本相似性結構的方法難以利用特征空間中的先驗信息。為了攻克這些難題,來自美國杰克遜實驗室基因組醫學中心(The Jackson Laboratory for Genomic Medicine)和杰克遜實驗室(The Jackson Laboratory)的研究人員開展了一項重要研究。他們提出了一種名為 GNNRAI(GNN-derived representation alignment and integration)的框架,用于多組學數據與生物先驗知識(以知識圖譜形式呈現)的有監督整合 。該研究成果發表在《npj Systems Biology and Applications》上,為阿爾茨海默。ˋD)研究及精準醫療帶來了新的曙光。
研究人員采用了多種關鍵技術方法。首先,在數據處理方面,對來自宗教秩序研究 / 記憶衰老項目(ROSMAP)隊列的轉錄組和蛋白質組數據進行了預處理,包括數據的標準化、校正年齡、性別和死后間隔時間(PMI)等協變量。其次,利用從公開生物數據庫獲取的先驗知識構建了阿爾茨海默病生物域(biodomains,BDs)的知識圖譜,為后續分析提供拓撲結構。在模型構建上,運用圖神經網絡(GNN)進行特征提取,將高維組學數據轉化為低維嵌入,再通過特征對齊和集合變換器進行特征整合,構建了完整的多組學整合模型 。
下面來看看具體的研究結果:
- GNNRAI 用于多組學整合和生物標志物識別:開發的 GNNRAI 框架包含基于 GNN 的特征提取器模塊,能有效處理不完整的多組學數據,通過對特征間關系的建模減輕訓練樣本量負擔,并利用先驗通路知識提高識別功能特征的可能性 。
- 阿爾茨海默病患者分類數據集:在 ROSMAP 隊列中,研究人員整合轉錄組和蛋白質組數據對阿爾茨海默病進行二元分類。創建了 16 個數據集,每個數據集包含特定生物域內的基因和蛋白質測量值。經過數據處理,得到不同類型的樣本數據,并將樣本的組學數據編碼為圖結構 。
- GNNRAI 優于基準方法及單模態模型:與 MOGONET 方法相比,GNNRAI 在 16 個生物域中的 13 個表現更優,平均提高了 2.2% 的驗證準確率 。同時,整合兩種模態的 GNNRAI 模型比單模態模型表現更好,說明該框架能有效整合轉錄組和蛋白質組數據,提升分類性能 。
- 模型驗證:研究人員對在 ROSMAP 隊列訓練的模型進行驗證,應用于不同研究和腦區的樣本數據。結果表明,同一模型在不同腦區的預測性能存在差異 。在 MSBB 隊列中,由于訓練數據量的差異等原因,出現了與 ROSMAP 隊列不同的結果 。
- 生物標志物識別:通過整合梯度方法,研究人員確定了與 AD 相關的生物標志物。在排名前 20 的基因 / 蛋白質中,有 9 個與 AD 生物學密切相關,還有 11 個是未被報道的新候選生物標志物 。
- 生物域間相互作用檢測:利用整合 Hessians 方法,研究人員發現脂質代謝在 AD 發病機制中處于核心地位,其與多個生物域存在相互作用,這些相互作用為理解 AD 的發病機制提供了新視角 。
研究結論和討論部分指出,GNNRAI 框架在多組學數據整合方面表現出色,有效克服了維度詛咒等計算難題,能利用樣本中的缺失模態數據 。然而,該研究也存在一定的局限性,如對知識圖譜結構的簡化假設,未納入其他組學數據等 。但總體而言,這項研究為多組學數據整合和生物標志物識別提供了新的有效方法,為阿爾茨海默病的研究和治療開辟了新的方向,有助于推動精準醫學的發展 。