《BMC Biology》:iPiDA-LGE: a local and global graph ensemble learning framework for identifying piRNA-disease associations
編輯推薦:
探索 piRNA 與疾病的關聯對發現診斷、預后生物標志物及治療靶點意義重大,F有計算方法存在特征學習過平滑、忽略局部鄰近關系等問題。研究人員提出 iPiDA-LGE 方法,實驗表明其能提升預測性能,為相關研究提供新思路。
在生命科學的微觀世界里,PIWI 相互作用 RNA(piRNA)就像一群神秘的 “小精靈”,它們雖小,卻在生物進程中發揮著關鍵作用。piRNA 是一類高度保守、具有物種特異性且表達豐富的小非編碼 RNA 分子,能與 PIWI 蛋白家族成員形成復合物,參與轉座子沉默、基因表達調控、胚胎發育和表觀遺傳修飾等多種生物功能,對維持基因組穩定性和生殖過程至關重要。
隨著研究的深入,人們發現 piRNA 功能異常與多種疾病的發生發展密切相關。這一發現讓科研人員看到了新的希望:如果能精準找到 piRNA 與疾病之間的關聯,或許就能發現新的診斷或預后生物標志物,找到更有效的治療靶點,為攻克疾病帶來新的曙光。于是,眾多科研人員投身于探索 piRNA 與疾病關聯的研究中,提出了許多計算方法。
然而,科研之路并非一帆風順,F有的計算方法在探索 piRNA 與疾病關聯時,遭遇了不少挑戰。一方面,在特征學習過程中,當前方法整合全局 piRNA - 疾病網絡的鄰近信息時,雖然讓節點特征更豐富,但也引入了無關噪聲干擾,導致節點特征過度平滑,就像是給原本清晰的畫面蒙上了一層霧,使得關鍵信息變得模糊不清。另一方面,現有方法忽視了局部鄰近關系,而這對于 piRNA - 疾病關聯識別任務至關重要。不同疾病中 piRNA 的功能機制差異很大,全局圖學習只能提取通用的、全局不變的節點特征,很難檢測出具有區分性的關聯模式,就好比用一把萬能鑰匙去開所有的鎖,效果自然不盡人意。
為了突破這些困境,來自西安電子科技大學、深圳北理莫斯科大學、北京理工大學等機構的研究人員攜手合作,開展了一項極具意義的研究。他們提出了一種名為 iPiDA-LGE(local and global graph ensemble learning framework for identifying piRNA-disease associations)的新計算方法,旨在更精準地識別 piRNA - 疾病關聯。該研究成果發表在《BMC Biology》上,為該領域的研究帶來了新的突破。
研究人員在開展這項研究時,運用了多種關鍵技術方法。首先,在數據集構建方面,他們從 piRBase、Disease Ontology 和 MNDR v3.0 等數據庫獲取 piRNA 序列、疾病本體信息及已知的 piRNA - 疾病關聯數據,經過處理構建了用于實驗的數據集。其次,在模型構建中,iPiDA-LGE 框架包含圖構建、圖表示和關聯預測三個主要步驟。通過構建異質關聯圖和局部上下文圖,分別從全局和局部層面獲取圖的特征;利用圖卷積神經網絡(GCN)進行圖表示學習,其中全局層面 GCN 捕獲 piRNA 和疾病的全局鄰域特征,局部層面 GCN 捕捉每個 piRNA - 疾病對的局部上下文特征;最后,將全局和局部層面的關聯得分進行整合,預測 piRNA - 疾病關聯。
下面來看具體的研究結果:
- 參數分析:研究人員重點分析了局部圖學習模塊中鄰居階數、 epoch、學習率和 GCN 層數這四個重要參數的影響。結果發現,鄰居階數影響局部圖的大小和上下文范圍,1 - hop 鄰域提取的局部圖語義信息有限;隨著 epoch 增加,局部圖學習模塊性能先提升后下降,較大的學習率可能導致模型發散或在最優解附近振蕩;與全局圖學習不同,局部圖學習模塊對 GCN 層數相對不敏感。綜合考慮運行時間和預測性能,最終將這些參數分別設置為 2、20、0.001 和 2。
- 全局和局部圖集成學習提升預測性能:通過比較 iPiDA-LGE 與僅從局部圖學習的 iPiDA-L 和僅從全局圖學習的 iPiDA-G 這兩個基線預測器,發現融合系數對 iPiDA-LGE 的整體性能較為敏感。iPiDA-L 基于局部圖學習,能捕獲特定上下文語義,在 iPiDA-LGE 中作用更重要,預測性能更高;iPiDA-LGE 在 AUC 和 AUPR 指標上優于 iPiDA-L 和 iPiDA-G,說明全局和局部圖的集成學習有助于提升性能;iPiDA-L 可能產生一些假陽性預測,iPiDA-G 則易將潛在關聯預測為陰性,而 iPiDA-LGE 通過整合兩者能獲得更具區分性的關聯分數。
- 局部和全局圖表示的特征分析:研究構建了基于不同特征的四個預測器進行比較,發現基于圖結構特征的預測器性能明顯優于基于拼接屬性特征的 iPiDA-A。iPiDA-L 提取的對特征比 iPiDA-G 更具區分性和表現力,因為 iPiDA-L 從特定局部上下文圖中捕獲對特征,能檢測不同類型 piRNA - 疾病對的特定模式,還能為目標對提取精細的上下文語義。
- 多種方法的性能比較:研究人員將 iPiDA-LGE 與其他六種前沿方法進行比較,通過隨機劃分 100 次創建獨立測試集,結果表明 iPiDA-LGE 在大多數指標上表現顯著更優。在留一病交叉驗證中,雖然多數方法性能不穩定且下降,但 iPiDA-LGE 在 AUC、AUPR 等綜合指標上仍優于其他方法,在 F1 分數和準確率上也表現出色。
- 案例研究:研究人員選取了帕金森病、心血管疾病等五種重大疾病進行案例研究,iPiDA-LGE 預測的與這些疾病相關的 piRNA 在生物文獻中均有支持。這些 piRNA 在不同樣本組中表達差異顯著,且大多存在單核苷酸多態性(SNP)變異,可能影響其生物學功能。此外,研究還將 iPiDA-LGE 應用于 miRNA - 疾病和 circRNA - 疾病關聯預測任務,結果顯示該框架在這兩個任務中也具有良好的性能和可擴展性。
在研究結論和討論部分,iPiDA-LGE 展現出諸多優勢。其全局圖學習模塊整合了 piRNA 序列和疾病本體等輔助信息,構建了補充異質關聯網絡,緩解了原始關聯的稀疏性問題,豐富了生物語義。局部圖學習模塊考慮了 piRNA 在不同疾病中的特定功能機制,將每個目標 piRNA - 疾病對編碼為局部圖,學習到更具區分性的摘要表示。兩者的結合使得 iPiDA-LGE 能同時基于局部圖進行精細推斷,基于全局圖進行總體判斷,提升了預測性能。
不過,研究也存在一些局限性。部分預測的 piRNA - 疾病關聯還需生物實驗進一步驗證,而且 iPiDA-LGE 在闡釋 piRNA 影響疾病發展的全面機制方面還面臨挑戰。未來研究可納入更多表型和基因型信息,如 SNP、表達譜、piRNA 靶點和多種生物實體關聯等,構建更全面的異質生物網絡;引入去噪技術、因果推斷和可解釋機制,提高模型的穩健性和生物學意義?傮w而言,iPiDA-LGE 為 piRNA - 疾病關聯研究開辟了新道路,為后續生物實驗和疾病機制探索提供了有價值的線索和方向,推動了生命科學和健康醫學領域的發展。