GL4SDA:基于 GNN 和 LLM 精準預測 snoRNA - 疾病關聯,開啟生命科學新視野

《Computational and Structural Biotechnology Journal》:GL4SDA: Predicting snoRNA-disease associations using GNNs and LLM embeddings

【字體: 時間:2025年05月07日 來源:Computational and Structural Biotechnology Journal 4.5

編輯推薦:

  為解決傳統方法難以高效準確預測 snoRNA - 疾病關聯的問題,研究人員開展了 GL4SDA(基于圖神經網絡 GNN 和大語言模型 LLM 預測 snoRNA - 疾病關聯)的研究。結果顯示該方法在鏈接預測任務中表現出色,有助于探索 snoRNA - 疾病關系。

  在生命科學領域,小核仁 RNA(snoRNA)的研究正逐漸成為熱點。snoRNA 作為一類非編碼 RNA(ncRNA),在核糖體 RNA(rRNA)、小核 RNA(snRNA)等的生物合成和成熟過程中扮演著不可或缺的角色。它們通過與 RNA 結合蛋白(RBPs)等形成 snoRNP 復合物,引導 rRNA 和 snRNA 的甲基化、假尿苷化等修飾,這些修飾對于核糖體和剪接體的正常功能至關重要。
近年來,越來越多的研究發現,snoRNA 與多種人類疾病密切相關。在癌癥領域,snoRNA 的異常表達十分常見,并且在不同癌癥類型、階段和轉移過程中呈現出差異表達,能夠積極影響疾病進程。例如,在某些癌癥中,特定 snoRNA 的缺失或過表達會導致相關信號通路的改變,進而促進腫瘤的形成和發展。然而,傳統的實驗方法在揭示 snoRNA 與疾病之間的關聯時,存在耗時久、成本高的問題,這使得科研人員急需一種高效且準確的計算方法來解決這一難題。

在此背景下,來自未知研究機構的研究人員開展了一項旨在預測 snoRNA - 疾病關聯的研究,相關成果發表在《Computational and Structural Biotechnology Journal》上。研究人員提出了一種名為 GL4SDA(GNN and LLM for snoRNA - disease association,基于圖神經網絡和大語言模型預測 snoRNA - 疾病關聯)的全新方法。

研究人員主要運用了以下關鍵技術方法:首先,從 RNADisease v4.0 數據庫獲取 snoRNA - 疾病關聯數據,經過篩選和處理得到訓練數據集。對于 snoRNA 的特征提取,利用其二級結構,通過 Molecular Substructure Miner(MoSS)算法獲取結構特征,將其表示為布爾特征向量;對于疾病特征,從Malacards.org數據庫獲取疾病描述,使用北京人工智能研究院(BAAI)的 bge - icl - en 模型生成疾病嵌入。然后,構建了基于不同圖神經網絡(GNN)層的模型,包括 GraphConv、SAGEConv 和 GATv2Conv 層,通過實驗比較不同模型的性能 。

在實驗結果方面:

  • 模型性能評估:通過將數據集隨機劃分為訓練集和測試集,并進行 10 折交叉驗證,研究人員發現 GL4SDA 的 GraphConv - based 模型在各項評估指標中表現優異。該模型在不考慮邊權重時,獲得了最高的 MCC(馬修斯相關系數)、AUC(受試者工作特征曲線下面積)等分數,表明其能夠更好地捕捉 snoRNA 和疾病特征及其關聯的隱藏模式。與其他三種基于圖的先進工具(IGCNSDA、GCLSDA 和 SAGESDA)相比,GL4SDA 在除召回率外的所有指標上均表現更優,其精度得分高達 92%,意味著預測的陽性關聯可靠性極高,且 MCC 值顯著高于其他方法,體現了其穩定性和平衡性。
  • 特征重要性分析:研究人員通過消融實驗評估了節點特征對模型性能的影響。分別采用 4 - mer 表示 snoRNA 序列和通用嵌入表示疾病特征、結構片段表示 snoRNA 和通用嵌入表示疾病、4 - mer 表示 snoRNA 和 LLM 嵌入表示疾病這三種組合進行實驗,結果表明 snoRNA 結構特征和疾病 LLM 嵌入均對分類得分有顯著提升,證明了所選取特征的有效性。
  • 案例研究驗證:研究人員針對結直腸癌和肺癌進行了案例研究。為每種疾病創建測試集,預測可能的 snoRNA - 疾病關聯,并在文獻中搜索實驗驗證。在肺癌驗證分析中,發現 GL4SDA 預測的一些 snoRNA,如 SNORD48、SNORD44 等,在文獻中有證據表明其在肺癌組織中存在差異表達,部分 snoRNA 還與肺癌的發展機制相關,如 SNORA71A 通過調節 MAPK/ERK 通路刺激上皮 - 間質轉化(EMT)。在結直腸癌驗證分析中,也發現多個預測的 snoRNA,如 SNORA61、SNORA71A 等,與結直腸癌的發生發展密切相關,涉及 NF - κB 信號通路等關鍵生物學過程。此外,研究人員還對肺癌案例進行了解釋性研究,利用可解釋人工智能(XAI)技術獲取對預測關聯貢獻最大的 snoRNA 節點特征,這些特征可作為分子設計的結構背景。

研究結論和討論部分指出,GL4SDA 通過整合 snoRNA 結構特征和疾病 LLM 嵌入,有效構建了異質生物圖中復雜關系的特征豐富表示,在預測 snoRNA - 疾病關聯方面優于現有基于圖的方法。案例研究進一步驗證了該方法在揭示新型 snoRNA - 疾病關系方面的潛力,能夠為實驗研究提供指導,減少科研人員的工作量。然而,該研究也存在一定局限性。數據集方面,公開可用的已驗證 snoRNA - 疾病關聯較少,且數據集稀疏不平衡,無法進行外部獨立測試。在模型方面,盡管所選 LLM 模型表現出色,但由于其通用訓練集的特性,可能無法完全捕捉罕見疾病的細微差別,且無法確定未來模型更新對性能的影響。未來研究可考慮擴展模型,納入 snoRNA - 疾病關聯的正負性信息,這將有助于科學家更深入理解關聯的生物學效應。此外,該研究為分析其他 ncRNA - 疾病相互作用奠定了基礎,有望推動生命科學和健康醫學領域的進一步發展。

相關新聞
生物通微信公眾號
微信
新浪微博
  • 急聘職位
  • 高薪職位

知名企業招聘

熱點排行

    今日動態 | 人才市場 | 新技術專欄 | 中國科學人 | 云展臺 | BioHot | 云講堂直播 | 會展中心 | 特價專欄 | 技術快訊 | 免費試用

    版權所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    聯系信箱:

    粵ICP備09063491號

    亚洲欧美自拍偷拍,亚洲人成77777,亚洲男女自偷自拍,亚洲成年在线