《BMC Bioinformatics》:Scmaskgan: masked multi-scale CNN and attention-enhanced GAN for scRNA-seq dropout imputation
編輯推薦:
單細胞 RNA 測序(scRNA-seq)面臨基因表達未檢測到的 “dropout” 事件挑戰。研究人員提出 scMASKGAN,融合掩蔽、CNN、注意力機制和殘差網絡。實驗表明其在多數據集表現優異,提升下游分析效果,為解析生物信息提供新工具。
在生命科學研究的微觀世界里,單細胞 RNA 測序(scRNA-seq)如同一位精細的畫師,能勾勒出細胞間基因表達的差異,為解析細胞異質性提供高分辨率視角。然而,這項技術存在一個棘手的 “頑疾”—— 在單個細胞中基因表達未被檢測到的 “dropout” 事件(即零表達值可能是真實無表達或技術噪音導致的假缺失),如同蒙在畫面上的薄霧,模糊了真實的基因表達圖景,阻礙了對細胞真實狀態和生物過程的準確解讀。傳統方法如 MAGIC、SAVER 等雖能一定程度改善數據,但或因依賴細胞相似性假設丟失低表達基因,或因過度平滑掩蓋生物變異性;深度學習方法如 DeepImpute、DCA 等雖有進展,卻也存在參數調優復雜、易生成無效值等局限。如何更精準地識別和修復這些缺失值,成為單細胞分析領域亟待攻克的難題。
為突破這一困境,哈爾濱工程大學計算機科學與技術學院、國家政務建模與仿真工程實驗室的研究人員開展了一項富有創新性的研究。他們提出了一種名為 scMASKGAN 的新型框架,并將其研究成果發表在《BMC Bioinformatics》上。該研究通過巧妙的技術設計,為單細胞數據修復開辟了新路徑,顯著提升了數據質量和下游分析效能。
研究人員主要采用了以下關鍵技術方法:將單細胞基因表達矩陣轉換為圖像表示,把數據修復問題轉化為像素修復任務;構建包含掩蔽機制、卷積神經網絡(CNN)、自注意力機制和殘差網絡(ResNets)的生成對抗網絡(GAN)架構,其中生成器基于細胞類型標簽和噪聲生成合成數據,判別器區分真實與合成數據;引入隔離森林(Isolation Forest)算法檢測并去除合成數據中的異常值;利用歐氏距離和動態調整的相似性閾值篩選近鄰細胞,結合 K 近鄰(KNN)算法完成最終修復。研究使用了 7 種不同類型的 scRNA-seq 數據集及 10 個神經母細胞瘤樣本數據進行實驗驗證。
研究結果
多維度評估展現優越性能
在 7 個多樣化數據集和 10 個神經母細胞瘤樣本上的實驗表明,scMASKGAN 在多種評估指標上表現出色。均勻流形近似與投影(UMAP)分布顯示,其能有效保留細胞類型結構,與原始數據高度吻合,優于多數對比方法;變異系數(CV)分析顯示,其在不同 dropout 率下保持較低變異,數據穩定性佳;詹森 - 香農距離(JS 距離)和 Wasserstein 距離(EMD)結果表明,scMASKGAN 生成的數據與原始數據分布高度一致;聚類指標(ACC、AUC、F1 分數)顯示,其在細胞類型分類中表現優異,尤其在人腦數據集等場景中優勢顯著;皮爾遜相關系數分析證實,修復后數據與原始數據相關性高,基因間關系保留良好。
下游分析驗證生物相關性
基因 - 基因相關性分析顯示,在小鼠胚胎干細胞(ESC)數據集上,scMASKGAN 能有效恢復細胞周期基因間的已知關聯,并發現新的共表達關系,如 cdc20 與 Cenpa/PLK1、Msh2 與 Mcm2/Mcm6 的相關性,與已知生物學知識相符;時間序列數據分析中,其修復的 H1 ESC 向確定性內胚層細胞(DEC)分化數據,通過 Monocle3 重建軌跡,顯示細胞間過渡更平滑,標記基因表達軌跡更清晰,GO 富集分析表明相關基因與免疫功能通路激活相關;批次數據修復實驗中,針對 10 個神經母細胞瘤樣本,其有效減少技術噪音,增強細胞連通性,關鍵標記基因表達恢復準確,高表達基因保持穩定,低表達基因修復顯著;不同 dropout 率下的基因表達分析顯示,高變異基因表達結構完整,生物信號保留良好。
研究結論與意義
scMASKGAN 通過將數據修復轉化為圖像修復任務,融合多種深度學習組件,成功實現了單細胞 RNA 測序數據缺失值的高效修復。其優勢在于無需對基因施加特定約束即可保留數據固有結構,能動態捕捉基因 - 基因和基因 - 細胞間的復雜相互作用,生成符合生物背景的合成數據,避免過擬合并保留稀有細胞特征。實驗驗證了其在不同物種、測序平臺、數據規模和 dropout 率下的魯棒性,尤其在高 dropout 率的神經母細胞瘤數據中表現卓越。
該研究為單細胞數據分析提供了一種強有力的工具,顯著提升了下游分析如基因調控網絡解析、細胞分化軌跡推斷、差異表達分析等的準確性,為深入挖掘單細胞層面的生物信息奠定了堅實基礎。盡管在部分特定平臺(如 sc_CEL-seq2)數據中性能有待優化,但 scMASKGAN 的整體表現彰顯了其在單細胞研究領域的重要應用價值,為后續優化方向和跨平臺應用提供了有價值的參考。