《Nature Reviews Genetics》:Predicting gene expression from DNA sequence using deep learning models
編輯推薦:
該綜述聚焦深度學習(DL)在基因表達預測領域的應用,探討序列到表達(S2E)模型的原理、訓練數據類型及不同方法優劣勢,涉及卷積神經網絡(CNNs)、transformer 架構等,還討論其在解析調控邏輯、預測非編碼變異等方面的進展與挑戰。
基因表達調控受啟動子、增強子等 DNA 元件及轉錄因子(TF)控制,其復雜組合邏輯使構建從 DNA 序列預測基因活性的計算模型頗具挑戰。深度學習技術的發展為解決這一難題帶來突破,特別是序列到表達(S2E)模型,能僅通過 DNA 序列預測基因表達水平,在預測非編碼變異影響、揭示基因調控分子機制及設計合成調控元件等方面前景廣闊。
深度學習在基因調控中的應用
傳統機器學習方法依賴 DNA 序列的預提取特征(如 k-mer 計數),缺乏關鍵位置信息(如轉錄因子結合位點間距)。而深度學習通過多層操作直接處理長基因組序列,能捕捉復雜、層次化和非線性模式,在 S2E 建模中實現突破。S2E 模型以 DNA 序列為輸入,可預測與序列相關的轉錄活性測量值,如 RNA 測序(RNA-seq)或表觀基因組 mapping 數據(如染色質免疫沉淀測序(ChIP–seq)、轉座酶可及染色質測序(ATAC–seq))。不過,當前 S2E 模型有根本局限,即無證據表明其能在訓練數據未涵蓋的細胞類型和條件下做出可靠預測。
模型架構設計對準確預測至關重要。鑒于 DNA 序列的序列性質,最常見的架構是卷積神經網絡(CNNs)和 transformers。CNNs 具有層次化架構,適合檢測和組合多個層次尺度的特征,其核心組件是卷積層,通過卷積核與序列子集的點積運算掃描輸入序列以尋找基序匹配。transformer 架構利用自注意力機制處理長距離依賴,能捕捉序列中元素的重要性權重,常與 CNN 結合形成混合架構。例如,Enformer 作為首批成功應用 transformers 的 S2E 模型,可處理長達 196 kb 的序列,雖后續分析表明其預測信號多來自近端區域,但仍在預測增強子方面有一定成效,其繼任者 Borzoi 輸入尺寸更大,能同時整合轉錄起始、終止和剪接,提升了基因表達水平相關任務的性能。不過,transformers 計算和內存復雜度高,在基于短序列實驗數據(如大規模平行報告分析(MPRA))訓練時,CNN 模型表現更優。
從單一特征到多任務模型
訓練深度學習模型的基因調控數據類型多樣,包括轉錄活性和 mRNA 豐度的直接測量值,以及表觀基因組 mapping 數據(如 TF 結合、調控元件活性、染色質狀態)。MPRA 直接測試大量短 DNA 片段的調控活性,為模型訓練提供了不同類型的數據。
早期研究嘗試用全基因組基因表達測量值訓練 S2E 模型,如在酵母中利用約 4,000 種不同實驗條件的 mRNA 表達數據,CNN 模型能較準確預測中位 mRNA 水平,但在預測細胞類型特異性表達模式上存在困難。以調控元件的全基因組圖譜(如增強子、啟動子)為基礎的深度學習建模也有進展,CNNs 基于 ChIP–seq 數據可準確預測 TF 結合模式,基于 ATAC–seq 數據能分類推定的調控元件。
多任務學習通過在單個模型中同時訓練多個相關任務(如多細胞類型的基因活性、多種表觀基因組數據)來提升模型性能,其原理是利用任務間的部分相似性促進更有效的學習。例如,結合多種實驗數據和多組織、細胞類型數據構建的綜合模型,展現出強大的預測能力。但多任務模型也存在爭議,其較大的模型規?赡苁蛊涓哳A測能力源于可擬合的大量參數,而非更準確捕捉生物機制,且在細胞類型特異性數據上可能表現不佳。遷移學習則通過先在大型相關數據集上訓練模型,再針對特定任務進行微調,可提高模型準確性和訓練速度。
MPRA 數據直接測量短 DNA 序列的調控活性,有助于推斷局部調控語法,但受限于短序列長度,難以建模調控元件間的長距離相互作用,且大規模 MPRA 目前僅限于培養細胞。不同 MPRA 設計(如 SuRE、STARR-seq)各有特點,基于 MPRA 數據訓練的模型(如 DeepSTARR、DeepLiver)在解析調控邏輯和設計合成調控元件方面取得了一定成果。
打開深度學習模型的 “黑箱”
解釋 S2E 模型可獲取調控序列的關鍵信息,如識別關鍵轉錄因子結合位點(TFBS)基序及特定功能的序列背景。模型解釋方法主要包括歸因方法、剖析序列上下文規則、可解釋模型和替代模型。
歸因方法用于評估序列中單個核苷酸對預測輸出的重要性,常見方法有計算機飽和突變(ISM)和反向傳播法。ISM 通過對輸入序列進行單核苷酸突變并查詢模型預測效應來生成歸因圖,可揭示基序在特定序列上下文中的功能,但計算成本高。反向傳播法則通過計算模型輸出對輸入的偏導數獲取歸因圖,計算效率更高但噪聲較大。TF-MoDISco 等算法可聚合多個序列的基序,幫助識別已知和新型調控基序。
剖析序列上下文規則通過設計特定序列預測其活性,模擬體內實驗以揭示調控邏輯,如通過插入兩個基序并改變間距,可揭示基序協同作用的最佳間距?山忉屇P停ㄈ ExplaiNN)結合深度學習的預測能力和線性模型的可解釋性,通過線性組合卷積層輸出預測 TF 結合和增強子活性,其系數可直接解釋為 TF 對預測的影響。替代模型(如 SQUID 框架)則用簡單模型近似訓練好的深度學習模型,以提高模型解釋性。
可擴展的獨立驗證策略
S2E 模型的驗證需要在各種條件下對性能和魯棒性進行全面評估。表達數量性狀位點(eQTL)數據庫常用于評估模型預測能力,但受連鎖不平衡限制,難以精確定位因果變異。MPRA 作為可擴展的實驗工具,可測試數十萬序列,為模型驗證提供了有效手段。其他驗證方法如螺旋酶輔助突變、CRISPR 干擾(CRISPRi)、Targeted Perturb-seq 等,可在不同層面驗證模型預測。
S2E 模型應用的最新進展
S2E 模型在解析順式調控邏輯方面成果顯著,如 BPNet 揭示了基序間距對 TF 協同作用的影響,后續研究進一步發現短串聯重復可促進 TF 結合,局部序列可解釋轉錄起始活性及定位,增強子區域的序列規則也通過 S2E 模型得到深入研究。
在預測非編碼變異影響方面,S2E 模型可預測 GWAS 中 SNP 的效應,幫助優先排序和精細定位 GWAS 變異,但在預測個體間變異效應方向上存在不足,訓練基于個性化基因組的模型可能是解決之道。此外,S2E 模型在跨物種預測增強子活性方面表現良好,可用于探索增強子進化的功能保守性。
在設計合成調控元件方面,利用 S2E 模型通過計算機進化等方法可設計出具有特定功能的合成序列,這些序列在生物技術和基因治療中具有應用潛力。
結論與未來展望
深度學習在解決 S2E 挑戰方面成果豐碩,但在捕捉長距離調控相互作用等方面仍面臨挑戰。將基因組原理和生物約束納入模型架構(如 AlphaFold 整合生物物理特性)可能提升模型性能;蚪M語言模型(gLMs)雖在編碼序列預測中成功,但在調控基因組任務中的應用潛力尚待挖掘。增加訓練數據的多樣性(如基因組序列與合成序列結合)可能改善模型性能。未來,S2E 模型需在跨細胞類型預測、整合 TF 豐度和翻譯后修飾數據等方面取得進展,同時需通過獨立方法嚴格驗證模型預測,以推動其在個性化醫療和生物技術中的應用。