基于概率圖模型的非同義變異選擇系數估算方法MisFit及其在人類群體基因組數據中的應用

《Nature Communications》:A probabilistic graphical model for estimating selection coefficients of nonsynonymous variants from human population sequence data

【字體: 時間:2025年05月21日 來源:Nature Communications 14.7

編輯推薦:

  本研究針對錯義變異(missense variants)致病性預測的局限性,開發了概率圖模型MisFit,通過整合分子效應(d)和群體選擇系數(s)的聯合建模,利用236,017例歐洲 ancestry人群數據,實現了對變異 fitness效應的定量評估。該方法在跨人群等位基因頻率預測、神經發育障礙(NDD)新生變異優先排序等方面顯著優于現有工具,為疾病風險基因發現和臨床遺傳診斷提供了新視角。

  

在人類遺傳學研究中,準確預測錯義變異(missense variants)的功能影響是發現疾病風險基因和臨床診斷的關鍵。這類變異通過單個氨基酸改變影響蛋白質功能,是發育障礙、癌癥等疾病的主要遺傳因素。然而,現有預測方法如CADD、REVEL等主要基于已知致病變異標簽進行監督學習,存在兩大局限:一是預測結果混雜了基因-疾病關聯的未知信息;二是僅定性判斷"致病性",無法量化變異對人類適應度(fitness)的實際影響。

哥倫比亞大學研究團隊在《Nature Communications》發表研究,開發了創新性概率圖模型MisFit。該方法突破傳統框架,通過聯合建模分子水平損傷程度(d)和群體水平選擇系數(s),利用236,017例歐洲血統人群基因組數據,首次實現了對錯義變異適應度效應的精準量化。研究證實,s值能有效預測跨人群等位基因頻率分布,與神經發育障礙新生變異比例高度吻合,在疾病變異優先排序中顯著優于現有工具。

關鍵技術包括:1) 基于歐洲人群歷史有效群體大小的Wright-Fisher模擬;2) 泊松-逆高斯(PIG)分布建模等位基因計數;3) 整合ESM-2蛋白質語言模型嵌入特征;4) 4073個受約束基因的變分推理訓練;5) 自閉癥譜系障礙(16,876例)和神經發育疾病隊列的驗證分析。

【使用Poisson-Inverse-Gaussian分布建模人類群體等位基因計數】
通過模擬歐洲人群擴張歷史,發現強選擇變異(s>0.01)的等位基因分布接近泊松分布,而溫和選擇變異更符合負二項分布。創新的PIG模型在所有選擇強度范圍內均優于傳統分布假設,為后續選擇系數估算奠定基礎。

【MisFit模型結構與訓練過程】
模型創新性地將ESM-2蛋白質嵌入特征通過Transformer塊轉化為分子損傷d,再與基因特異性選擇強度sgene耦合。兩階段訓練策略:第一階段利用哺乳動物同源序列和群體數據優化d的估計;第二階段通過變分推斷獲得后驗選擇系數。關鍵突破在于將s建模為d的sigmoid函數,避免直接估計單個變異的s。

【基因水平約束的比較】
發現sgene與gnomAD錯義z評分顯著相關但提供不同信息:KRAS等獲得功能(gain-of-function)基因在錯義變異上呈現異常高選擇(sgene=0.37),而PTV選擇系數僅為0.0002,揭示不同遺傳模式基因的選擇壓力差異。

【跨人群超罕見變異預測】
在28,872例非洲血統人群驗證中,MisFit_S預測的強有害變異(s>0.01)零計數比例達82.3%,是基線模型的1.8倍,證明其跨人群適用性。消融實驗顯示蛋白質語境特征對預測精度貢獻率達47%。

【選擇系數與新生突變比例的關系】
自閉癥隊列分析顯示,當MisFit_S>0.01時,病例組新生變異比例與理論預期高度吻合(R2=0.91),而對照組因家系選擇偏差偏離預期,證實s估算的生物學合理性。

【神經發育障礙新生變異的優先排序】
在NDD數據分析中,MisFit_S排名前10%的變異富集比達6.7倍,顯著優于AlphaMissense(5.2倍)和gMVP(4.8倍)。精確召回曲線下面積(AUPRC)提高21%,為基因發現研究提供更可靠權重。

【深度突變掃描數據驗證】
在26個基因44,100個變異的DMS數據中,MisFit_D與實驗測量值的Spearman相關性(ρ=0.61)與ESM相當,但跨基因性能更穩定(靈敏度標準差0.08 vs 監督方法的0.15)。

該研究通過創新性地解耦變異分子效應與基因背景,建立了首個能定量評估錯義變異選擇系數的計算框架。其重要意義在于:1) 突破傳統致病性預測的定性局限,實現適應度效應的連續量化;2) 揭示不同遺傳模式基因的選擇模式差異,如獲得功能基因的特殊約束特征;3) 為群體遺傳學和醫學遺傳學研究提供新工具,特別在神經發育障礙等強選擇表型中展現突出價值。隨著非歐人群基因組數據的增加,該方法有望進一步改善中等選擇變異(s<0.001)的估算精度,推動精準醫學發展。

相關新聞
生物通微信公眾號
微信
新浪微博
  • 急聘職位
  • 高薪職位

知名企業招聘

熱點排行

    今日動態 | 人才市場 | 新技術專欄 | 中國科學人 | 云展臺 | BioHot | 云講堂直播 | 會展中心 | 特價專欄 | 技術快訊 | 免費試用

    版權所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    聯系信箱:

    粵ICP備09063491號

    亚洲欧美自拍偷拍,亚洲人成77777,亚洲男女自偷自拍,亚洲成年在线