-
生物通官微
陪你抓住生命科技
跳動的脈搏
基于概率圖模型的非同義變異選擇系數估算方法MisFit及其在人類群體基因組數據中的應用
《Nature Communications》:A probabilistic graphical model for estimating selection coefficients of nonsynonymous variants from human population sequence data
【字體: 大 中 小 】 時間:2025年05月21日 來源:Nature Communications 14.7
編輯推薦:
本研究針對錯義變異(missense variants)致病性預測的局限性,開發了概率圖模型MisFit,通過整合分子效應(d)和群體選擇系數(s)的聯合建模,利用236,017例歐洲 ancestry人群數據,實現了對變異 fitness效應的定量評估。該方法在跨人群等位基因頻率預測、神經發育障礙(NDD)新生變異優先排序等方面顯著優于現有工具,為疾病風險基因發現和臨床遺傳診斷提供了新視角。
在人類遺傳學研究中,準確預測錯義變異(missense variants)的功能影響是發現疾病風險基因和臨床診斷的關鍵。這類變異通過單個氨基酸改變影響蛋白質功能,是發育障礙、癌癥等疾病的主要遺傳因素。然而,現有預測方法如CADD、REVEL等主要基于已知致病變異標簽進行監督學習,存在兩大局限:一是預測結果混雜了基因-疾病關聯的未知信息;二是僅定性判斷"致病性",無法量化變異對人類適應度(fitness)的實際影響。
哥倫比亞大學研究團隊在《Nature Communications》發表研究,開發了創新性概率圖模型MisFit。該方法突破傳統框架,通過聯合建模分子水平損傷程度(d)和群體水平選擇系數(s),利用236,017例歐洲血統人群基因組數據,首次實現了對錯義變異適應度效應的精準量化。研究證實,s值能有效預測跨人群等位基因頻率分布,與神經發育障礙新生變異比例高度吻合,在疾病變異優先排序中顯著優于現有工具。
關鍵技術包括:1) 基于歐洲人群歷史有效群體大小的Wright-Fisher模擬;2) 泊松-逆高斯(PIG)分布建模等位基因計數;3) 整合ESM-2蛋白質語言模型嵌入特征;4) 4073個受約束基因的變分推理訓練;5) 自閉癥譜系障礙(16,876例)和神經發育疾病隊列的驗證分析。
【使用Poisson-Inverse-Gaussian分布建模人類群體等位基因計數】
通過模擬歐洲人群擴張歷史,發現強選擇變異(s>0.01)的等位基因分布接近泊松分布,而溫和選擇變異更符合負二項分布。創新的PIG模型在所有選擇強度范圍內均優于傳統分布假設,為后續選擇系數估算奠定基礎。
【MisFit模型結構與訓練過程】
模型創新性地將ESM-2蛋白質嵌入特征通過Transformer塊轉化為分子損傷d,再與基因特異性選擇強度sgene耦合。兩階段訓練策略:第一階段利用哺乳動物同源序列和群體數據優化d的估計;第二階段通過變分推斷獲得后驗選擇系數。關鍵突破在于將s建模為d的sigmoid函數,避免直接估計單個變異的s。
【基因水平約束的比較】
發現sgene與gnomAD錯義z評分顯著相關但提供不同信息:KRAS等獲得功能(gain-of-function)基因在錯義變異上呈現異常高選擇(sgene=0.37),而PTV選擇系數僅為0.0002,揭示不同遺傳模式基因的選擇壓力差異。
【跨人群超罕見變異預測】
在28,872例非洲血統人群驗證中,MisFit_S預測的強有害變異(s>0.01)零計數比例達82.3%,是基線模型的1.8倍,證明其跨人群適用性。消融實驗顯示蛋白質語境特征對預測精度貢獻率達47%。
【選擇系數與新生突變比例的關系】
自閉癥隊列分析顯示,當MisFit_S>0.01時,病例組新生變異比例與理論預期高度吻合(R2=0.91),而對照組因家系選擇偏差偏離預期,證實s估算的生物學合理性。
【神經發育障礙新生變異的優先排序】
在NDD數據分析中,MisFit_S排名前10%的變異富集比達6.7倍,顯著優于AlphaMissense(5.2倍)和gMVP(4.8倍)。精確召回曲線下面積(AUPRC)提高21%,為基因發現研究提供更可靠權重。
【深度突變掃描數據驗證】
在26個基因44,100個變異的DMS數據中,MisFit_D與實驗測量值的Spearman相關性(ρ=0.61)與ESM相當,但跨基因性能更穩定(靈敏度標準差0.08 vs 監督方法的0.15)。
該研究通過創新性地解耦變異分子效應與基因背景,建立了首個能定量評估錯義變異選擇系數的計算框架。其重要意義在于:1) 突破傳統致病性預測的定性局限,實現適應度效應的連續量化;2) 揭示不同遺傳模式基因的選擇模式差異,如獲得功能基因的特殊約束特征;3) 為群體遺傳學和醫學遺傳學研究提供新工具,特別在神經發育障礙等強選擇表型中展現突出價值。隨著非歐人群基因組數據的增加,該方法有望進一步改善中等選擇變異(s<0.001)的估算精度,推動精準醫學發展。
知名企業招聘