基于DNA k-mer嵌入和深度學習的CRISPR/Cas9脫靶活性精準預測模型CRISPR-Embedding

《Computational and Structural Biotechnology Reports》:CRISPR-Embedding: CRISPR/Cas9 off-target activity prediction using DNA k-mer embedding

【字體: 時間:2025年05月12日 來源:Computational and Structural Biotechnology Reports

編輯推薦:

  本研究針對CRISPR/Cas9基因編輯中脫靶效應預測的瓶頸問題,開發了基于9層卷積神經網絡(CNN)和DNA k-mer嵌入的深度學習模型CRISPR-Embedding。通過數據增強和欠采樣策略解決數據失衡難題,模型在5折交叉驗證中實現94.07%的準確率,顯著優于現有方法。該研究為基因治療安全性評估提供了高效計算工具,代碼已開源共享。

  

基因編輯技術CRISPR/Cas9被譽為"基因剪刀",但其脫靶效應如同手術中的"誤傷",可能引發細胞功能紊亂甚至致癌風險。盡管科學家已開發多種檢測技術,傳統方法面臨數據失衡(陽性樣本僅占0.1%)、特征工程復雜等挑戰,F有預測模型如Elevation、CRISTA等雖取得進展,但存在過度依賴人工特征或模型臃腫等問題,亟需更精準高效的解決方案。

為解決這些難題,來自中國的研究團隊在《Computational and Structural Biotechnology Reports》發表創新成果。研究采用多源數據集整合策略,收集來自GUIDE-seq、Digenome-seq等12種實驗技術的28個sgRNA相關數據,包含1128個經PCR驗證的可靠脫靶位點。通過DNA k-mer嵌入技術將序列轉化為100維特征向量,結合獨創的矩陣旋轉增強和PCA聚類清洗技術,構建了9層CNN架構的CRISPR-Embedding模型。

關鍵技術包括:1) 采用dna2vec算法生成3≤k≤6的k-mer嵌入特征;2) 創新性設計12×20突變類型-位置矩陣;3) 開發90°/180°/270°三維數據增強策略;4) 基于PCA的負樣本清洗方法;5) 包含5個卷積層的精簡CNN架構,首層采用5×5核尺寸。

【結果與討論】

  1. 模型驗證:在1:1平衡數據集上,k=6時模型表現最優,準確率達94.07%,F1-score 0.9351,顯著優于k=3-5的版本(Wilcoxon檢驗p<0.05)。

  2. 特異性檢測:針對經典sgRNA(EMX1/VEGFA),模型在76,176個EMX1潛在位點中識別出73,129個脫靶(k=5),較DL-CRISPR提升40倍;但對VEGFA的41,631個位點,k=3版本實現全檢測。

  3. 泛化能力測試:在Pcsk9基因的gp/gM/gMH新sgRNA上,k=3版本分別檢出3,258/166/425個脫靶,優于CRISTA等現有方法,但略遜于DL-CRISPR在gp靶點的表現。

  4. 技術優勢驗證:DNA嵌入相較傳統one-hot編碼使準確率提升17.23%,證實分布式表征的優越性。

研究結論指出,該模型通過創新性融合自然語言處理(NLP)技術與深度學習,實現了三大突破:1) 首次將可變長k-mer嵌入應用于基因編輯預測;2) 建立數據增強-清洗-平衡的全流程處理范式;3) 驗證了中等深度CNN在基因組數據分析中的高效性。盡管當前模型尚未考慮核酸插入/刪除型脫靶,但其開源架構(GitHub可獲。楹罄m研究提供了重要基礎。這項工作不僅推進了CRISPR安全評估標準,其方法論更可拓展至Cas12等新型編輯系統的脫靶預測,為精準醫療時代的基因治療安全保駕護航。

相關新聞
生物通微信公眾號
微信
新浪微博
  • 急聘職位
  • 高薪職位

知名企業招聘

熱點排行

    今日動態 | 人才市場 | 新技術專欄 | 中國科學人 | 云展臺 | BioHot | 云講堂直播 | 會展中心 | 特價專欄 | 技術快訊 | 免費試用

    版權所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    聯系信箱:

    粵ICP備09063491號

    亚洲欧美自拍偷拍,亚洲人成77777,亚洲男女自偷自拍,亚洲成年在线