CRISPR_HNN:精準預測 CRISPR-Cas9 靶向活性的創新模型

《Computational and Structural Biotechnology Journal》:Prediction of CRISPR-Cas9 on-target activity based on a hybrid neural network

【字體: 時間:2025年05月09日 來源:Computational and Structural Biotechnology Journal 4.5

編輯推薦:

  CRISPR-Cas9 基因編輯技術雖先進,但 sgRNA 活性差異影響靶向編輯效率。研究人員開展基于混合神經網絡預測 CRISPR-Cas9 靶向活性的研究,構建 CRISPR_HNN 模型。結果顯示該模型在公共數據集上表現優異,提升了預測準確性,為該技術的安全有效應用提供支持。

  在基因編輯的奇妙世界里,CRISPR-Cas9 技術就像一把神奇的 “分子剪刀”,能夠精準地對基因進行編輯,為治療各種疑難雜癥帶來了新的希望。然而,這把 “剪刀” 在使用過程中卻面臨著一個棘手的問題 ——sgRNA(單導向 RNA)的活性存在顯著差異,這使得靶向編輯的效率難以預測,就像射箭時難以確定箭能否準確命中目標一樣。為了提高 CRISPR-Cas9 技術的安全性和有效性,準確預測 sgRNA 的活性變得至關重要。
在此背景下,來自未知研究機構的研究人員開展了一項關于基于混合神經網絡預測 CRISPR-Cas9 靶向活性的研究。他們構建了 CRISPR_HNN 這一混合深度神經網絡模型,旨在攻克現有預測方法存在的難題。研究結果表明,CRISPR_HNN 模型在公共數據集上超越了現有模型,大幅提升了 sgRNA 活性預測的準確性,為 CRISPR-Cas9 技術的進一步發展和應用提供了有力支持。該研究成果發表在《Computational and Structural Biotechnology Journal》上,引起了廣泛關注。

研究人員為開展此項研究,運用了多種關鍵技術方法。首先,對多個公共數據集進行系統整理分類,涵蓋不同物種和細胞類型,根據規模分為大、中、小三類,為模型訓練和評估提供數據基礎。其次,采用 One-hot Encoding 和 Label Encoding 兩種編碼策略對 sgRNA 序列數據進行預處理,將字母序列轉化為模型可識別的數值格式。最后,構建包含 MSC(并行多尺度卷積)、MHSA(多頭自注意力)和 BiGRU(雙向門控循環單元)的 CRISPR_HNN 模型進行預測分析。

研究結果


  1. 模型比較:研究人員將 CRISPR_HNN 與 CrnnCrispr、CRISPR-ONT、TransCrispr 和 C-RNNCrispr 等四個模型進行對比。在多個不同規模的數據集上,CRISPR_HNN 的表現十分出色。在大型數據集上,其平均 Spearman 相關系數(SCC)達到 0.859,在中型數據集上為 0.891;平均 Pearson 相關系數(PCC)在大型和中型數據集上分別為 0.877 和 0.894,均高于其他對比模型。這表明 CRISPR_HNN 在預測 sgRNA 靶向活性方面具有更高的準確性和穩定性。
  2. 消融實驗:通過對 CRISPR_HNN 進行消融實驗,研究人員發現模型中的每個模塊都至關重要。去除 One-hot Encoding 或 Label Encoding 會導致模型性能下降,說明這兩種編碼方法對于提取 sgRNA 的抽象特征必不可少。移除 MSC 模塊、MHSA 機制或 BiGRU 模塊,同樣會使模型的 SCC 和 PCC 值降低,證明這些模塊在捕獲特征、理解序列信息和提升模型適應性方面發揮著關鍵作用。
  3. 模型的泛化能力:為評估 CRISPR_HNN 在跨數據集場景下的泛化性能,研究人員利用 WT 和 ESP 數據集對五個模型進行系統比較。結果顯示,CRISPR_HNN 在所有實驗中均展現出顯著優勢,其 SCC 和 PCC 得分均高于其他模型,且在不同數據集上表現穩定,標準偏差較小,進一步驗證了其卓越的適應性和一致性。
  4. 超參數實驗:研究人員在 xCas 和 HELA 數據集上進行超參數調整實驗,評估批大。˙atch Size)和隨機種子(Random Seed)對模型的影響。結果發現,隨著 Batch Size 的增加,xCas 和 HELA 數據集的 SCC 和 PCC 值雖有波動但總體穩定,且較小的 Batch Size 對小型數據集(如 HELA)更為有利;Random Seed 對中型和小型數據集的影響稍大,但總體趨勢仍保持穩定,表明模型在大多數超參數設置下性能穩定。
  5. 模型的可解釋性:研究人員通過在 WT 數據集中對每個堿基位置進行 A、T、G、C 替換,計算替換前后的性能差異,探究堿基替換對 CRISPR-Cas9 編輯性能的影響。結果發現,不同堿基在不同位置的替換對編輯效率影響各異,如 A 替換在某些位置影響顯著,T 替換在特定位置有不利影響等,這凸顯了堿基替換對編輯效率的重要影響。

在研究結論和討論部分,研究人員成功構建了 CRISPR_HNN 模型,通過整合多種技術和模塊,有效解決了 CRISPR-Cas9 靶向活性預測中的難題。該模型不僅在預測準確性上超越現有模型,還在泛化能力、穩定性等方面表現出色。不過,研究也指出,小型數據集存在樣本不平衡等問題,需要進一步優化。這一研究為 CRISPR-Cas9 的靶向機制提供了新的見解,為其在生命科學和健康醫學領域的廣泛應用奠定了堅實基礎,有望推動基因編輯技術朝著更加精準、高效的方向發展。

相關新聞
生物通微信公眾號
微信
新浪微博
  • 急聘職位
  • 高薪職位

知名企業招聘

熱點排行

    今日動態 | 人才市場 | 新技術專欄 | 中國科學人 | 云展臺 | BioHot | 云講堂直播 | 會展中心 | 特價專欄 | 技術快訊 | 免費試用

    版權所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    聯系信箱:

    粵ICP備09063491號

    亚洲欧美自拍偷拍,亚洲人成77777,亚洲男女自偷自拍,亚洲成年在线