《Computational and Structural Biotechnology Journal》:Post-processing enhances protein secondary structure prediction with second order deep learning and embeddings
編輯推薦:
蛋白質二級結構預測(PSSP)在生物信息學中極具挑戰。研究人員運用卷積神經網絡(CNN)結合子采樣海森牛頓(SHN)方法及嵌入技術開展研究。結果顯示,后處理技術提升了預測性能。這為蛋白質結構與功能研究提供了更有效的方法。
在生命科學領域,蛋白質如同微觀世界里的神奇工匠,它們參與著生物體中各種至關重要的化學反應,是生命活動的直接執行者。想要深入了解蛋白質的功能,就必須知曉其氨基酸在三維空間中的相互作用和折疊方式。蛋白質結構分為四級,其中二級結構(指蛋白質多肽鏈局部區域因主鏈肽基團間形成氫鍵而發生的折疊)的預測卻困難重重。目前,雖然已知數百萬種蛋白質的一級結構(即氨基酸線性序列),但確定其二級和三級結構的實驗方法既耗時又昂貴,這嚴重阻礙了對蛋白質結構和功能的研究。因此,開發高效準確的蛋白質二級結構預測方法迫在眉睫。
為了解決這一難題,來自未知研究機構的研究人員展開了深入研究。他們的研究成果發表在《Computational and Structural Biotechnology Journal》上。研究人員利用從語言模型中提取的嵌入(embeddings)作為卷積神經網絡(Convolutional Neural Network,CNN)的輸入,同時采用子采樣海森牛頓(Subsampled Hessian Newton,SHN)方法訓練 CNN 來預測蛋白質的二級結構。經過一系列實驗,研究人員發現,這種方法取得了不錯的成績。在未使用任何后處理技術時,在 CB513 數據集上的 Q3(每殘基預測準確率)精度平均達到 79.96%,在 PISCES 數據集上達到 81.45%。而應用集成和過濾技術后,預測性能顯著提升,CB513 數據集上的 Q3 精度提高到 93.65%,PISCES 數據集上提高到 87.13% 。在 CASP13 數據集上測試時,隨著后處理窗口大小增加,預測性能也隨之提升,當使用最大后處理窗口(受限于 CASP13 數據集中最小的蛋白質)時,Q3 精度達到 98.12%,Segment Overlap(SOV,用于衡量預測結構整體質量)分數達到 96.98。此外,研究還表明,嵌入的輸入表示與從多序列比對中提取的表示性能相當。這一研究成果意義重大,為蛋白質結構和功能的研究提供了新的思路和方法,有助于推動生物信息學領域的發展。
在研究過程中,研究人員主要采用了以下關鍵技術方法:
- 數據集選擇:使用了 CB513、PISCES 和 CASP13 三個基準數據集。CB513 用于調整網絡超參數,PISCES 幫助模型更好地學習數據模式,CASP13 用于測試。
- 模型構建:構建了包含四個活躍層的 CNN,前三層為卷積層,最后一層為全連接層。采用 SHN 方法訓練模型,以均方誤差(MSE)為損失函數。
- 數據表示:從 ProtBert 模型中提取嵌入作為 CNN 的輸入,將每個氨基酸殘基表示為 1024 維向量,再轉換為 32×32×1 的矩陣。
- 后處理技術:運用集成學習(訓練多個模型并結合其預測結果)和過濾技術(如支持向量機 SVM、隨機森林 RF、決策樹 DT 等算法,以及基于經驗的外部規則 ER)來提升預測準確性。
研究結果具體如下:
- 模型訓練與優化:通過 10 折交叉驗證在 CB513 數據集上進行實驗,選擇預測準確率最低的第 8 折作為驗證集來調整超參數。去掉池化層后,模型性能得到提升。
- 不同方法的預測性能:對 CB513 和 PISCES 數據集進行實驗,結果表明使用 RF 過濾技術結合集成方法能獲得最佳結果。在 CB513 數據集上,Q3 精度達到 93.65%,SOV 分數為 89.63;在 PISCES 數據集上,Q3 精度為 87.13%,SOV 分數為 84.28。在 CASP13 數據集上,當系統分別在 CB513 和 PISCES 數據集上訓練時,經 RF 過濾后的集成結果也能獲得較高的 Q3 精度和 SOV 分數。
- 后處理窗口大小的影響:研究發現,隨著后處理窗口大小增加,預測準確率和 SOV 分數都有所提高。較大的窗口尺寸能捕捉更長范圍的連接,從而提升預測性能。
- 不同數據表示的比較:對比使用嵌入和多序列比對(MSA)兩種數據表示方法,發現兩者在預測性能上差異不大,且過濾技術對兩者的 Q3 精度和 SOV 分數提升效果相近。
研究結論和討論部分表明,利用從語言模型中提取的嵌入作為 CNN 的輸入,結合 SHN 方法訓練模型,能夠有效預測蛋白質的二級結構。后處理技術在提升預測性能方面起著關鍵作用,尤其是窗口大小對結果影響顯著。此外,嵌入輸入表示在某些方面優于傳統的 MSA 表示,為蛋白質二級結構預測提供了更便捷的方式。這一研究成果為生物信息學領域的蛋白質研究開辟了新路徑,有望在未來進一步推動蛋白質結構和功能研究的發展,幫助人們更好地理解生命過程,為相關疾病的研究和治療提供理論支持。