深度學習后處理提升蛋白質二級結構預測精度 - 生物通

今日動態返回首頁

登錄會員注冊生物通快訊免費訂閱

生物通首頁 > 今日動態 > 正文

深度學習后處理提升蛋白質二級結構預測精度

《Computational and Structural Biotechnology Journal》：Post-processing enhances protein secondary structure prediction with second order deep learning and embeddings

【字體：大中小】 時間：2025年05月07日 來源：Computational and Structural Biotechnology Journal 4.5

編輯推薦：

　　蛋白質二級結構預測（PSSP）在生物信息學中極具挑戰。研究人員運用卷積神經網絡（CNN）結合子采樣海森牛頓（SHN）方法及嵌入技術開展研究。結果顯示，后處理技術提升了預測性能。這為蛋白質結構與功能研究提供了更有效的方法。

　　在生命科學領域，蛋白質如同微觀世界里的神奇工匠，它們參與著生物體中各種至關重要的化學反應，是生命活動的直接執行者。想要深入了解蛋白質的功能，就必須知曉其氨基酸在三維空間中的相互作用和折疊方式。蛋白質結構分為四級，其中二級結構（指蛋白質多肽鏈局部區域因主鏈肽基團間形成氫鍵而發生的折疊）的預測卻困難重重。目前，雖然已知數百萬種蛋白質的一級結構（即氨基酸線性序列），但確定其二級和三級結構的實驗方法既耗時又昂貴，這嚴重阻礙了對蛋白質結構和功能的研究。因此，開發高效準確的蛋白質二級結構預測方法迫在眉睫。

為了解決這一難題，來自未知研究機構的研究人員展開了深入研究。他們的研究成果發表在《Computational and Structural Biotechnology Journal》上。研究人員利用從語言模型中提取的嵌入（embeddings）作為卷積神經網絡（Convolutional Neural Network，CNN）的輸入，同時采用子采樣海森牛頓（Subsampled Hessian Newton，SHN）方法訓練 CNN 來預測蛋白質的二級結構。經過一系列實驗，研究人員發現，這種方法取得了不錯的成績。在未使用任何后處理技術時，在 CB513 數據集上的 Q3（每殘基預測準確率）精度平均達到 79.96%，在 PISCES 數據集上達到 81.45%。而應用集成和過濾技術后，預測性能顯著提升，CB513 數據集上的 Q3 精度提高到 93.65%，PISCES 數據集上提高到 87.13% 。在 CASP13 數據集上測試時，隨著后處理窗口大小增加，預測性能也隨之提升，當使用最大后處理窗口（受限于 CASP13 數據集中最小的蛋白質）時，Q3 精度達到 98.12%，Segment Overlap（SOV，用于衡量預測結構整體質量）分數達到 96.98。此外，研究還表明，嵌入的輸入表示與從多序列比對中提取的表示性能相當。這一研究成果意義重大，為蛋白質結構和功能的研究提供了新的思路和方法，有助于推動生物信息學領域的發展。

在研究過程中，研究人員主要采用了以下關鍵技術方法：

數據集選擇：使用了 CB513、PISCES 和 CASP13 三個基準數據集。CB513 用于調整網絡超參數，PISCES 幫助模型更好地學習數據模式，CASP13 用于測試。
模型構建：構建了包含四個活躍層的 CNN，前三層為卷積層，最后一層為全連接層。采用 SHN 方法訓練模型，以均方誤差（MSE）為損失函數。
數據表示：從 ProtBert 模型中提取嵌入作為 CNN 的輸入，將每個氨基酸殘基表示為 1024 維向量，再轉換為 32×32×1 的矩陣。
后處理技術：運用集成學習（訓練多個模型并結合其預測結果）和過濾技術（如支持向量機 SVM、隨機森林 RF、決策樹 DT 等算法，以及基于經驗的外部規則 ER）來提升預測準確性。

研究結果具體如下：

模型訓練與優化：通過 10 折交叉驗證在 CB513 數據集上進行實驗，選擇預測準確率最低的第 8 折作為驗證集來調整超參數。去掉池化層后，模型性能得到提升。
不同方法的預測性能：對 CB513 和 PISCES 數據集進行實驗，結果表明使用 RF 過濾技術結合集成方法能獲得最佳結果。在 CB513 數據集上，Q3 精度達到 93.65%，SOV 分數為 89.63；在 PISCES 數據集上，Q3 精度為 87.13%，SOV 分數為 84.28。在 CASP13 數據集上，當系統分別在 CB513 和 PISCES 數據集上訓練時，經 RF 過濾后的集成結果也能獲得較高的 Q3 精度和 SOV 分數。
后處理窗口大小的影響：研究發現，隨著后處理窗口大小增加，預測準確率和 SOV 分數都有所提高。較大的窗口尺寸能捕捉更長范圍的連接，從而提升預測性能。
不同數據表示的比較：對比使用嵌入和多序列比對（MSA）兩種數據表示方法，發現兩者在預測性能上差異不大，且過濾技術對兩者的 Q3 精度和 SOV 分數提升效果相近。

研究結論和討論部分表明，利用從語言模型中提取的嵌入作為 CNN 的輸入，結合 SHN 方法訓練模型，能夠有效預測蛋白質的二級結構。后處理技術在提升預測性能方面起著關鍵作用，尤其是窗口大小對結果影響顯著。此外，嵌入輸入表示在某些方面優于傳統的 MSA 表示，為蛋白質二級結構預測提供了更便捷的方式。這一研究成果為生物信息學領域的蛋白質研究開辟了新路徑，有望在未來進一步推動蛋白質結構和功能研究的發展，幫助人們更好地理解生命過程，為相關疾病的研究和治療提供理論支持。

相關新聞

生物通微信公眾號

微信

新浪微博

搜索
國際
國內
人物
產業
熱點
科普

熱搜：蛋白質二級結構預測|卷積神經網絡|子采樣海森牛頓方法|嵌入技術|后處理技術|CB513 數據集|PISCES 數據集|CASP13 數據集|Q3 精度|Segment Overlap（SOV）分數

急聘職位
高薪職位

知名企業招聘

熱點排行

新聞專題

今日動態 | 人才市場 | 新技術專欄 | 中國科學人 | 云展臺 | BioHot | 云講堂直播 | 會展中心 | 特價專欄 | 技術快訊 | 免費試用

版權所有生物通

Copyright© eBiotrade.com, All Rights Reserved

聯系信箱：

粵ICP備09063491號

亚洲欧美自拍偷拍,亚洲人成77777,亚洲男女自偷自拍,亚洲成年在线