《Communications Chemistry》:Leveraging pretrained deep protein language model to predict peptide collision cross section
編輯推薦:
在蛋白質組學研究中,為解決傳統液相色譜 / 串聯質譜(LC/MS/MS)分離能力不足及肽碰撞截面(CCS)預測難題,研究人員開展基于預訓練深度蛋白質語言模型預測肽 CCS 的研究,結果表明該模型預測性能好且訓練時間大幅縮短,推動了蛋白質組學發展。
在生命科學領域,蛋白質承擔著生物體的各種重要功能。深入了解蛋白質何時、何地以及如何表達,對于系統分析生物功能至關重要。然而,蛋白質組學研究面臨著諸多挑戰。在細胞和組織中存在著數量龐大的蛋白質,僅典型的人類蛋白質組樣本就包含超過千萬種蛋白酶消化后的肽段 ,其復雜性遠遠超出了當前液相色譜 / 串聯質譜(LC/MS/MS)系統的分離能力。
為了更好地分離和分析這些肽段,離子淌度譜(IMS)技術應運而生。IMS 通過測量離子在緩沖氣流中受電場影響的遷移率,根據離子的電荷和形狀對分子進行分離 。離子 - 氣體碰撞的頻率,即碰撞截面(CCS),決定了離子在氣相中的遷移率 。這一技術為肽段分離提供了額外的維度,有效解決了傳統 LC/MS/MS 中肽離子分離不足的問題,不僅能改善肽異構體的分離,還能提高定量分析的準確性。
但要充分發揮 IMS 的優勢,準確預測肽離子的 CCS 值至關重要。此前的研究中,雖然已經提出了一些 CCS 預測算法,如 Clemmer 團隊建立的基于氨基酸組成的內在尺寸參數(ISP)模型,但這些模型存在局限性,難以準確預測較長肽段的 CCS 值。隨著深度學習在各個領域取得巨大成功,利用深度神經網絡(NN)模型進行 CCS 預測成為新的研究方向,但傳統的從頭訓練的深度 NN 模型存在訓練時間長、計算負荷大等問題,在許多計算資源有限的實驗室中難以應用。
為了解決這些問題,名古屋工業大學研究生院、京都大學等研究機構的研究人員開展了一項基于預訓練深度蛋白質語言模型預測肽碰撞截面的研究,相關成果發表在《Communications Chemistry》上。該研究旨在開發一種能夠在低成本下實現合理性能的 CCS 預測模型,推動蛋白質組學研究的發展。
研究人員使用的主要關鍵技術方法如下:
- 數據集構建:利用磷酸化蛋白質組數據構建實驗肽 CCS 數據集。通過多種蛋白酶消化 HeLa 細胞提取物,富集磷酸化肽段并進行去磷酸化處理,得到包含多種電荷狀態、不同長度肽段的數據集。
- 模型構建:提出基于預訓練蛋白質語言模型的網絡(PPLN)。使用預訓練的深度蛋白質語言模型(如 ESM-1b)作為特征提取器,結合位置編碼(PE)和預測神經網絡(NN)來預測 CCS 值123。
- 模型評估:將數據集隨機劃分為訓練集和測試集,使用皮爾遜相關系數(r)、均方根誤差(RMSE)、平均絕對誤差(MAE)和 Δ95% 誤差等指標評估模型的預測性能,并與傳統的預測方法進行對比。
下面介紹該研究的主要結果:
- 模型架構優化:研究發現引入考慮氨基酸位置的雙向位置編碼(PE)比簡單平均聚合效果更好,將離子的電荷數和質量作為預測 NN 的輸入,有助于提高模型的學習效果45。
- 預測性能評估:PPLN 在預測較長肽段和高電荷態肽離子的 CCS 值時表現更優,相比傳統的基于長度特異性多元線性回歸(LS - MLR)模型,具有更低的 RMSE 和更高的相關性系數。與從頭訓練的雙向 LSTM 模型相比,PPLN 在不同性能指標下表現相當或更優67。
- 消融實驗驗證:通過消融實驗驗證了 PPLN 中各組件的重要性,證明了電荷數、質量信息以及雙向 PE 在模型中的必要性。去除這些組件會導致模型性能下降89。
- 訓練時間優勢:PPLN 使用預訓練模型作為特征提取器,大大簡化了訓練過程。在使用不同比例樣本進行訓練時,PPLN 的訓練時間大幅縮短,即使考慮預處理時間,其執行時間也減少到傳統雙向 LSTM 模型的 1/4 - 1/3。同時,PPLN 在預測時也能更快完成,且能耗更低101112。
- 提高肽段鑒定能力:準確的 CCS 預測有助于提高下游任務的性能。以肽段鑒定任務為例,使用 PPLN 預測的 CCS 值能減少錯誤匹配,提高鑒定的準確性13。
研究結論和討論部分指出,PPLN 通過使用預訓練的深度蛋白質語言模型,能夠在更短的訓練時間內實現對較長肽段 CCS 值的準確預測,在與傳統方法的對比中展現出明顯優勢。這一研究成果不僅為肽段性質的預測提供了新的思路和方法,也為蛋白質組學研究中的定量分析、肽段鑒定等任務提供了有力支持。
此外,研究還發現模型大小對預測準確性和執行時間有影響。未來研究可以探索使用更大或更小的蛋白質語言模型作為特征提取器,以進一步優化模型性能。同時,目前的模型對可變修飾的適用性有限,開發適用于可變修飾肽段的模型將是未來重要的研究方向。
總的來說,該研究在肽 CCS 值預測領域取得了重要進展,為蛋白質組學研究開辟了新的道路,有望推動生命科學和健康醫學領域在蛋白質分析方面的進一步發展。