《Scientific Reports》:Prediction and design of thermostable proteins with a desired melting temperature
編輯推薦:
為解決現有蛋白熔解溫度(Tm)預測方法基于冗余數據、無法設計目標 Tm 蛋白的問題,研究人員開展耐熱蛋白 Tm 預測與設計研究。利用 17,312 個非冗余蛋白構建模型,結合大語言模型(LLM)嵌入,最佳模型 PCC 達 0.89,開發工具 PPTstab,為蛋白穩定性研究提供新工具。
在生命科學領域,蛋白質的熱穩定性是影響其功能的關鍵因素,熔解溫度(Tm)作為衡量蛋白質熱穩定性的重要指標,是指 50% 蛋白質失去天然結構和活性時的溫度。然而,傳統的 Tm 預測方法存在兩大瓶頸:一是;谌哂嗟鞍踪|數據訓練,導致模型泛化能力不足;二是無法滿足科研人員設計具有特定 Tm 值蛋白質的需求。隨著生物技術和醫學研究的深入,開發精準且能支持定制化設計的 Tm 預測方法成為亟待解決的問題。
為突破上述困境,印度信息技術學院(Indraprastha Institute of Information Technology)的研究人員開展了一項針對耐熱蛋白 Tm 預測與設計的研究。該團隊通過整合機器學習算法與大語言模型(LLM),開發出高效的預測模型,并創建了用戶友好的工具 PPTstab,相關成果發表在《Scientific Reports》。這項研究不僅提升了 Tm 預測的準確性,還為蛋白質工程和藥物開發提供了新的技術路徑。
研究人員主要采用以下關鍵技術方法:首先,從 DeepSTABp 數據庫獲取 35,114 條蛋白序列,利用 CD-hit 算法以 40% 序列相似性閾值篩選出 17,312 條非冗余蛋白序列,構建高質量數據集,其中 80% 用于訓練和測試,20% 用于驗證。其次,結合傳統蛋白質特征(如香農熵、氨基酸組成)和大語言模型嵌入(如 ProtBert、ProtGPT2、ProtT5),通過人工神經網絡(ANN)、多層感知機(MLP)、支持向量回歸(SVR)等機器學習算法構建預測模型。最后,開發集成標準特征與嵌入的混合模型,并搭建網頁服務器和獨立軟件實現工具落地。
數據與模型性能分析
通過對數據集的組成分析發現,耐熱蛋白(Tm>50°C)中亮氨酸(L)、丙氨酸(A)、甘氨酸(G)和谷氨酸(E)含量較高,而絲氨酸(S)、賴氨酸(K)等更多存在于 Tm<50°C 的蛋白中;谙戕r熵(SER)等傳統特征的模型在驗證集上實現了 0.80 的皮爾遜相關系數(PCC)和 0.63 的決定系數(R2)。
大語言模型嵌入的突破
利用 ProtBert 等蛋白語言模型(PLM)生成的嵌入特征顯著提升了預測性能。其中,基于 ProtBert 嵌入的模型在驗證集上達到 PCC 0.89、R2 0.80 的最優結果,均方根誤差(RMSE)為 4.11,平均絕對誤差(MAE)為 3.00,表明 LLM 能有效捕捉蛋白質序列的深層特征。
混合模型與工具開發
盡管嘗試結合傳統特征與 LLM 嵌入構建混合模型,但性能未超越單獨使用 ProtBert 嵌入的模型。研究團隊開發的 PPTstab 工具包含 “預測” 和 “設計” 模塊,前者可大規模預測蛋白 Tm,后者通過單點突變生成變體并篩選目標 Tm 的最優突變體,同時提供理化性質分析。該工具支持基因組水平的耐熱蛋白篩選,并在嗜冷菌、中溫菌和嗜熱菌的蛋白組分析中驗證了有效性。
結論與意義
本研究通過非冗余數據集和跨學科方法,顯著提升了蛋白質 Tm 預測的準確性,突破了傳統方法依賴冗余數據和缺乏設計功能的局限。開發的 PPTstab 工具為科研人員提供了從預測到定制化設計的一站式平臺,在酶優化、藥物遞送系統開發及極端環境微生物研究中具有廣泛應用前景。盡管研究主要針對耐熱蛋白優化,但其方法框架為整合新興 AI 技術與生物數據建模提供了范例,有望推動蛋白質組學和精準醫學的發展。研究結果表明,大語言模型在生物序列分析中的深度應用能有效挖掘復雜特征,為解決生命科學中的關鍵問題開辟了新方向。