-
生物通官微
陪你抓住生命科技
跳動的脈搏
綜述:機器學習方法研究無序蛋白質的序列-集合-功能關系
《Current Opinion in Structural Biology》:Machine learning methods to study sequence–ensemble–function relationships in disordered proteins
【字體: 大 中 小 】 時間:2025年05月07日 來源:Current Opinion in Structural Biology 6.1
編輯推薦:
這篇綜述系統闡述了機器學習(ML)在解析內在無序蛋白(IDRs)序列-構象集合-功能關系中的前沿應用,涵蓋構象集合生成、序列設計、生物物理特性預測及功能關聯分析,強調實驗-理論-模擬的協同整合與進化約束的特殊性。
內在無序蛋白及區域(IDRs)廣泛參與細胞信號傳導、轉錄調控等過程,其功能依賴于動態構象集合而非固定結構。傳統結構生物學方法難以解析IDRs的特性,而機器學習(ML)通過整合實驗數據、模擬結果和進化信息,正逐步揭示IDRs的序列-集合-功能關系。本文綜述了ML在IDR構象采樣、功能預測及序列設計中的突破性進展。
IDRs的構象集合采樣面臨巨大挑戰。分子動力學(MD)模擬通過力場優化提升精度,而粗;–G)模型(如CALVADOS)利用貝葉斯參數學習(Bayesian parameter learning)整合實驗數據(如SAXS、NMR)和先驗知識,顯著提高了IDR全局構象的預測準確性。生成模型(如idpSAM、IDPFold)基于擴散模型架構,可直接從序列生成原子級構象集合,但依賴訓練數據的質量。
IDR的生物學功能與其構象特性(如鏈壓縮程度、相分離傾向)密切相關。ML模型通過物理驅動的特征(如電荷分布、芳香族殘基模式)或進化信息(如蛋白語言模型pLMs)高效預測這些特性。例如,AlphaFold-Multimer可識別IDR與折疊蛋白的結合模式,而對比學習框架能挖掘IDR序列中的功能保守性。相分離預測模型結合CG模擬與主動學習(active learning),揭示了序列特征與 condensate 形成的關聯。
IDR設計需平衡動態性與功能特異性。物理模型(如CALVADOS)結合遺傳算法(GADIS)可設計具有目標構象或相行為的序列;生成模型(如EvoDiff)通過擴散過程創造新型IDR序列。值得注意的是,多目標貝葉斯優化(multiobjective Bayesian optimization)成功設計了兼具高動態性和相分離能力的IDR,而肽段結合劑設計(如針對SS18-SSX1)展現了IDR靶向治療的潛力。
ML在IDR研究中將更深度整合多源數據(如臨床變異、單細胞測序),推動從分類預測到定量分析的跨越。生成模型與物理力場的結合有望實現IDR的精準設計,而跨尺度模擬將揭示IDR在細胞環境中的復雜行為。這一領域的發展將深化對神經退行性疾病、癌癥等IDR相關病理機制的理解。
(注:全文嚴格基于原文內容縮編,未添加非原文信息。)
知名企業招聘