牛津大學納菲爾德骨科、風濕病學和肌肉骨骼科學系(NDORMS)的一個研究小組開發了一種新方法,可以顯著提高RNA測序的準確性。他們指出短讀和長讀RNA測序中不準確定量的主要來源,并引入了“majority vote”糾錯的概念,從而大大提高了RNA分子計數的準確性。
研究重點:
- 過往科學家沒有重視的PCR循環是很多精準測序當中的一個重要錯誤源頭;
- 新研究發明了一種新型的同源三聚體的分子生物標記法來達到精準測序的目的。研究人員報告了再批量測序和單細胞測序下的99%和98%的測序精度。這稱之為幾乎逼近絕對精準定量的測序水平。這是該領域目前最為精準的糾錯測序技術。
短讀和長讀RNA測序目前主要存在的問題
遺傳物質的準確測序在現代生物學中是至關重要的,特別是對于理解和解決與遺傳異常有關的疾病方面。然而,目前的方法遇到了很大的限制。
論文一作Jianfeng Sun博士解釋道:“短讀長測序技術在常規RNA測序中的精度是很高的,然而其在單細胞RNA測序中的精度根據不同的測序條件設置忽高忽低。比如,將PCR體外擴增次數增高后再去測序的精度其實并不高。長讀長RNA測序目前在單細胞和常規RNA測序中的精度均比短讀長要低一些。因為測序平臺在不斷推陳出新,所以目前在一般情況下開展的測序精度不會出現過低的情況。
但是,無論短讀長還是長讀長測序中只要出現一定量的錯誤,那么這可能就會潛在地影響數據分析的質量,從而可能潛在地影響生物研究結論。
所以最主要的問題還是精度問題。
另外,短讀長測序的價格要比長讀長低很多。但是長讀長的價格普遍還是居高不下。如何在測序精度和價格之間尋找平衡是其中一個重要的議題?!?
創新新方法
這項具有里程碑意義的研究由牛津大學計算生物學副教授Adam Cribbs和Jianfeng Sun領導完成,他們開發了一種創新的方法,用于糾正高通量測序中廣泛出現的PCR擴增錯誤。
研究發表在《自然方法》(Nature Methods)雜志上,指出PCR人工產物是定量不準確的主要原因,這解決長期以來在生成準確的RNA分子絕對計數方面所面臨的挑戰,這對基因組學研究的各種應用至關重要。
在這篇文章中,研究人員重點研究了特異性分子標記(Unique Molecular Identifiers, UMIs,生物通注),這是一種隨機的寡核苷酸序列,用于消除PCR擴增過程中引入的偏差。雖然UMIs已被廣泛應用于測序方法,但該研究表明,PCR錯誤可能會破壞分子定量的準確性,特別是在不同的測序平臺上。
Sun說:“PCR擴增對于大多數RNA測序技術來說都是必不可少的,但它可能會引入誤差,損害數據的完整性。我們通過使用同源三聚體核苷酸塊合成UMI條形碼來解決這個問題,增強了糾錯能力,實現了近乎絕對的RNA分子定量,顯著提高了分子計數的準確性?!?
“測序一般需要使用聚合酶鏈式反應(PCR)對分子序列進行擴增。PCR擴增后的分子進入測序池子后會影響正確的分子計數。所以待測分子需要用一些分子序列條形碼對其進行身份標記,在PCR擴增后進行剔除。但是PCR這個過程會引入錯誤,稱為PCR錯誤。如果條形碼也錯了,PCR擴增的分子的正確識別可能就會遇到困難,所以可能會破壞分子定量的準確性。在不同的測序平臺上,PCR錯誤的影響是很不同的。例如,在短讀測序平臺,錯誤率并不高。但是基于電信號識別堿基從而測序的牛津納米孔測序會相對高?!?
“majority vote”方法
同源三聚體是由三個相同堿基組成的核苷酸序列,如AAA、CCC、GGG。通過評估同源三聚體核苷酸相似性,研究人員可以通過“majority vote”方法檢測和糾正錯誤(圖1)。
圖1:顯示同源三聚體UMI majority vote錯誤糾正的示意圖。我們用同源三聚體核苷酸塊(由AAA、CCC、GGG、TTT組成的組合)構建了UMIs。通過評估三聚體核苷酸的相似性,通過“majority vote”系統識別和糾正刪除、插入或替代的錯誤,選擇最常見的核苷酸。
“‘majority vote’糾錯這一概念具體是指使用多數投票法對同源三聚體中的錯誤測序的堿基進行糾錯。比如,同源三聚體AAA在測序后變成了AGA,那么就可以使用多數投票法將其投票為A。不同的同源三聚體均可以按照這樣的方式進行一一糾錯,最后形成一條連續的序列,” Sun補充說。
該研究表明,在分析差異表達基因和轉錄本(DEGs和DETs)時,同源三聚體UMIs在減少假陽性折疊富集方面明顯優于傳統單體UMIs。這種增強對于DEGs或DETs的準確識別和定量至關重要,特別是在批量測序方法中。此外,在單細胞測序中,通常需要廣泛的PCR擴增,同源三聚體UMIs已被證明可以有效減輕PCR人工產物的影響,從而大大提高測序數據的可靠性。
“通過構建同源核苷塊的UMIs,我們的目標是提高短讀和長讀測序的糾錯能力,這是我們對提高測序技術應用的承諾,”Cribbs說。
意義深遠
這項研究具有深遠的意義。通過糾正UMIs中的PCR誤差,極大地提高了各種測序應用中的分子定量準確性。它是大量RNA、單細胞RNA和DNA測序研究人員的重要工具,可以實現準確的基因表達和分子譜分析。增強的UMI糾錯不僅減少了假陽性的發生率,而且還提供了多種診斷應用,特別是在需要對樣本進行縱向分析的情況下。
Sun解釋說:“UMI糾錯是PCR糾錯的其中一種方式。如果UMI糾錯情況得到改善,那么PCR錯誤的分子計數就會變好。這樣PCR擴展的分子被錯誤歸入原始待測分子的可能性就低,所以假陽性就低。從而,分子表達量測準了之后就會幫助后續的疾病診斷(判斷表達量是否異常等),并且可能會增加更多的診斷應用的可能性(例如,疾病診斷中的假陰性問題,使用測序錯誤較少精度高的表達數據做鑒定會幫助排除出現假陰性的鑒定結果,可靠度高應用存在的可能性就越高)。在縱向研究中,不同的樣本或是實驗重復之間存在的差異有可能很大。普通的糾錯方法在底/高錯誤率的情況下魯棒性可能差異比較大。然而我們在不同的樣本或是實驗重復中得到的魯棒性是比較強的,也證明了該方法在應用階段的穩定性?!?
這篇論文目前是《Nature Methods》有數據追蹤以來與同期發表文章相比最受歡迎的文章,排名第1,而且在所有期刊當中發表的同期可追蹤的202,746篇文章中網絡熱度位居1962名(詳情請看https://www.nature.com/articles/s41592-024-02168-y/metrics)。
同時該文章也吸引了各媒體的報道,牛津大學也詳細報道了這項研究:
https://www.ox.ac.uk/news/2024-02-08-new-research-improves-accuracy-molecular-quantification-high-throughput-sequencin