《Developmental Cognitive Neuroscience》:Missing data approaches for longitudinal neuroimaging research: Examples from the Adolescent Brain and Cognitive Development ABCD Study?Study?
編輯推薦:
在大規?v向神經影像研究中,缺失數據處理是關鍵挑戰。本文針對 ABCD Study? 數據,探討傳統列表刪除法的局限性,研究人員評估了多重插補(MI)、傾向評分加權(PSW)和全信息最大似然法(FIML)。結果表明這些方法能提升分析穩健性,為該領域數據處理提供重要參考。
在生命科學與醫學研究領域,對大腦發育的長期追蹤研究具有至關重要的意義,尤其是像青少年腦與認知發展這樣的課題。然而,在大規模的縱向神經影像數據收集中,缺失數據問題一直是困擾研究者的一大難題。這些缺失數據可能源于實驗誤差、參與者不響應或 attrition(損耗)等多種因素。傳統的處理方法如 listwise deletion(列表刪除法)雖然簡單,但可能引入嚴重偏差,導致研究結果的內部和外部效度受損,無法準確反映目標人群的真實情況。因此,尋找更有效的缺失數據處理方法,對于提升縱向神經影像研究的準確性和可靠性迫在眉睫。
為了解決這一問題,來自相關研究機構的研究人員以 Adolescent Brain and Cognitive Development(ABCD)Study? 這一大型縱向神經影像數據集為研究對象,開展了關于缺失數據處理方法的研究。該研究成果發表在《Developmental Cognitive Neuroscience》上,旨在評估和比較多種先進統計方法在處理缺失數據時的效果,為該領域的研究提供科學的方法學指導。
研究人員主要采用了以下幾種關鍵技術方法:
- 多重插補(Multiple Imputation,MI):通過迭代過程生成多個完整數據集,結合 Rubin’s rules 合并結果,有效估計缺失值并考慮誤差不確定性。
- 傾向評分加權(Propensity Score Weighting,PSW):基于協變量估計缺失概率,調整樣本權重以平衡組間差異,適用于處理 MNAR(非隨機缺失)數據。
- 全信息最大似然法(Full Information Maximum Likelihood,FIML):利用所有可用數據最大化似然函數,無需刪除或插補數據,適用于 MAR(隨機缺失)和 MCAR(完全隨機缺失)數據。
3.1 缺失值模式分析
通過對 ABCD Study? 中四種成像模態(dMRI、task-fMRI、rs-fMRI、sMRI)的缺失數據進行分析,發現 task-fMRI 數據缺失最為常見,且缺失模式與社會人口學變量(如年齡、性別、種族、家庭收入、父母教育程度等)存在關聯。例如,低家庭收入和父母教育程度較低的參與者,其神經影像數據缺失的概率更高。
3.2 多重插補評估
使用 Modified Model 進行多重插補,結果顯示各成像模態的 PSR(潛在尺度縮減因子)均小于 1.05,表明模型收斂良好。FMI(缺失信息分數)值顯示不同變量受缺失數據影響程度各異,如年齡變量的 FMI 值較低,說明其估計受缺失數據影響較小。
3.3 傾向評分匹配效果評估
通過梯度提升算法估計傾向評分,成功平衡了處理組(數據完整)和對照組(數據缺失)的協變量。標準化平均差異絕對值均小于 0.10,表明傾向評分加權有效減少了組間偏差,尤其在年齡、種族和家庭收入等變量上效果顯著。
3.4 缺失數據處理方法比較
比較四種方法(列表刪除法、多重插補、傾向評分加權、全信息最大似然法)發現,年齡估計值在各方法間差異 negligible(可忽略不計),但家庭收入和父母教育程度的估計值存在一定 variability。這表明缺失數據處理方法的選擇對不同變量的影響不同,需根據研究問題和數據特點謹慎選擇。
3.5 各方法點估計比較
進一步對各方法的點估計進行詳細比較,結果顯示,雖然年齡的估計值在不同方法間較為一致,但對于缺失數據較多的變量(如家庭收入和父母教育程度),不同方法的點估計存在差異。這提示研究者在處理復雜數據時,需綜合考慮多種方法的結果。
研究結論表明,傳統的列表刪除法在處理縱向神經影像數據缺失值時存在明顯局限性,可能導致偏差和統計效力下降。而多重插補、傾向評分加權和全信息最大似然法等先進統計方法能夠更有效地利用數據信息,提升分析的穩健性和結果的可靠性。這些方法在處理不同缺失數據機制(MCAR、MAR、MNAR)時各有優劣,研究者應根據數據特點和研究問題選擇合適的方法。
該研究的重要意義在于,為縱向神經影像研究提供了實用的缺失數據處理工具和方法指南,有助于推動該領域研究的規范化和科學化。同時,研究也強調了在研究設計和數據收集中減少缺失數據的重要性,呼吁關注社會人口學差異對數據完整性的影響,以促進更公平、更準確的科學研究。