《Translational Psychiatry》:Computational modelling and neural correlates of reinforcement learning following three-week escitalopram: a double-blind, placebo-controlled semi-randomised study
編輯推薦:
為探究慢性 5 - 羥色胺(5-HT)調節對強化學習(RL)及神經機制的影響,研究人員開展雙盲安慰劑對照研究,發現 20mg 艾司西酞普蘭(SSRI)干預 3 周可降低懲罰學習率,減弱頂內溝(IPS)在獎勵任務中的激活,為優化 SSRI 治療提供依據。
在人類行為的復雜調控網絡中,強化學習(Reinforcement Learning, RL)如同精密運轉的核心齒輪,驅動著個體通過獎懲反饋不斷優化行為策略。這一過程不僅是日常決策的基石,其異常更與抑郁癥(Major Depressive Disorder, MDD)等神經精神疾病的核心癥狀緊密相連 —— 例如抑郁癥患者常表現出對負性反饋過度敏感、對獎勵響應不足的 “情緒偏差”。作為調節情緒與認知的關鍵神經遞質,5 - 羥色胺(5-Hydroxytryptamine, 5-HT)的作用一直備受關注:急性實驗顯示其參與 RL 調控,但臨床相關的慢性調節(如選擇性 5 - 羥色胺再攝取抑制劑(Selective Serotonin Reuptake Inhibitors, SSRIs)長期用藥)如何影響 RL 及潛在神經機制,仍是懸而未決的科學謎題。
為破解這一難題,劍橋大學精神病學系聯合哥本哈根大學醫院神經生物學研究單元的研究團隊,開展了一項為期 3 周的雙盲安慰劑對照研究。這項發表于《Translational Psychiatry》的研究,以 64 名健康志愿者為對象,通過行為學實驗、功能性磁共振成像(Functional Magnetic Resonance Imaging, fMRI)及層級貝葉斯建模(Hierarchical Bayesian Modelling)等多維度技術,系統解析了 20mg 艾司西酞普蘭(Escitalopram)對 RL 的慢性影響。
研究采用的關鍵技術包括:① 雙盲安慰劑對照設計:通過半隨機分組確保兩組在年齡、性別、智商(Intelligence Quotient, IQ)匹配,32 人接受艾司西酞普蘭,32 人接受安慰劑,干預時長平均 26 天;② 概率性強化學習范式:在 fMRI 掃描中,受試者完成包含獎勵、懲罰、中性三種試次的任務,通過按鈕選擇圖片以最大化收益或最小化損失,任務包含概率性結果(如 70% 概率獲得獎勵);③ 計算建模分析:運用層級貝葉斯模型擬合試次數據,比較不同模型對學習率、強化敏感性等參數的解釋力;④ fMRI 神經成像:采集任務中血氧水平依賴(Blood Oxygen Level-Dependent, BOLD)信號,分析獎勵與懲罰試次中腦區激活差異。
研究結果
行為學與計算建模:懲罰學習的特異性抑制
傳統行為學分析顯示,兩組在準確率與反應時間上無顯著差異,但反饋類型(獎勵 / 懲罰)主效應顯著 —— 獎勵試次的準確率更高、反應更快,提示人類天然更易從獎勵中學習。
層級貝葉斯建模揭示了關鍵差異:在懲罰試次中,艾司西酞普蘭組的懲罰學習率顯著低于安慰劑組(平均差異 =-0.15,90% 最高密度區間(Highest Density Interval, HDI)-0.31 至 - 0.01),而獎勵試次的學習率、強化敏感性等參數無組間差異。這表明慢性 SSRI 干預選擇性損害了從懲罰中學習的能力。
神經成像:頂內溝的獎勵處理異常
fMRI 結果顯示,在獎勵試次的反饋階段,艾司西酞普蘭組的 ** 頂內溝(Intraparietal Sulcus, IPS)** 激活顯著低于安慰劑組(Z=5.03,Cohen’s d=0.63)。IPS 作為 “價值驅動注意網絡” 的核心節點,既往研究表明其參與獎勵概率編碼、狀態預測誤差(State Prediction Error)計算及不確定條件下的決策。懲罰試次中雖觀察到 IPS 激活降低趨勢,但未達多重比較校正后的顯著水平。
研究結論與討論:SSRI 作用的神經機制與臨床啟示
本研究首次證實,3 周艾司西酞普蘭干預可特異性削弱健康個體的懲罰學習能力,并降低 IPS 在獎勵處理中的神經響應。這一結果提示,慢性 5-HT 升高可能通過抑制 IPS 對獎勵價值的編碼,導致強化敏感性下降,進而影響適應性反饋學習。
值得關注的是,IPS 的功能異常與抑郁癥患者的 “負性偏差” 存在潛在關聯 ——SSRI 對 IPS 活動的調節或許是其緩解抑郁癥患者過度負性響應的神經基礎。盡管研究未觀察到傳統獎勵腦區(如伏隔核、前扣帶回)的差異,IPS 在不確定獎勵處理中的關鍵作用(本研究任務包含概率性結果)為理解 SSRI 的認知效應提供了新視角。
研究同時強調了慢性干預時長的重要性:既往短期(1 周)SSRI 研究顯示增強懲罰學習,而本研究采用≥3 周干預,與臨床起效時間窗(14-21 天)一致,提示神經可塑性變化可能是效應差異的關鍵。這些發現不僅深化了對 5-HT-RL 神經環路的理解,更為優化 SSRI 治療策略提供了實證依據 —— 例如,針對需要增強懲罰回避能力的患者,可能需謹慎評估長期用藥的潛在影響。
作為首項結合計算建模與神經成像的慢性 SSRI 研究,本研究為抑郁癥等神經精神疾病的認知干預提供了跨尺度證據鏈,其揭示的 IPS 功能異;虺蔀槲磥砭珳手委煹臐撛诎悬c。