《Scientific Data》:Le Petit Prince (LPP) multi-talker: Naturalistic 7?T fMRI and EEG dataset
編輯推薦:
現有神經影像數據集多聚焦單說話者場景,難以反映真實多說話者環境復雜性。為此,研究人員構建 "Le Petit Prince (LPP) Multi-talker Dataset",采集 26 名母語為中文者的 7T fMRI 及 EEG 數據。驗證顯示數據高質量,該數據集為認知神經科學研究提供重要資源。
在日常交流中,人們常置身于多說話者的動態環境,如 “雞尾酒會” 場景,需選擇性關注目標語音流,從背景對話中提取信息并適應快速變化的聲學和語言線索。然而,此前采用自然主義聽覺范式的神經影像數據集主要聚焦單說話者場景。這類研究雖推動了對大腦言語和語言處理的理解,但未能捕捉真實多說話者環境的復雜性,限制了對選擇性注意、聽覺流分離、工作記憶等更廣泛神經過程的研究。為填補這一空白,復旦大學附屬眼耳鼻喉科醫院、上海交通大學醫學院附屬第九人民醫院、香港城市大學等機構的研究人員開展了相關研究,成果發表在《Scientific Data》。
研究人員構建了 “Le Petit Prince (LPP) Multi-talker Dataset”,這是一個高質量的多模態神經影像數據集,采集了 26 名右利手、無神經系統疾病病史的中國普通話母語者在聆聽單說話者和多說話者語音流時的 40 分鐘腦電圖(EEG)和 7T 功能磁共振成像(fMRI)數據。其中,EEG 提供毫秒級時間分辨率,可研究與實時語音處理相關的快速神經振蕩和事件相關電位;7T fMRI 相比 3T fMRI 具有更高的信噪比(SNR)和空間分辨率,能以精細的解剖細節精確追蹤語言處理的神經動態。
研究主要采用以下關鍵技術方法:
- 數據采集:EEG 使用 64 通道 actiCAP 按國際 10–20 系統記錄,采樣率 500 Hz;7T fMRI 在西門子 7.0T Terra MRI 掃描儀上進行,采集解剖掃描和功能掃描數據。
- 實驗設計:參與者聆聽《小王子》中文譯本的兩個片段,單說話者條件下男女語音單獨呈現,多說話者條件下男女同時講述,通過屏幕指示參與者關注特定說話者,fMRI 實驗中每次運行后設置四個問答以確認理解。
- 數據預處理:EEG 進行壞通道識別插值、帶通濾波、獨立成分分析(ICA)去除眼動偽影等處理;fMRI 數據轉換為 BIDS 和 NIfTI 格式,使用 fMRIPrep 進行預處理,包括強度非均勻性校正、顱骨剝離、組織分割等。
- 數據注釋:利用自然語言處理(NLP)工具對語音刺激進行注釋,包括韻律信息(音高、強度)、時間對齊的詞語分割和從詞匯到句法層面的語言預測因子。
數據質量驗證
- EEG 數據質量:通過壞通道比例、ICA 成分去除數量評估,13 名參與者無壞通道,顯示整體信號質量良好;計算跨參與者的平均組間相關(ISC),識別出 ISC 值顯著超過機會水平的電極和時間點簇,表明神經響應的一致性。
- fMRI 數據質量:使用 MRI 質量控制工具(MRIQC)評估,解剖和功能 MRI 數據的圖像質量指標(IQMs)顯示數據質量高,如灰白質聯合變異系數(CJV)低、對比噪聲比(CNR)高;計算 fMRI 數據的 ISC,顳葉和左額葉區域相關性最高。
神經響應分析
- 廣義線性模型(GLM)分析:構建三個 GLM 分析 fMRI 數據對音高、強度和語速的響應,結果顯示在單說話者和關注語音條件下,聽覺和語速回歸器在雙側顳葉有顯著活動,與先前研究及 Neurosynth 元分析結果一致;未關注語音在顳葉的簇較小,表明關注和未關注語音的神經響應不同。
數據集構成與可用性
該數據集具有較高的生態效度,模擬了真實世界的多說話者聆聽條件,為研究選擇性注意、聽覺流分離和適應性聆聽的神經機制提供了強大資源,支持跨學科研究,如測試腦機接口(BCI)在復雜多說話者環境中神經語音解碼的應用。盡管存在注釋和分析瓶頸,如參與者可能采用不同注意策略、個體認知能力差異可能引入噪聲等,但該數據集仍為認知神經科學領域提供了寶貴的開放資源,推動對大腦在自然 istic 聆聽環境中處理語音的深入理解。