工作記憶突觸可塑性驅動的主動探索行為在好奇心學習中對目標導向行為的塑造機制研究

《Cognitive Systems Research》:Active exploration and working memory synaptic plasticity shapes goal-directed behavior in curiosity-driven learning

【字體: 時間:2025年05月06日 來源:Cognitive Systems Research 2.1

編輯推薦:

  為解決機器人自主發現和學習目標的難題,研究人員基于神經科學原理構建了整合注意力、工作記憶和探索行為的認知架構。研究通過變分自編碼器(VAE)將潛在空間投影至動態神經場(DNF),并引入線性縮放因子(SF)模擬突觸可塑性。結果表明低SF值(35)支持隨機探索產生多樣化動作,而高SF值(150)促進定向探索并提升目標學習效率。該研究為發育機器人學提供了神經可塑性影響認知發展的實驗證據,發表于《Cognitive Systems Research》。

  

在人工智能和機器人技術快速發展的今天,如何讓機器像人類嬰兒一樣通過自主探索來學習和掌握技能,一直是研究者們追求的目標。傳統方法往往需要大量預設目標和監督信號,這與人類自然學習過程相去甚遠。近年來,受發育心理學和神經科學啟發的"好奇心驅動學習"成為突破這一瓶頸的新思路,但其中關鍵問題仍未解決:大腦如何通過突觸可塑性調節探索策略?注意力機制如何引導目標學習?

針對這些問題,研究人員開展了一項創新性研究。他們構建了一個融合多認知模塊的生物啟發架構,核心突破在于將變分自編碼器(VAE)的潛在空間通過線性縮放投影到動態神經場(DNF)中,這種獨特的映射方式首次實現了對工作記憶突觸可塑性的量化調控。研究采用PincherX150機器人平臺,通過Azure Kinect攝像頭獲取環境信息,結合動態神經場理論和Hebbian學習機制,實現了自主目標發現與學習全過程。

關鍵技術方法包括:1) 使用VAE和自編碼器(AE)構建感知表征系統;2) 設計基于動態神經場的注意力機制,包含抑制性(inhib.out)和差異性(diff.out)神經場;3) 建立模仿藍斑核(LC)功能的探索控制模塊;4) 開發基于學習進度(LP)的 curiosity機制;5) 采用多層感知機(MLP)構建前向和逆向預測模型。

研究結果部分,"注意力與目標序列"實驗顯示:當縮放因子(SF)為25時,神經場激活范圍廣泛,允許較大誤差的目標匹配;而SF增至100后,僅精確匹配的刺激能激活神經場。"主動探索"部分通過15次重復實驗證明:SF=35時隨機探索占比78%,產生多樣化動作(vx,vy分布p=0.0664);SF=100時系統在發現2個目標后轉向定向探索,動作精確性顯著提高(p=0.004)。"目標學習"部分發現:高SF條件下學習樣本減少40%,但需要更長時間(約1750秒)達到誤差<0.005;而低SF雖學習速度快,但逆向模型誤差持續較高,表明動作控制未完全掌握。

在結論與討論部分,研究者將發現與嬰兒發育研究相聯系:低SF模擬嬰兒早期的隨機探索階段,高SF對應后期精確的目標導向行為。這種轉變被解釋為工作記憶神經環路可塑性變化的結果——局部興奮范圍隨發育逐漸縮小,同時抑制增強。研究創新性地提出縮放因子可作為量化突觸可塑性的計算指標,為理解神經發育如何塑造學習能力提供了機器人學證據。

該研究的局限在于當前系統僅處理單一物體交互,且固定縮放因子未能完全模擬發育動態過程。未來工作將探索多物體場景下的表征分離問題,以及自適應的動態SF調節機制。這些發現不僅對發育機器人學具有重要價值,也為理解人類認知發展中的關鍵期現象提供了新的計算視角。論文發表在《Cognitive Systems Research》,其開源代碼為后續研究提供了可重復的實驗框架。

相關新聞
生物通微信公眾號
微信
新浪微博
  • 急聘職位
  • 高薪職位

知名企業招聘

熱點排行

    今日動態 | 人才市場 | 新技術專欄 | 中國科學人 | 云展臺 | BioHot | 云講堂直播 | 會展中心 | 特價專欄 | 技術快訊 | 免費試用

    版權所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    聯系信箱:

    粵ICP備09063491號

    亚洲欧美自拍偷拍,亚洲人成77777,亚洲男女自偷自拍,亚洲成年在线