學習機制是神經科學中一個非常熱門的研究領域,其中一個重要的理論與多巴胺(dopamine)有關。過去的研究發現,當一個人獲得意外獎勵時,紋狀體(striatum)中的多巴胺神經元會產生反應;然而,當獎勵變得完全可預期時,這些神經元的反應會消失,這表明這些細胞利用預測誤差(prediction error)來反映了學習的過程。然而,除了紋狀體,前額葉的神經元也與目標導向的行為或價值信息的處理有關。那麼,如何整合這些不同腦區的信息呢?
Wang 等人(2018)提出了一個框架,他們認為前額葉腦區可以看作一個遞迴神經網絡(Recurrent Neural Network, RNN)。這個神經網絡主要接收各種信息輸入,例如視覺、獎勵等,並利用網絡來生成需要執行的動作或計算每個狀態的價值,從而做出決策。而多巴胺相關的神經機制則用於調整 RNN 中突觸的權重。重要的是,這種機制不僅限於處理特定任務,而是能夠在動態環境中處理各種相關任務。這種機制被稱為“元學習”(meta-learning)。它不僅讓算法學習如何完成任務,還讓它學習如何更快、更有效地學習新任務。換句話說,元學習系統可以從不同的任務中學到「學習的策略」,使它能夠在面對新的任務時迅速適應,而不需要重新訓練。例如,元學習可以讓一個模型在學過數個不同任務後,學到一些通用的規則或策略,這樣當它面對一個全新的任務時,就能更快地應對。總結來說,元學習就是一個系統學會「學習的方式」,使它能在動態、多變的環境中,迅速適應不同的任務。
進一步的研究中,Jensen 等人(2024)探討了這種機制是否可以解釋一些人類學習行為,以及海馬迴細胞的“重放”(replay)現象。他們設計了一項空間導航任務,受試者進入一個迷宮,迷宮中有牆壁,受試者必須在有限的時間內找到隱藏在迷宮中的寶物,且找到的次數越多越好。研究發現,人類受試者只需一次嘗試就能迅速定位出寶物的位置,而且在前幾次行動前,受試者的思考時間較長,表現出一種先思考、再執行的計劃性行為。
為了驗證這種行為是否與之前的神經模型相符,研究團隊構建了一個元學習框架。在這個框架中,作業環境(迷宮)的相關信息作為輸入進入RNN,RNN有兩個選擇:一是輸出執行的動作,二是進入“思考”狀態。在思考狀態下,RNN會模擬一個可能的目標,並執行一系列動作來實現該目標,然後再實際執行動作。這類似於人類在進行計劃時的過程。
研究團隊發現,神經模型的行為與人類相似,尤其是在開始時更頻繁地進入“思考”狀態,而且更多的思考狀態也提高了神經模型在任務執行中的準確率。進一步的發現是,神經模型在思考時所使用的方式與老鼠海馬迴中神經細胞的重放現象非常相似,可以預測接下來的路徑。整個研究表明,RNN在功能上類似於前額葉腦區,而其思考機制則類似於海馬迴。
這項研究中,我個人認為還有一些需要進一步釐清的問題。首先,Jensen等人的研究僅針對順序重放進行探討,但其他研究發現,神經重放有時會以倒序的方式進行。此外,尚不清楚這種重放機制是否與動物在睡眠時的重放一致。再者,在動物實驗中,動物通常以第一人稱視角進行學習和導航,而RNN則從一開始就掌握了所有訊息,更像是以鳥瞰視角進行學習。這在實驗設計上存在根本的不同。因此,我認為將RNN的結果完全類推至神經機制上還值得商榷。
參考文獻
Jensen, K. T., Hennequin, G., & Mattar, M. G. (2024). A recurrent network model of planning explains hippocampal replay and human behavior. Nature Neuroscience. https://doi.org/10.1038/s41593-024-01675-7
Wang, J. X., Kurth-Nelson, Z., Kumaran, D., Tirumala, D., Soyer, H., Leibo, J. Z., Hassabis, D., & Botvinick, M. (2018). Prefrontal cortex as a meta-reinforcement learning system. Nature Neuroscience, 21(6), 860–868. https://doi.org/10.1038/s41593-018-0147-8