前一陣子在”自然”雜誌上有一篇文章 “Cognitive neuroscience at the crossroads”,簡略的在討論認知神經科學的問題,以下我將內容大致整理並加入我的個人想法。
認知神經科學是一門綜合了心理學、生物學、神經科學、資訊科學等多個領域的複雜學門。其中一部分的研究方法是使用各種技術來了解人類行為以及其背後的神經生理機制。EEG及fMRI是其中最常用被使用的神經影像技術,因為它們皆能以非侵入式的方式檢測大腦內的訊號,因此廣受研究者喜愛。既然這麼好用,那各種研究當然就用到底,但是得到的結果真的這麼好棒棒嗎? Bennett et al. (2009) 做了一件驚天動地的大事,他們將一條死去的鮭魚丟到MRI 掃描儀中,然後呈現一些圖片給這些死去的鮭魚”看”,掃描結果竟然顯示出有顯著活動的區域,這根本不可能吧???,所以到底MRI掃描所呈現的結果是否是真的呢? 當然該研究的重點在於,神經影像的分析必須經過嚴格的統計檢驗和校正多重比較,以消除偽陽性(false positive)結果。然而這也會讓人不禁懷疑,利用這些腦影像技術來研究認知神經科學是否是一個好方法呢?
Marek et al. (2022), 做了一系列的模擬,探討了目前MRI全腦連結研究結果的穩定性,尤其是受試者的數量如何影響最終結果。主要的結論是,如果要確保看到的結果並非隨機出現的,至少需要10000名受試者。這一結論帶來了一個好消息和一個壞消息,好消息是少於10000受試者的研究不用花時間再繼續惹,可以趕快擺脫PhD這個苦海。壞消息是,有錢的老闆就會要你收個10000人吧,反正他有錢…。
除此之外, Greene et al. (2022) 發表了另一篇paper,主要在探討使用大腦反應模式來預測行為表現的研究方法。隨著機器學習的技術和演算法不斷進步,許多研究利用大腦的反應用於機器學習模型的訓練,以用來預測另一組資料。預測的目標可以是該組的行為表現,或是根據大腦反應的資料來預測某一組受試者裡面那些是病人哪些是正常人,這樣的方法經常可以得到不錯的結果。而在Greene et al. (2022) 的研究中,他們蒐集了多組數據,這些資料皆為受試者在進行不同作業(例如記憶、執行功能等等)時進行的fMRI掃瞄。接著,他們利用機器學習的方法,根據fMRI的資料預測受試者是屬於表現好的或表現差的那一組。
他們發現會有一小部分的受試者經常性的被模型錯誤預測,無論使用哪種作業的大腦訊號預測行為表現,這樣的情況都會出現。更重要的是,他們發現被錯誤預測的原因主要這個特定族群中某個變量與整體走勢不符。例如,一般而言,認知功能與年齡會有負相關,年齡越大,認知功能越差。然而有一小部分的人不符合此種趨勢,可能有些老人認知功能很好,或是年輕人認知功能很差。在這種情況下,利用大腦連結的數據來預測認知功能的好壞會出錯,代表這種方式帶來的結果並不穩定,而且這些結果也顯示出,我們不應該僅僅考量與的複雜的認知作業相關的變量,還需要關注其他潛在的隱藏變量,例如年齡、疾病史等,因為它們對於預測的準確性可能更具重要性。
這些研究告訴我們,在使用各種技術來進行認知神經科學相關的研究都面臨到大小不一的挑戰,這些挑戰很有可能導致許多研究的結果需要被重新檢視,雖然這些的確都是問題,我們也可以採取簡單的措施來確保研究的有效性,例如保持嚴謹的研究流程、做好一開始的文獻收集分析以完成好的研究假設、進行檢定力分析(power analysis)來得到所需的樣本數量、正確的執行實驗以及分析、以及思考可能的混淆變項和能夠進一步釐清問題的控制組實驗。此外,取得較為多樣化的受試者來源,以及在單一研究中使用多種作業(battery of tasks),也可以讓研究擁有更廣的討論面向,至少這樣做出來的結果是合理且有討論空間的。相對的,如果只是為了找到統計上的顯著結果而做的各種嘗試 (optional stopping, p-hacking等等),才是讓某一個科學領域走下坡的最大原因。以第一段提到Marek et al. (2022)的研究為例,我認為並非只要受試者多就好,重點應該是要建立好的研究假設和嚴謹的實驗程序,如果只是隨意將各種變項拿來做相關,才會造成這種需要上萬資料點的情況。
參考文獻
- Marek, S. et al. Reproducible brain-wide association studies require thousands of individuals. Nature 603, 654–660 (2022).
- Bennett, C., Miller, M. & Wolford, G. Neural correlates of interspecies perspective taking in the post-mortem Atlantic Salmon: an argument for multiple comparisons correction. NeuroImage 47, S125 (2009).
- Cognitive neuroscience at the crossroads. Nature 608, 647–647 (2022).
- Greene, A. S. et al. Brain–phenotype models fail for individuals who defy sample stereotypes. Nature 609, 109–118 (2022).