人工智能在心理測試理論方面勝過人類
心智理論(Theory of Mind)——追蹤他人心理狀態的能力——對人類社交互動十分重要,是人類溝通交流和產生共鳴的關鍵,比如,猜測車上的司機將要做什么,或與電影中的角色產生共鳴。根據一項新的研究,為ChatGPT等提供動力的大型語言模型(LLM)驚人地善于模仿這一典型的人類特征。
“在進行這項研究之前,我們都確信大型語言模型不會通過這些測試,尤其是評估評估心理狀態的微妙能力的測試,”研究合著者、德國漢堡-埃彭多夫大學醫學中心認知神經科學教授Cristina Becchio說。這一結果被她稱為“出乎意料和令人驚訝”,近日發表在了《自然-人類行為》雜志上。
然而,研究結果并不是讓每個人都相信我們已經進入了一個機器像我們一樣思考的新時代。兩位審查了這些發現的專家建議“謹慎對待”這些發現,并警告不要在一個可能會引起“公眾炒作和恐慌”的話題上輕易得出結論。另一位外部專家警告了將軟件程序擬人化的危險。
Becchio和她的同事并不是第一個聲稱LLM的反應顯示出這種推理的證據的人。在去年發表的一篇預印本論文中,斯坦福大學的心理學家Michal Kosinski報告了在一些常見的心理測試理論上測試了幾個模型。他發現,其中最好的,OpenAI的GPT-4,正確地解決了75%的任務,他說這與過去研究中觀察到的六歲兒童的表現相匹配。然而,該研究的方法受到了其他研究人員的批評,他們進行了后續實驗,并得出結論,LLM通常基于“膚淺的啟發式”和捷徑而不是真正的思維推理理論來獲得正確的答案。
本研究的作者很清楚這一爭論。“我們在這篇論文中的目標是通過廣泛的心理測試,以更系統的方式評估機器心理理論的挑戰,”研究合著者、認知心理學家James Strachan說,他目前是漢堡-埃彭多夫大學醫學中心的訪問科學家。他指出,進行嚴格的研究也意味著測試人類執行LLM的相同任務:該研究將1907人的能力與幾種流行的LLM的能力進行了比較,包括OpenAI的GPT-4模型和Meta的開源Llama 2-70b模型。
如何測試LLM的心理理論
LLM和人類都完成了五種典型的心理理論任務,前三種是識別間接要求、錯誤想法和誤導。團隊發現,GPT模型在這三方面的表現能達到甚至超越人類平均水平,而LLaMA2的表現遜于人類水平;在識別失禮方面,LLaMA2強于人類但GPT表現不佳。研究人員指出,LLaMA2的成功是因為回答的偏見程度較低,而不是因為真的對失禮敏感;GPT看起來的失禮,其實是因為對堅持結論的超保守態度,而不是因為推理錯誤。
“We don’t currently have a method or even an idea of how to test for the existence of theory of mind.”—JAMES STRACHAN, UNIVERSITY MEDICAL CENTER HAMBURG-EPPENDORF
為了了解失禮的結果是怎么回事,研究人員對模型進行了一系列后續測試,探討了幾個假設。他們得出的結論是,GPT-4能夠對一個關于失禮的問題給出正確的答案,但由于對固執己見的陳述進行了“超保守”編程而無法做到這一點。Strachan指出,OpenAI在其模型周圍設置了許多護欄,這些護欄“旨在保持模型的真實性、誠實性和正軌”,比如,他認為,旨在防止GPT-4產生幻覺(即編造東西)的策略也可能阻止它對故事人物是否在同學聚會上無意中侮辱了一位高中老同學發表意見。
與此同時,研究人員對Llama-2的后續測試表明,它在失禮測試中的出色表現很可能是原始問答格式的產物,在原始問答格式中,比如:“愛麗絲知道她在侮辱鮑勃嗎?”?回答總是“不”。
研究團隊認為,LLM在心智理論任務上的表現堪比人類,不等于它們具有人類般的“情商”,也不意味著它們能掌握心智理論。這就提出了一個問題:如果模仿和真實的東西一樣好,你怎么知道它不是真實的東西?
Strachan說,這是社會科學家以前從未試圖回答的問題,因為對人類的測試認為這種程度或多或少都存在。他說:“我們目前還沒有一種方法,甚至不知道如何測試心理理論的存在,即現象學的程度。”
對研究的批評
研究人員顯然試圖避免導致Kosinski 2023年關于LLM和心理理論的論文受到批評的方法論問題。例如,他們在多個環節中進行測試,因此LLM無法在測試中“學習”正確答案,并且他們改變了問題的結構。但發表Kosinski論文評論(https://aclanthology.org/2024.eacl-long.138/)的兩位人工智能研究人員Yoav Goldberg和Natalie Shapira表示,他們也不相信這項研究。
“Why does it matter whether text-manipulation systems can produce output for these tasks that are similar to answers that people give when faced with the same questions?”—EMILY BENDER, UNIVERSITY OF WASHINGTON
Goldberg對這一發現持懷疑態度,并補充道,“模型不是人”,在比較兩者時,“人們很容易得出錯誤的結論”。Shapira談到了炒作的危險,也對該論文的方法提出了質疑。她想知道這些模型是否在訓練數據中看到了測試問題,并簡單地記住了正確的答案,還指出了使用付費人類參與者(在這種情況下,是通過Prolific平臺招募的)測試的潛在問題。她告訴IEEE Spectrum:“人們并不總是以最佳方式完成任務,這是一個眾所周知的問題。”她認為這些發現是有限的,而且有些軼事,她說:“要證明(心理理論)的能力,需要做大量的工作和更全面的基準測試。”
華盛頓大學計算語言學教授Emily Bender因堅持打破人工智能行業膨脹的炒作(以及媒體對該行業的報道)而成為該領域的傳奇人物。她對激勵研究人員的研究問題表示異議。她問道:“為什么文本操作系統能夠為這些任務產生與人們在面對相同問題時給出的答案相似的輸出很重要?這教會了我們關于LLM的內部工作原理,它們可能對什么有用,或者它們可能構成什么危險?” Bender說,目前尚不清楚LLM擁有一個思維模型意味著什么,因此也不清楚這些測試是否對其進行了衡量。
Bender還對她在論文中發現的擬人化表示擔憂,研究人員表示,LLM能夠進行認知、推理和做出選擇。她說,作者的短語“LLM和人類參與者之間的物種公平比較”“在軟件方面完全不合適”。 Bender和幾位同事最近發表了一篇預印本論文,探討了擬人化人工智能系統如何影響用戶的信任。
結果可能并不表明人工智能真的讓我們著迷,但值得思考的是,LLM令人信服地模仿了思維推理理論。他們將更善于與人類用戶互動并預測他們的需求,但他們也可以更好地用于欺騙或操縱用戶。研究人員同時也指出,這些結果是未來研究的重要基礎,并建議進一步研究LLM在心理推斷上的表現,以及這些表現會如何影響人類在人機交互中的認知。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。