人工智能(AI),特別是像 GPT-4 這樣的大語言模型(LLM),在推理任務上表現(xiàn)出了令人印象深刻的性能。
但這些 AI 真正實現(xiàn)了對抽象概念的l理解嗎?抑或是僅僅停留在了模式模仿層面?
最近,阿姆斯特丹大學和圣塔菲研究所的一項新研究表明,雖然 GPT 模型在一些推理類比任務中表現(xiàn)良好,但當問題發(fā)生改變時,它們就不行了,這突出了 AI 推理能力的關鍵弱點。
類比推理是根據兩個不同事物在某些方面的相似性來進行比較的能力。這是人類試圖了解世界和做出決定的最常見的方法之一。
舉個類比推理的例子:杯子之于咖啡,就像湯之于碗。從杯子與咖啡的關系,類比推理出與湯具有類似關系的是碗。
像 GPT-4 這樣的大語言模型在各種測試中表現(xiàn)良好,包括那些需要類比推理的測試。但是,AI 真的可以進行通用的、穩(wěn)?。敯粜裕┑耐评韱??還是過度依賴于訓練數據中的模式?
阿姆斯特丹大學的 Martha Lewis 與圣塔菲研究所的 Melanie Mitchell 在這項研究檢查了 GPT 模型(GPT-3、GPT-3.5、GPT-4)在進行類比推理時是否像人類一樣靈活和穩(wěn)健??紤]到 AI 在顯示世界中被越來越多地應用于決策和解決問題,因此,AI 的類比推理能力顯得尤為重要。
他們比較了人類與 GPT 模型在三種不同類型的類比問題中的表現(xiàn):
● 字母字符串類比——測試對字母序列變換規(guī)則的推理;
● 數字矩陣推理——分析數字矩陣模式并補全其中缺失的數字;
● 故事類比——理解兩個故事中的哪一個更符合給定的例子故事。
除了測試 GPT 模型是否可以理解原始問題外,該研究還測試了當問題被微妙修改時,它們的表現(xiàn)如何。例如,在字母字符串類比中,將打亂的字母順序作為新字母表,或使用非字母符號代替字母;在數字矩陣推理中,隨機放置缺失的數字位置,或用符號代替數字;在故事類比中,調換答案順序,或保持故事的因果結構但改變表達內容。
論文作者指出,一個能夠真正理解類比推理的系統(tǒng)應該即使面對這些變化也能保持高性能。
結果顯示,在字母字符串類比中,對于簡單類比,無論問題是否被修改,人類的正確率穩(wěn)定在 75% 左右,而 GPT 在問題被修改后正確率顯著下降,例如,GPT 從 45% 下降至 35%。對于復雜類比,人類和 GPT 表現(xiàn)都比較差,但人類仍優(yōu)于 GPT。
在數字矩陣推理中,隨機放置缺失的數字位置,人類的正確率穩(wěn)定在 77% 左右,而 GPT 則顯著下降,例如,GPT-4 從 81% 下降至 48%。但符號代替數字后,人類和 GPT 均未產生顯著變化。
在故事類比中,GPT 模型更傾向于選擇第一個給定的答案作為正確答案,而人類不受答案順序的影響。此外,當故事的關鍵元素被改寫時,GPT 表現(xiàn)的比人類更吃力,這表明 GPT 依賴于表面的相似性,而不是更深層的因果推理。
論文作者認為,這表明了 AI 的推理通常不如人類靈活,它們的推理與真正的抽象理解無關,而是更多地進行模式匹配。
之前一個廣泛的假設是,即像 GPT-4 這樣的人工智能模型具有涌現(xiàn)類比推理能力,可以像人類一樣推理,而這項研究表明事實并非如此,并指出了其推理的脆弱性。
雖然 AI 展示了令人印象深刻的能力,但這并不意味著它們真正理解自己在做什么,它們在各種變化中的泛化能力仍然遠遠弱于人類的認知能力,GPT 模型通常依賴于表面模式,而不是深度理解。這也提醒了我們,AI 可以成為一個強大的工具,但它還不能取代人類的思維和推理。因此,在教育、法律以及醫(yī)療等重要決策領域,使用 AI 需要慎重。
論文鏈接:https://arxiv.org/abs/2411.14215
合作咨詢
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com