国产乱子伦农村叉叉叉,久久综合五月天,天堂无码在

230個大模型在嬰幼兒認知題上集體翻車！揭秘多模態大模型的核心知識缺陷_速看

2025-10-10 11:50:49 來源：量子位

CoreCognition團隊投稿

量子位 | 公眾號 QbitAI

(資料圖片)

一篇被Yann LeCun轉發的ICML 2025研究給了多模態大模型當頭一棒——

大部分AI在復雜任務上表現很好，但在人類從小就會的基礎認知能力上卻很拉垮。

研究者建了測評題庫CoreCognition，覆蓋在人類嬰幼兒階段即出現的12種核心認知能力（如客體永恒、視角采擇、直覺物理、知覺恒常等），用來對模型進行系統性測試。

在CoreCognition基準的1503道“經典發展心理學測驗”上，230個主流模型系統暴露出對世界常識的“核心知識盲區”。

在歸一化準確率對比中，多模態大模型在基礎核心認知能力上普遍落后，差距往往達到兩位數，即便規模更大也難以彌補。

這是否意味著MLLM（多模態大模型）的先天認知結構中，缺少那些支撐早期人類學習的基礎知識機制？

也就是說，它們是否缺乏“core knowledge”（核心認知能力）？

構建CoreCognition Benchmark

來自加州大學圣地亞哥分校、約翰霍普金斯大學、埃默里大學、北卡羅來納大學教堂山分校、斯坦福大學、卡內基梅隆大學等機構的研究人員，花費一年時間構造并開源了業界首個核心認知基準CoreCognition。

基準圍繞發展心理學與皮亞杰分層框架，覆蓋從連續性到機械推理12 項核心認知概念，共1503道多模態題目，每類≥95例，含圖像與視頻。

研究團隊在設計題目時遵循以下高標準：

判別性強
不具備目標核心知識的模型在邏輯上更易選擇錯誤選項。
最小混淆
題目盡量僅依賴待測概念完成推理，剔除與其他核心知識或外部能力的耦合，避免跨概念干擾。

無文本捷徑
所有題目必須聯合利用圖像與文本才能得出正確答案。

所有數據由12位具備認知科學、計算機科學或統計學背景的高年級本科或研究生協作完成標注與審核，經過兩輪交叉驗證和Amazon Mechanical Turk人工校驗。

干預測試揭示“假理解”陷阱

為了進一步驗證模型是否真的掌握核心概念，研究團隊提出了Concept Hacking（概念干預）方法：通過構造“對照組”（control）與“干預組”（manipulated），故意在測試任務中反轉與核心知識相關的關鍵特征，但保持其余細節一致，檢測模型是否真正理解概念還是走捷徑。

例如其中的Intuitive Physics測試：

原版題
同時釋放兩顆小球，哪一個會先落地？考察基礎直覺物理（相同釋放高度、忽略空氣阻力時，自由落體等時到地）。
孿生版
保持大小不變，但改變釋放高度，用以檢驗模型是否真正依據高度差/落地時間推斷，而非套用“同時落地”的固定模板。
人類表現
兩題均能作對，能根據高度改變及時更新判斷。
模型表現
原題作對（選C），孿生版仍沿用舊模式選C，直接翻車——暴露出對表面模板的依賴，而非對落體規律的真實理解。

五大關鍵發現

一、在與人類早期認知直接相關的低層能力（如邊界感、連續性、客體永恒、空間性、視角采擇等）上，模型顯著落后于高層能力（如意向理解、工具使用、機械推理），與人類各層穩定高分的模式明顯不同。這表明

當前MLLMs在人類早期即具備的基礎“核心知識”上存在系統性短板。

二、關聯性矩陣顯示，高層能力族內關聯較強，底層能力Permanence/Spatiality/Continuity與高層能力相關性普遍偏弱。說明模型缺乏人類由低到高的腳手架式認知發展結構，模型的高級感知與推理并不是建立在基礎的認知能力上的。這也能解釋為什么模型出現魯棒性缺陷。

三、研究團隊將三階段12個核心能力的得分與26個公開基準做相關性分析，結果表明除Perspective和Intuitive Physics外，大多數核心能力與公開基準（除ChartQA）及高層能力顯著正相關。這表明核心知識越強，上層任務越穩。而Perspective和Intuitive Physics能力作為人類高級推理的基礎展現出的低相關性，與我們之前在關系矩陣里看到的模式一致，這正是現有模型核心知識缺陷的直接證據。

四、基于230個模型擬合“規?！憩F”的回歸斜率顯示，低層能力隨規模提升改善顯著更少或幾乎不變；其中Perspective-taking甚至出現反向規模效應（模型越大越差）。增加模型規模主要利好高層能力，對低層核心能力幫助有限甚至為負。

五、Concept Hacking實驗結果顯示，大模型相較小模型整體并未取得提升，部分情形甚至更差。這說明單靠擴規模不足以消除對捷徑的依賴，也難以獲得穩健的核心知識。直觀上，模型并非“越大越懂”，而是越大越善于投機。

結合結果圖中的信息，模型可歸納為四類：