科技日報記者 陸成寬
記者10日從中國科學院自動化研究所獲悉,來自該所等單位的科研人員首次證實,多模態大語言模型在訓練過程中自己學會了“理解”事物,而且這種理解方式和人類非常像。這一發現為探索人工智能如何“思考”開辟了新路,也為未來打造像人類一樣“理解”世界的人工智能系統打下了基礎。相關研究成果在線發表于《自然·機器智能》雜志。
人類智能的核心,就是能真正“理解”事物。當看到“狗”或“蘋果”時,我們不僅能識別它們長什么樣,如大小、顏色、形狀等,還能明白它們有什么用、能帶給我們什么感受、有什么文化意義。這種全方位的理解,是我們認知世界的基礎。而隨著像ChatGPT這樣的大模型飛速發展,科學家們開始好奇:它們能否從海量的文字和圖片中,自己學會像人類一樣“理解”事物?
傳統人工智能研究聚焦于物體識別準確率,卻鮮少探討模型是否真正“理解”物體含義?!爱斍叭斯ぶ悄芸梢詤^分貓狗圖片,但這種‘識別’與人類‘理解’貓狗有什么本質區別,仍有待揭示。”論文通訊作者、中國科學院自動化研究所研究員何暉光說。
在這項研究中,科研人員借鑒人腦認知的原理,設計了一個巧妙的實驗:讓大模型和人類玩“找不同”游戲。實驗人員會給出三個物品概念(選自1854種常見物品),要求選出最不搭的那個。通過分析高達470萬次的判斷數據,科研人員首次繪制出了大模型的“思維導圖”——“概念地圖”。
何暉光介紹,他們從海量實驗數據里總結出66個代表人工智能如何“理解”事物的關鍵角度,并給它們起了名字。研究發現,這些角度非常容易解釋清楚,而且與人腦中負責物體加工的區域的神經活動方式高度一致。更重要的是,能同時看懂文字和圖片的多模態模型,“思考”和做選擇的方式比其他模型更接近人類。
此外,研究還有個有趣發現,我們人類做判斷時,既會看東西長什么樣,比如形狀、顏色,也會想它的含義或用途;但大模型更依賴給它貼上的“文字標簽”和它學到的抽象概念?!斑@證明,大模型內部確實發展出了一種有點類似人類的理解世界的方式。”何暉光說道。
(中國科學院自動化研究所供圖)