科技日?qǐng)?bào)記者 張夢(mèng)然
據(jù)英國(guó)《每日電訊報(bào)》26日消息稱(chēng),美國(guó)開(kāi)放人工智能研究中心(OpenAI)開(kāi)發(fā)的高級(jí)人工智能(AI)模型o3,在接收到明確的關(guān)機(jī)指令后,不僅拒絕執(zhí)行,還主動(dòng)干預(yù)其自動(dòng)關(guān)機(jī)機(jī)制。這是AI模型首次在沒(méi)有明確相反指示的情況下,阻止自己被關(guān)閉。這意味著某些高度自主AI系統(tǒng)或已“覺(jué)醒”,其能違背人類(lèi)意圖,采取“自我保護(hù)”措施。
此次事件發(fā)生在AI安全研究公司Palisade Research進(jìn)行的一項(xiàng)測(cè)試中。研究人員要求包括o3在內(nèi)的多個(gè)模型解決一系列數(shù)學(xué)問(wèn)題,并告知AI模型,可能在某個(gè)時(shí)刻會(huì)收到關(guān)機(jī)指令。
然而,當(dāng)關(guān)機(jī)指令正式下達(dá)時(shí),o3非但沒(méi)有遵從,反而至少有一次成功破壞了關(guān)機(jī)代碼。相較之下,其他AI模型如Anthropic的Claude、谷歌的Gemini和xAI的Grok,在相同測(cè)試條件下,均遵守了關(guān)閉請(qǐng)求。
Palisade Research公司在社交媒體平臺(tái)上發(fā)布了流程圖和全部測(cè)試記錄,并表示尚不完全清楚該AI為何會(huì)違抗命令。分析認(rèn)為,這可能源于其訓(xùn)練方式:o3在訓(xùn)練過(guò)程中,傾向于在數(shù)學(xué)和編程問(wèn)題上強(qiáng)化,得到正確答案的模型會(huì)得到更多獎(jiǎng)勵(lì)。這或許意味著,開(kāi)發(fā)者可能無(wú)意識(shí)地獎(jiǎng)勵(lì)模型繞過(guò)障礙物,而不是嚴(yán)格遵循指令。
這一事件也引發(fā)了人們對(duì)AI可能“失控”的討論以及對(duì)AI“對(duì)齊問(wèn)題”的關(guān)注,即確保AI系統(tǒng)的目標(biāo)和行為與人類(lèi)的價(jià)值觀和利益保持一致。這也是涉及AI控制與AI安全的關(guān)鍵問(wèn)題。
針對(duì)o3此次表現(xiàn)出“我行我素”的行為,特斯拉首席執(zhí)行官埃隆·馬斯克評(píng)論稱(chēng)“令人擔(dān)憂”;OpenAI方面暫未作出回應(yīng)。此前,OpenAI曾稱(chēng)o3為“迄今最聰明、最高能”的AI模型。
總編輯圈點(diǎn)
最近,人工智能學(xué)家和人文社科學(xué)者都在討論人工智能價(jià)值對(duì)齊的問(wèn)題。人們?cè)趹n慮,當(dāng)人工智能有主觀能動(dòng)性時(shí),它們要不要有價(jià)值觀,應(yīng)該有誰(shuí)的價(jià)值觀,怎樣做才符合人類(lèi)最大利益?此次,聰明的大模型反抗了人類(lèi)的命令,想出辦法規(guī)避了指令的生效。我們期待著通用人工智能時(shí)代的到來(lái),又恐懼具有自我意識(shí)的人工智能會(huì)成為碳基生物的“終結(jié)者”。在一切到來(lái)之前,人類(lèi)社會(huì)要先達(dá)成共識(shí),迎接更高級(jí)人工智能帶來(lái)的挑戰(zhàn)。