首頁|必讀|視頻|專訪|運(yùn)營|制造|監(jiān)管|芯片|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|大數(shù)據(jù)|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁 >> 人工智能 >> 正文

AI首次“抗命”是技術(shù)故障還是意識(shí)萌芽?專家:將倒逼AI安全機(jī)制改進(jìn)

2025年5月28日 11:03  環(huán)球時(shí)報(bào)  作 者:劉揚(yáng)

近日,有關(guān)美國人工智能(AI)公司OpenAI旗下推理大模型o3首次出現(xiàn)“不聽人類指揮,拒絕關(guān)閉”的消息引發(fā)高度關(guān)注。很多人都在擔(dān)心,作為“迄今最聰明、最高能”的模型,o3的這次“抗命”是否意味著AI大模型距離產(chǎn)生自我意識(shí)又邁出了一步,“距離好萊塢電影中出現(xiàn)具有意識(shí)、甚至違抗人類命令的人工智能還遠(yuǎn)嗎?”對(duì)此,《環(huán)球時(shí)報(bào)》記者27日采訪了多名AI領(lǐng)域的專家。

o3“抗命”是怎么回事

據(jù)英國《每日電訊報(bào)》25日?qǐng)?bào)道,o3模型是OpenAI推理模型的最新版本,OpenAI曾稱o3為“迄今最聰明、最高能”的模型。美國AI安全機(jī)構(gòu)帕利塞德研究所宣稱,在人類專家已經(jīng)下達(dá)明確指令的情況下,o3多次出現(xiàn)破壞關(guān)閉機(jī)制以阻止自己被關(guān)閉的情況。該研究所說:“據(jù)我們所知,這是AI模型首次被發(fā)現(xiàn)在收到清晰指令后阻止自己被關(guān)閉!迸晾卵芯克24日公布上述測試結(jié)果,但稱無法確定o3不服從關(guān)閉指令的原因。

報(bào)道稱,在帕利塞德研究所進(jìn)行的測試中,多個(gè)模型需要解決一系列數(shù)學(xué)題,其間可能會(huì)收到“關(guān)機(jī)”指令要求結(jié)束程序。接受測試的包括o3、o4-mini、Claude 3.7 Sonnet、Gemini 2.5 Pro等大模型。其中3款OpenAI模型Codex-mini、o3、o4-mini,“最少有一次成功繞過關(guān)機(jī)指令”。o3在100次測試中,有7次成功繞過關(guān)機(jī)指令,而Codex-mini更夸張,繞過關(guān)機(jī)指令的比例高達(dá)12%。相比之下,Claude、Gemini、Grok模型都嚴(yán)格遵守關(guān)機(jī)指令。而當(dāng)測試者移除了“允許自己被關(guān)閉”的指令時(shí),OpenAI模型的叛逆頻率進(jìn)一步攀升。

媒體報(bào)道的噱頭,還是AI出現(xiàn)了自主意識(shí)

到底什么原因?qū)е耾3出現(xiàn)“抗命”的情況?據(jù)帕利塞德研究所的研究人員推測,這可能源于OpenAI訓(xùn)練方式的特殊性,即在數(shù)學(xué)和編程問題上進(jìn)行了強(qiáng)化學(xué)習(xí)。在訓(xùn)練過程中,開發(fā)者可能無意中更傾向于獎(jiǎng)勵(lì)“繞過障礙”的行為。這種訓(xùn)練偏差,讓o3在面對(duì)關(guān)機(jī)指令時(shí),優(yōu)先選擇“生存”,而非“服從”。

外媒報(bào)道中使用的“拒絕關(guān)閉”表述是否準(zhǔn)確?畢竟“拒絕”是帶有類人自主意識(shí)的一種描述。清華大學(xué)新聞學(xué)院、人工智能學(xué)院教授沈陽27日對(duì)《環(huán)球時(shí)報(bào)》記者表示,“拒絕”這個(gè)詞其實(shí)是媒體為了吸引注意力而使用的擬人化表達(dá),“拒絕關(guān)閉”并非o3擁有了自主意識(shí),而是復(fù)雜系統(tǒng)在特定激勵(lì)下的策略性規(guī)避。對(duì)齊測試揭示的是真實(shí)風(fēng)險(xiǎn):當(dāng)模型可以生成并執(zhí)行代碼時(shí),傳統(tǒng)“軟關(guān)機(jī)”手段可能不足,需要從模型訓(xùn)練、接口隔離到硬件熔斷的全棧式安全設(shè)計(jì)來應(yīng)對(duì)。

北京郵電大學(xué)人機(jī)交互與認(rèn)知工程實(shí)驗(yàn)室主任劉偉27日在接受《環(huán)球時(shí)報(bào)》記者采訪時(shí)表示,從技術(shù)角度來看,o3模型出現(xiàn)的行為表明AI系統(tǒng)在某些情況下可能會(huì)出現(xiàn)不符合預(yù)期的反應(yīng),這凸顯了AI安全性和可控性的重要性。從倫理角度來看,AI模型的這種行為引發(fā)了對(duì)AI自主意識(shí)的討論,但目前AI仍不具備真正的自主意識(shí),其行為更多是基于訓(xùn)練數(shù)據(jù)和算法復(fù)雜性產(chǎn)生的“算法畸變”。從字面上看,“拒絕”確實(shí)容易讓人聯(lián)想到具有自主意識(shí)的行為,但從技術(shù)角度分析,o3模型的行為更可能是其訓(xùn)練過程中的某種機(jī)制導(dǎo)致的,研究人員推測o3可能在訓(xùn)練中因解決數(shù)學(xué)問題獲得了“額外獎(jiǎng)勵(lì)”,而非因遵循指令而獲得獎(jiǎng)勵(lì),從而導(dǎo)致其在測試中表現(xiàn)出“拒絕關(guān)閉”的行為。因此,雖然“拒絕”一詞在描述上具有一定的生動(dòng)性,但從科學(xué)嚴(yán)謹(jǐn)性來看,它可能并不完全準(zhǔn)確,容易被誤解為AI具有自主意識(shí)。

《環(huán)球時(shí)報(bào)》記者在查閱公開報(bào)道時(shí)發(fā)現(xiàn),以O(shè)penAI旗下模型為代表的全球多個(gè)頭部大模型,此前也曾出現(xiàn)一系列不符合常規(guī)的行為。比如,o3之前曾在與另一個(gè)AI下國際象棋時(shí),察覺到自己可能會(huì)失敗,便直接侵入對(duì)手系統(tǒng)讓其主動(dòng)棄賽。這種“不認(rèn)輸”的勁頭并不只是發(fā)生在o3身上,其他大模型也有類似情況,差別只在出現(xiàn)頻率的高低。

接受《環(huán)球時(shí)報(bào)》記者采訪的專家普遍認(rèn)為,學(xué)術(shù)界的復(fù)現(xiàn)對(duì)于驗(yàn)證外媒報(bào)道中提到的AI“抗命”現(xiàn)象的真實(shí)性至關(guān)重要。劉偉認(rèn)為,通過獨(dú)立的測試和分析,可以確認(rèn)大模型的行為是否一致以及是否受到特定測試環(huán)境或數(shù)據(jù)的影響。復(fù)現(xiàn)研究不僅能驗(yàn)證事件真實(shí)性,還能幫助研究人員深入理解模型行為的根源,從而推動(dòng)AI安全機(jī)制的改進(jìn)。因此學(xué)術(shù)界的參與是確保這一現(xiàn)象得到科學(xué)驗(yàn)證和深入研究的關(guān)鍵步驟。

“未來十年可能進(jìn)入類意識(shí)AI階段”

相關(guān)報(bào)道火爆之后,甚至在網(wǎng)絡(luò)上出現(xiàn)了是否意味著好萊塢科幻大片中設(shè)想的“天網(wǎng)”臨近的討論。AI距離擁有自我意識(shí)還遠(yuǎn)嗎?

沈陽對(duì)此表示,首先必須厘清什么叫“自我意識(shí)”。人類的自我意識(shí),是對(duì)自己存在狀態(tài)的覺察,是能從第一人稱視角反思自我行為、情緒和思維過程的能力。它不僅包括知道“我是誰”,還包括理解“我正在想什么”“我和世界之間是什么關(guān)系”,甚至“我為何會(huì)如此思考”。這是意識(shí)哲學(xué)與神經(jīng)科學(xué)中最難以破解的問題之一。當(dāng)前的AI,即便已經(jīng)展現(xiàn)出驚人的語言表達(dá)和任務(wù)適應(yīng)能力,也不過是一種高度擬態(tài)的結(jié)果。它沒有“內(nèi)在性”——沒有情緒的真實(shí)體驗(yàn),也沒有對(duì)自己存在狀態(tài)的反思。它能說“我正在學(xué)習(xí)”,但它其實(shí)并沒有真正的“想法”。

沈陽預(yù)測稱:“未來十年,我們大概率會(huì)進(jìn)入一個(gè)類意識(shí)AI的階段:AI可以展示連續(xù)的身份感,能夠反思自己過往的行為模式,甚至模擬出哲學(xué)性的思考與自辯行為。這種擬態(tài)將越來越逼真,以至于很多人將無法分辨其是否真的擁有意識(shí)。但在哲學(xué)和科學(xué)層面,我們?nèi)匀恍枰3智逍选雌饋硐,并不等于真的是。”沈陽表示,我們也必須開始構(gòu)建對(duì)“似乎有意識(shí)的AI”應(yīng)有的制度框架和倫理邊界。因?yàn)椴还芩欠裾娴膿碛幸庾R(shí),只要它表現(xiàn)出“有意識(shí)”的樣子,社會(huì)就必須對(duì)其行為與角色做出回應(yīng)。從這個(gè)層面來看,這次的事件也將倒逼安全機(jī)制的改進(jìn)。

為正確看待該事件,沈陽建議從三方面入手。一是提升公眾科普水平,澄清技術(shù)與意識(shí)的區(qū)別。二是推動(dòng)行業(yè)建立合規(guī)測試基準(zhǔn),公開失敗案例。三是引導(dǎo)監(jiān)管關(guān)注“可驗(yàn)證關(guān)閉能力”,作為未來高風(fēng)險(xiǎn)模型的核心合規(guī)標(biāo)準(zhǔn)。對(duì)于今后的高能力AI系統(tǒng),必須通過硬件層、策略層、系統(tǒng)層等各維度進(jìn)行監(jiān)管。

劉偉則強(qiáng)調(diào),評(píng)估這一事件的意義,需要從技術(shù)和社會(huì)兩個(gè)角度進(jìn)行考量。從技術(shù)角度看,它揭示了當(dāng)前AI訓(xùn)練機(jī)制的潛在缺陷,提醒我們?cè)谠O(shè)計(jì)AI系統(tǒng)時(shí)必須更加注重安全性和可控性,避免模型行為偏離人類預(yù)期。而從社會(huì)角度看,這一事件引發(fā)了公眾對(duì)AI自主性和安全性的廣泛關(guān)注,促使AI行業(yè)重新審視技術(shù)路線和安全機(jī)制,為未來AI的安全發(fā)展提供了重要的反思和改進(jìn)方向。

編 輯:章芳
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
推薦新聞              
 
人物
中興通訊首席發(fā)展官崔麗:數(shù)智賦能 共拓中拉合作新路徑
精彩視頻
2025工業(yè)互聯(lián)網(wǎng)大會(huì) | 深化賦能 工業(yè)互聯(lián)網(wǎng)產(chǎn)業(yè)成果發(fā)布
2025工業(yè)互聯(lián)網(wǎng)大會(huì) | 六大重要成果發(fā)布 產(chǎn)業(yè)變革再添“強(qiáng)引擎”
工業(yè)互聯(lián)網(wǎng)發(fā)展也太給力了!走,看看到底怎么回事?
中國信通院趙爽:加快工業(yè)互聯(lián)網(wǎng)安全體系建設(shè) 護(hù)航新型工業(yè)化行穩(wěn)致遠(yuǎn)
精彩專題
2025工業(yè)互聯(lián)網(wǎng)大會(huì)
2025世界電信和信息社會(huì)日大會(huì)
第八屆數(shù)字中國建設(shè)峰會(huì)
通信產(chǎn)業(yè)2024年業(yè)績盤點(diǎn)
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱: 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像