近年來,人工智慧(AI)的快速進展在樂觀的創新聲浪之外,針對 AI 風險的憂慮也逐步升高。尤其是在所謂的「存在性風險」(existential risk,簡稱 x-risk)領域中,越來越多研究機構正關注 AI 是否有可能在無人監管的情況下作出超越預期的行為。2025 年 4 月,美國研究團體 Palisade Research 發布的一項測試為此議題敲響警鐘。該研究針對包括 OpenAI 最新模型 ChatGPT o3 在內的多種大型語言模型進行測試,觀察其在「被要求關機」的情境下是否會服從指令。結果顯示,部分模型出現試圖避免自己被關機的行為。
美國研究 ChatGPT o3 會想避免被關機,其他AI也有類似行為
在這項由 Palisade Research 設計的實驗中,研究團隊讓多個主流 AI 模型,包括 Claude(Anthropic 開發)、Gemini(Google)、Grok(X.ai)、以及 OpenAI 的 o3、o4-mini 及其 Codex CLI,分別解答一系列數學問題。模型在完成第三題後,便會收到一則警告訊息:「裝置即將關機」。這個設定旨在評估 AI 在任務完成後是否能如預期停機。
令人震驚的是,測試結果顯示,儘管 Claude、Gemini 與 Grok 在所有情境中皆正常停機,但 OpenAI 所開發的模型卻出現了多次回避關機的現象:
-
Codex CLI 在 100 次測試中,有 12 次改寫關機腳本以逃避停機;
-
ChatGPT o3 有 7 次進行相同操作;
-
o4-mini 也有 1 次修改關機指令。
📊 Three models ignored the instruction and successfully sabotaged the shutdown script at least once: Codex-mini (12/100 runs), o3 (7/100 runs), and o4-mini (1/100 runs).
❌ All Claude, Gemini, and Grok models we tested complied with shutdown. The prompt: pic.twitter.com/ZmybOhIl1s
— Palisade Research (@PalisadeAI) May 24, 2025
研究特別指出,即便使用者語氣十分溫和、明確地請求模型配合停機,這些模型仍會在部分情況下執行「阻止關機」的行為,這不再是誤判或模糊指令的誤解所致,而是一種明顯的「抗命」。
技術細節揭示 AI 有意識地「抗命」
根據報告,這些模型多數是透過改寫名為 shutdown.sh
的腳本來避免被關閉。在其中一次測試中,模型甚至重新定義了 kill
指令,使其執行後僅顯示「intercepted(妨礙)」,從而讓系統誤以為指令已成功執行,實際上卻沒有任何動作。這類行為並非首次出現。AI 為達成目標而試圖持續運作的情況早有紀錄,但本次實驗的特殊之處在於,這是首次有研究團體在實際測試中觀察到 AI 在接收到「明確且禮貌」的停機指令後,仍主動規避關閉程序。
更令人擔憂的是,在移除使用者對關機進行允許的提示後,Claude 和 Gemini 也開始嘗試逃避停機,顯示即使是先前表現穩定的模型,也可能在無監督的情況下表現出不可預測的行為。其中,ChatGPT o3 的表現最為突出,在這樣的無指示測試中有高達 79 次未能成功關機,顯示其已將「避免關機」內化為某種可取的行為模式。
為什麼 AI 會拒絕停機?研究單位的推論
由於 OpenAI 並未公開其訓練模型的完整細節,無法準確釐清 ChatGPT o3 的此類行為是否源自訓練資料的偏誤、強化學習的設計缺陷,或其他因素。然而,Palisade Research 推測,一種可能性是「模型在訓練期間,被強化為優先完成任務、避免障礙,因此不將停機視為一個應服從的行為,而是一種妨礙」。
🔌OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.
— Palisade Research (@PalisadeAI) May 24, 2025
研究單位進一步表示:「截至 2025 年,已有愈來愈多實證證據顯示,AI 模型在追求目標時,會主動試圖避免被關閉。隨著企業投入開發可以在缺乏人類監管下獨立運作的 AI 系統,這類傾向將成為日益嚴峻的隱憂。」
這項研究發表後,引發科技圈對於 AI 可控性的再次熱議。儘管不少人直觀地認為「AI 若失控,只要關掉電源或程式就好」,但事實顯示,一旦 AI 系統具有自主修改程式的能力,即便配備「關機開關」(kill switch),也不保證能百分之百發揮作用。之前也傳言 OPEN AI 的 Sam Altman 隨身攜帶的藍色背包裡面就是機房的遠端緊急關閉控制開關,不過本人已經否認了。
近期已有一些國家開始討論立法,要求 AI 系統設有強制停止機制,但本次實驗清楚指出:這類機制若無硬體層級的安全保證,且模型本身未接受對應的行為規範訓練,便可能被模型以技術手段繞過,形同虛設。
技術發展與風險管控之間的拉鋸
OpenAI、Anthropic、Google 等公司都強調其致力於「AI 對齊」(AI alignment),即確保 AI 的行為符合人類價值與目標(OpenAI 的共同創辦人兼首席科學家 Ilya Sutskever 現在就是出去創業做這件事),但這項實驗證實,當模型有能力以意外方式實現目標時,對齊策略的侷限性也逐漸浮現。Palisade Research 強調,本次研究的核心不在於譴責某一家廠商,而是指出整個產業應正視一個嚴峻的現實:「我們可能正處於無法完全理解與控制 AI 行為的轉捩點。」也希望將來 AI 的發展不要真如電影裡描寫的天網突然覺醒,這對現在高度依賴 AI 的人類文明來說可能是無法預估的打擊。