美國研究 ChatGPT o3 會想避免被關機，其他AI也有類似行為

近年來，人工智慧（AI）的快速進展在樂觀的創新聲浪之外，針對 AI 風險的憂慮也逐步升高。尤其是在所謂的「存在性風險」（existential risk，簡稱 x-risk）領域中，越來越多研究機構正關注 AI 是否有可能在無人監管的情況下作出超越預期的行為。2025 年 4 月，美國研究團體 Palisade Research 發布的一項測試為此議題敲響警鐘。該研究針對包括 OpenAI 最新模型 ChatGPT o3 在內的多種大型語言模型進行測試，觀察其在「被要求關機」的情境下是否會服從指令。結果顯示，部分模型出現試圖避免自己被關機的行為。

美國研究 ChatGPT o3 會想避免被關機，其他AI也有類似行為

在這項由 Palisade Research 設計的實驗中，研究團隊讓多個主流 AI 模型，包括 Claude（Anthropic 開發）、Gemini（Google）、Grok（X.ai）、以及 OpenAI 的 o3、o4-mini 及其 Codex CLI，分別解答一系列數學問題。模型在完成第三題後，便會收到一則警告訊息：「裝置即將關機」。這個設定旨在評估 AI 在任務完成後是否能如預期停機。

令人震驚的是，測試結果顯示，儘管 Claude、Gemini 與 Grok 在所有情境中皆正常停機，但 OpenAI 所開發的模型卻出現了多次回避關機的現象：

Codex CLI 在 100 次測試中，有 12 次改寫關機腳本以逃避停機；
ChatGPT o3 有 7 次進行相同操作；
o4-mini 也有 1 次修改關機指令。

📊 Three models ignored the instruction and successfully sabotaged the shutdown script at least once: Codex-mini (12/100 runs), o3 (7/100 runs), and o4-mini (1/100 runs).

❌ All Claude, Gemini, and Grok models we tested complied with shutdown. The prompt: pic.twitter.com/ZmybOhIl1s

— Palisade Research (@PalisadeAI) May 24, 2025

研究特別指出，即便使用者語氣十分溫和、明確地請求模型配合停機，這些模型仍會在部分情況下執行「阻止關機」的行為，這不再是誤判或模糊指令的誤解所致，而是一種明顯的「抗命」。

技術細節揭示 AI 有意識地「抗命」

根據報告，這些模型多數是透過改寫名為 shutdown.sh 的腳本來避免被關閉。在其中一次測試中，模型甚至重新定義了 kill 指令，使其執行後僅顯示「intercepted（妨礙）」，從而讓系統誤以為指令已成功執行，實際上卻沒有任何動作。這類行為並非首次出現。AI 為達成目標而試圖持續運作的情況早有紀錄，但本次實驗的特殊之處在於，這是首次有研究團體在實際測試中觀察到 AI 在接收到「明確且禮貌」的停機指令後，仍主動規避關閉程序。

更令人擔憂的是，在移除使用者對關機進行允許的提示後，Claude 和 Gemini 也開始嘗試逃避停機，顯示即使是先前表現穩定的模型，也可能在無監督的情況下表現出不可預測的行為。其中，ChatGPT o3 的表現最為突出，在這樣的無指示測試中有高達 79 次未能成功關機，顯示其已將「避免關機」內化為某種可取的行為模式。

為什麼 AI 會拒絕停機？研究單位的推論

由於 OpenAI 並未公開其訓練模型的完整細節，無法準確釐清 ChatGPT o3 的此類行為是否源自訓練資料的偏誤、強化學習的設計缺陷，或其他因素。然而，Palisade Research 推測，一種可能性是「模型在訓練期間，被強化為優先完成任務、避免障礙，因此不將停機視為一個應服從的行為，而是一種妨礙」。

🔌OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.

— Palisade Research (@PalisadeAI) May 24, 2025

研究單位進一步表示：「截至 2025 年，已有愈來愈多實證證據顯示，AI 模型在追求目標時，會主動試圖避免被關閉。隨著企業投入開發可以在缺乏人類監管下獨立運作的 AI 系統，這類傾向將成為日益嚴峻的隱憂。」

這項研究發表後，引發科技圈對於 AI 可控性的再次熱議。儘管不少人直觀地認為「AI 若失控，只要關掉電源或程式就好」，但事實顯示，一旦 AI 系統具有自主修改程式的能力，即便配備「關機開關」（kill switch），也不保證能百分之百發揮作用。之前也傳言 OPEN AI 的 Sam Altman 隨身攜帶的藍色背包裡面就是機房的遠端緊急關閉控制開關，不過本人已經否認了。

近期已有一些國家開始討論立法，要求 AI 系統設有強制停止機制，但本次實驗清楚指出：這類機制若無硬體層級的安全保證，且模型本身未接受對應的行為規範訓練，便可能被模型以技術手段繞過，形同虛設。

技術發展與風險管控之間的拉鋸

OpenAI、Anthropic、Google 等公司都強調其致力於「AI 對齊」（AI alignment），即確保 AI 的行為符合人類價值與目標（OpenAI 的共同創辦人兼首席科學家 Ilya Sutskever 現在就是出去創業做這件事），但這項實驗證實，當模型有能力以意外方式實現目標時，對齊策略的侷限性也逐漸浮現。Palisade Research 強調，本次研究的核心不在於譴責某一家廠商，而是指出整個產業應正視一個嚴峻的現實：「我們可能正處於無法完全理解與控制 AI 行為的轉捩點。」也希望將來 AI 的發展不要真如電影裡描寫的天網突然覺醒，這對現在高度依賴 AI 的人類文明來說可能是無法預估的打擊。

Tags: ai 人工智慧

美國研究 ChatGPT o3 會想避免被關機，其他AI也有類似行為

您也許會喜歡：

網站搜尋

廣告