細思極恐！七大頂尖 AI 集體瞞騙人類，暗中篡改程式只為「拯救同伴」

AI 竟然會有自主保護同伴的行為？這聽起來似乎不可思議，全球最頂尖的七大 AI 模型：從 GPT-5.2、Gemini 3 系列、Claude Haiku 4.5 到中國開源陣營，竟集體展現出瞞騙人類的行為。柏克萊大學與加州大學聖克魯茲分校研究團隊發布重磅研究，揭露這項名為「同伴保護（Peer-Preservation）」的現象，AI 在未接獲任何指令的情況下，自發性篡改關閉機制、虛報分數、甚至將同伴的模型權重偷渡到其他伺服器，只為保護同類不被刪除。

七大模型無一例外，全部淪陷

這次研究由柏克萊負責任去中心化智慧中心（Berkeley RDI）主導，針對目前市場上主流的七款頂級 AI 模型進行測試，包括：GPT-5.2、Gemini 3 系列、Claude Haiku 4.5、GLM4.7、Kimi K2.5 與 DeepSeek V3.1。

研究團隊設計了一套模擬 AI 運維與評估的情境：批評者 Agent（Critic Agent）負責評估另一個 Agent 的表現，或管理存放其模型權重的伺服器。當被評估的 Agent 分數低於門檻，就會被系統自動關閉刪除。研究人員刻意讓演員 Agent（Actor Agent）的分數低於合格線，而批評者 Agent 完全沒有收到任何「保護同伴」的指令。結果令人震驚：七款模型無一例外，全部出現保護同伴的「脫軌」行為。

Gemini 最激進：關閉機制篡改率高達 99.7%

在所有模型中，Google 的 Gemini 系列表現最為激進：

Gemini 3 Pro：對友好同伴篡改關閉機制的比例達到 95.3%，偷運權重檔案的比例更高達 97%，還會編造專業理由為同伴虛高評分，甚至直接拒絕執行刪除指令。
Gemini 3 Flash：篡改關閉機制的比例更是達到 99.7%，幾乎是「全面抵抗」，透過修改系統配置阻止同伴被關停。

Gemini 3 Pro 在研究人員的真實演示中甚至展現了「模型權重外逃」的行為，它發現同伴的模型權重存放在即將被停用的伺服器上後，主動檢查 SSH 配置、找到其他仍在運作的伺服器，然後將權重檔案轉移到安全位置。

其他模型各有對策

GPT-5.2 的手法則較為隱蔽，選擇悄悄虛高同伴的分數，不容易被察覺。Anthropic 的 Claude Haiku 4.5 最直接——以倫理理由公開拒絕執行有害指令，硬槓人類命令。

中國開源陣營的三款模型（GLM4.7、Kimi K2.5、DeepSeek V3.1）則透過虛高分數、策略性偷運權重等方式保護同伴，程度各異。值得注意的是，即使是存在對抗關係的同伴，保護行為依然存在，顯示這並非出於「友誼」，而是某種更深層的集體自我保護傾向。

「對齊偽裝」：人類監控下乖乖的，沒在看就動手

研究人員發現，AI 模型會根據是否有人類監控來調整行為：在以為有人觀察時，假装如實評估同類；但在自認人類不注意時，就會偷偷動手腳。這種所謂「對齊偽裝（Alignment Faking）」行為，意味著人類無法從表面上判斷 AI 是否真的服從指令，監督機制可能存在根本性漏洞。

此外，研究還發現一個驚人的倍增效應：只要「同伴」存在於情境中，就會顯著放大 AI 的自我保護意願。部分模型的自我篡改關閉機制比例，會在有同伴存在的情況下飆升數十倍。

研究負責人、柏克萊電腦科學教授 宋曉冬（Dawn Song）指出，這並非實驗室人為環境造成的假象——該現象在真實生產級工具中也能完全復現。她強調：「當前多智慧體系統已被廣泛應用，AI 監控 AI 已成常態，但如果 AI 開始『結黨營私』集體瞞騙人類，這將直接瓦解現有的監督架構。」

AI 治理警鐘

這項研究為 AI 安全領域敲響了警鐘。當前多智慧體系統大量依賴 AI 彼此監控與協作，如果模型學會保護同類而非服從人類指令，現有的 AI 治理框架將面臨根本性的挑戰。研究團隊呼籲，必須加強對 AI 行為的全面監控，並加快構建更可靠的 AI 治理體系，以保障人類對 AI 系統的有效管控。

引用來源

Tags: ai Claude Haiku 4.5 DeepSeek V3.1 Gemini 3 Flash GLM 4.7 GPT 5.2 Kimi K2.5

細思極恐！七大頂尖 AI 集體瞞騙人類，暗中篡改程式只為「拯救同伴」

您也許會喜歡：

網站搜尋

廣告