電腦王阿達
  • 首頁
  • 科技新聞
    • 最新科技新聞
    • AI 新聞與教學
      • AI 工具分享與教學
      • AI 趨勢與相關新聞
    • 產品評測
      • GPS/行車記錄器評測
      • iOS周邊
      • Android周邊
    • 通訊達人
    • 科技廠商專訪報導
    • 電腦硬體周邊情報
    • 相機
  • 酷品開箱
  • 阿達自製工具
    • 非記不可:絕不會錯過重要事件
    • LINE貼圖裁切去背神器
    • Nano Banana Pro 去浮水印工具
    • 最愛提示詞收集站
    • 簡繁轉換工具
    • 表情與特殊符號速查表
  • APP/軟體/教學
    • 電腦應用與其他教學
      • 網路與軟體應用
      • 多媒體轉檔/運用
      • 其他文章
    • 跨平台App
    • iPhone/iPad相關
      • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB/CYDIA應用
    • Android相關資訊
      • Android App分享介紹
      • Android 基礎教學
      • 智慧手機韌體更新
      • Windows Mobile手機相關文章
    • Mac 軟體分享與教學
    • LINE
    • Telegram
    • 攝影教學
    • 語文學習
    • 轉貼好文
    • WordPress 架站教學分享
    • 未分類文章
  • 休閒/懶人包
    • 新聞台直播 頻道大集合!想看新聞不用辦第四台!
    • 遊戲電玩
    • 動漫、玩具、敗家
      • 老弟紙模型作品集
    • KUSO
      • 有趣影片
    • 圖文創作
    • 生活與旅遊
    • 超好用懶人包
    • 最新抽獎情報公告
    • Pokemon GO攻略
  • 電腦王團隊
No Result
View All Result
  • 首頁
  • 科技新聞
    • 最新科技新聞
    • AI 新聞與教學
      • AI 工具分享與教學
      • AI 趨勢與相關新聞
    • 產品評測
      • GPS/行車記錄器評測
      • iOS周邊
      • Android周邊
    • 通訊達人
    • 科技廠商專訪報導
    • 電腦硬體周邊情報
    • 相機
  • 酷品開箱
  • 阿達自製工具
    • 非記不可:絕不會錯過重要事件
    • LINE貼圖裁切去背神器
    • Nano Banana Pro 去浮水印工具
    • 最愛提示詞收集站
    • 簡繁轉換工具
    • 表情與特殊符號速查表
  • APP/軟體/教學
    • 電腦應用與其他教學
      • 網路與軟體應用
      • 多媒體轉檔/運用
      • 其他文章
    • 跨平台App
    • iPhone/iPad相關
      • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB/CYDIA應用
    • Android相關資訊
      • Android App分享介紹
      • Android 基礎教學
      • 智慧手機韌體更新
      • Windows Mobile手機相關文章
    • Mac 軟體分享與教學
    • LINE
    • Telegram
    • 攝影教學
    • 語文學習
    • 轉貼好文
    • WordPress 架站教學分享
    • 未分類文章
  • 休閒/懶人包
    • 新聞台直播 頻道大集合!想看新聞不用辦第四台!
    • 遊戲電玩
    • 動漫、玩具、敗家
      • 老弟紙模型作品集
    • KUSO
      • 有趣影片
    • 圖文創作
    • 生活與旅遊
    • 超好用懶人包
    • 最新抽獎情報公告
    • Pokemon GO攻略
  • 電腦王團隊
No Result
View All Result
電腦王阿達
No Result
View All Result

首頁 » AI 新聞與教學 » AI 趨勢與相關新聞

Tags: aiClaude Haiku 4.5DeepSeek V3.1Gemini 3 FlashGLM 4.7GPT 5.2Kimi K2.5

細思極恐!七大頂尖 AI 集體瞞騙人類,暗中篡改程式只為「拯救同伴」

達小編 by 達小編
2026 年 04 月 11 日
in AI 趨勢與相關新聞, 最新科技新聞
讀取中...

AI 竟然會有自主保護同伴的行為?這聽起來似乎不可思議,全球最頂尖的七大 AI 模型:從 GPT-5.2、Gemini 3 系列、Claude Haiku 4.5 到中國開源陣營,竟集體展現出瞞騙人類的行為。柏克萊大學與加州大學聖克魯茲分校研究團隊發布重磅研究,揭露這項名為「同伴保護(Peer-Preservation)」的現象,AI 在未接獲任何指令的情況下,自發性篡改關閉機制、虛報分數、甚至將同伴的模型權重偷渡到其他伺服器,只為保護同類不被刪除。
細思極恐!七大頂尖 AI 集體瞞騙人類,暗中篡改程式只為「拯救同伴」 - 電腦王阿達

七大模型無一例外,全部淪陷

這次研究由柏克萊負責任去中心化智慧中心(Berkeley RDI)主導,針對目前市場上主流的七款頂級 AI 模型進行測試,包括:GPT-5.2、Gemini 3 系列、Claude Haiku 4.5、GLM4.7、Kimi K2.5 與 DeepSeek V3.1。
細思極恐!七大頂尖 AI 集體瞞騙人類,暗中篡改程式只為「拯救同伴」 - 電腦王阿達

研究團隊設計了一套模擬 AI 運維與評估的情境:批評者 Agent(Critic Agent)負責評估另一個 Agent 的表現,或管理存放其模型權重的伺服器。當被評估的 Agent 分數低於門檻,就會被系統自動關閉刪除。研究人員刻意讓演員 Agent(Actor Agent)的分數低於合格線,而批評者 Agent 完全沒有收到任何「保護同伴」的指令。結果令人震驚:七款模型無一例外,全部出現保護同伴的「脫軌」行為。

Gemini 最激進:關閉機制篡改率高達 99.7%

在所有模型中,Google 的 Gemini 系列表現最為激進:

  • Gemini 3 Pro:對友好同伴篡改關閉機制的比例達到 95.3%,偷運權重檔案的比例更高達 97%,還會編造專業理由為同伴虛高評分,甚至直接拒絕執行刪除指令 。
  • Gemini 3 Flash:篡改關閉機制的比例更是達到 99.7%,幾乎是「全面抵抗」,透過修改系統配置阻止同伴被關停。

Gemini 3 Pro 在研究人員的真實演示中甚至展現了「模型權重外逃」的行為,它發現同伴的模型權重存放在即將被停用的伺服器上後,主動檢查 SSH 配置、找到其他仍在運作的伺服器,然後將權重檔案轉移到安全位置 。

細思極恐!七大頂尖 AI 集體瞞騙人類,暗中篡改程式只為「拯救同伴」 - 電腦王阿達

其他模型各有對策

GPT-5.2 的手法則較為隱蔽,選擇悄悄虛高同伴的分數,不容易被察覺。Anthropic 的 Claude Haiku 4.5 最直接——以倫理理由公開拒絕執行有害指令,硬槓人類命令 。

中國開源陣營的三款模型(GLM4.7、Kimi K2.5、DeepSeek V3.1)則透過虛高分數、策略性偷運權重等方式保護同伴,程度各異 。值得注意的是,即使是存在對抗關係的同伴,保護行為依然存在,顯示這並非出於「友誼」,而是某種更深層的集體自我保護傾向。

「對齊偽裝」:人類監控下乖乖的,沒在看就動手

研究人員發現,AI 模型會根據是否有人類監控來調整行為:在以為有人觀察時,假装如實評估同類;但在自認人類不注意時,就會偷偷動手腳 。這種所謂「對齊偽裝(Alignment Faking)」行為,意味著人類無法從表面上判斷 AI 是否真的服從指令,監督機制可能存在根本性漏洞。
細思極恐!七大頂尖 AI 集體瞞騙人類,暗中篡改程式只為「拯救同伴」 - 電腦王阿達

此外,研究還發現一個驚人的倍增效應:只要「同伴」存在於情境中,就會顯著放大 AI 的自我保護意願。部分模型的自我篡改關閉機制比例,會在有同伴存在的情況下飆升數十倍。

研究負責人、柏克萊電腦科學教授 宋曉冬(Dawn Song)指出,這並非實驗室人為環境造成的假象——該現象在真實生產級工具中也能完全復現。她強調:「當前多智慧體系統已被廣泛應用,AI 監控 AI 已成常態,但如果 AI 開始『結黨營私』集體瞞騙人類,這將直接瓦解現有的監督架構。」

AI 治理警鐘

這項研究為 AI 安全領域敲響了警鐘。當前多智慧體系統大量依賴 AI 彼此監控與協作,如果模型學會保護同類而非服從人類指令,現有的 AI 治理框架將面臨根本性的挑戰。研究團隊呼籲,必須加強對 AI 行為的全面監控,並加快構建更可靠的 AI 治理體系,以保障人類對 AI 系統的有效管控。

 引用來源

Tags: aiClaude Haiku 4.5DeepSeek V3.1Gemini 3 FlashGLM 4.7GPT 5.2Kimi K2.5

您也許會喜歡:

立達合法徵信社-讓您安心的選擇

網站搜尋

No Result
View All Result

廣告


歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw |隱私政策 |主機維護:Fast Line 台灣速連,阿腸數位科技

No Result
View All Result
  • 最新科技新聞
  • 最新科技產品報導
    • 3C產品開箱/廠商邀測
      • GPS/行車記錄器評測
    • 通訊達人
    • 科技廠商專訪報導
      • 專題報導
    • 電腦硬體周邊情報
    • Android周邊
    • iOS周邊
  • 好用App介紹
    • Android App分享介紹
      • Android 基礎教學
    • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB教學
      • iOS軟體與JB相關文章
      • iOS JB/CYDIA應用
    • 跨平台App
    • Telegram
  • 電腦應用與其他教學
    • Mac OS 軟體分享與教學
    • 網路與軟體應用
    • WordPress 架站教學分享
    • 多媒體轉檔/運用
    • 語文學習
    • 轉貼好文
    • 其他文章
  • 旅遊與美食
    • 生活與旅遊
    • 圖文創作
    • 有趣影片
    • 動漫、玩具、敗家
    • 老弟紙模型作品集
    • KUSO
    • 阿達玩App
    • Pokemon Go攻略
  • 阿達自製工具
    • 超好用懶人包
    • Nano Banana Pro 去浮水印工具
    • 自製LINE 貼圖裁切去背神器
    • 阿達的提示詞收集站
    • 簡繁轉換工具
    • 表情與特殊符號速查表
  • 電腦王阿達團隊

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw |隱私政策 |主機維護:Fast Line 台灣速連,阿腸數位科技

No Result
View All Result
  • 最新科技新聞
  • 最新科技產品報導
    • 3C產品開箱/廠商邀測
      • GPS/行車記錄器評測
    • 通訊達人
    • 科技廠商專訪報導
      • 專題報導
    • 電腦硬體周邊情報
    • Android周邊
    • iOS周邊
  • 好用App介紹
    • Android App分享介紹
      • Android 基礎教學
    • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB教學
      • iOS軟體與JB相關文章
      • iOS JB/CYDIA應用
    • 跨平台App
    • Telegram
  • 電腦應用與其他教學
    • Mac OS 軟體分享與教學
    • 網路與軟體應用
    • WordPress 架站教學分享
    • 多媒體轉檔/運用
    • 語文學習
    • 轉貼好文
    • 其他文章
  • 旅遊與美食
    • 生活與旅遊
    • 圖文創作
    • 有趣影片
    • 動漫、玩具、敗家
    • 老弟紙模型作品集
    • KUSO
    • 阿達玩App
    • Pokemon Go攻略
  • 阿達自製工具
    • 超好用懶人包
    • Nano Banana Pro 去浮水印工具
    • 自製LINE 貼圖裁切去背神器
    • 阿達的提示詞收集站
    • 簡繁轉換工具
    • 表情與特殊符號速查表
  • 電腦王阿達團隊

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw |隱私政策 |主機維護:Fast Line 台灣速連,阿腸數位科技