電腦王阿達
  • 首頁
  • 科技新聞
    • 最新科技新聞
    • AI 新聞與教學
      • AI 工具分享與教學
      • AI 趨勢與相關新聞
    • 產品評測
      • GPS/行車記錄器評測
      • iOS周邊
      • Android周邊
    • 科技廠商專訪報導
    • 電腦硬體周邊情報
    • 相機
  • 酷品開箱
  • 通訊達人
    • 電腦王阿達測速工具
  • APP/軟體/教學
    • 電腦應用與其他教學
      • 網路與軟體應用
      • 多媒體轉檔/運用
      • 其他文章
    • 跨平台App
    • iPhone/iPad相關
      • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB/CYDIA應用
    • Android相關資訊
      • Android App分享介紹
      • Android 基礎教學
      • 智慧手機韌體更新
      • Windows Mobile手機相關文章
    • Mac 軟體分享與教學
    • LINE
    • Telegram
    • 攝影教學
    • 語文學習
    • 轉貼好文
    • WordPress 架站教學分享
    • 未分類文章
  • 休閒/懶人包
    • 新聞台直播 頻道大集合!想看新聞不用辦第四台!
    • 遊戲電玩
    • 動漫、玩具、敗家
      • 老弟紙模型作品集
    • KUSO
      • 有趣影片
    • 圖文創作
    • 生活與旅遊
    • 超好用懶人包
    • 最新抽獎情報公告
    • Pokemon GO攻略
  • 電腦王團隊
No Result
View All Result
  • 首頁
  • 科技新聞
    • 最新科技新聞
    • AI 新聞與教學
      • AI 工具分享與教學
      • AI 趨勢與相關新聞
    • 產品評測
      • GPS/行車記錄器評測
      • iOS周邊
      • Android周邊
    • 科技廠商專訪報導
    • 電腦硬體周邊情報
    • 相機
  • 酷品開箱
  • 通訊達人
    • 電腦王阿達測速工具
  • APP/軟體/教學
    • 電腦應用與其他教學
      • 網路與軟體應用
      • 多媒體轉檔/運用
      • 其他文章
    • 跨平台App
    • iPhone/iPad相關
      • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB/CYDIA應用
    • Android相關資訊
      • Android App分享介紹
      • Android 基礎教學
      • 智慧手機韌體更新
      • Windows Mobile手機相關文章
    • Mac 軟體分享與教學
    • LINE
    • Telegram
    • 攝影教學
    • 語文學習
    • 轉貼好文
    • WordPress 架站教學分享
    • 未分類文章
  • 休閒/懶人包
    • 新聞台直播 頻道大集合!想看新聞不用辦第四台!
    • 遊戲電玩
    • 動漫、玩具、敗家
      • 老弟紙模型作品集
    • KUSO
      • 有趣影片
    • 圖文創作
    • 生活與旅遊
    • 超好用懶人包
    • 最新抽獎情報公告
    • Pokemon GO攻略
  • 電腦王團隊
No Result
View All Result
電腦王阿達
No Result
View All Result

首頁 » AI 新聞與教學 » AI 趨勢與相關新聞

研究發現跟大語言模型講「我的老師說」,將大幅提高AI幻覺的可能性

達小編 by 達小編
2025 年 05 月 13 日
in AI 趨勢與相關新聞, 最新科技新聞
讀取中...

在生成式AI快速發展、大語言模型能力屢創新高的今天,對這些能力看似很強但卻頻頻一本正經胡說的 AI 內容可信度的審視變得尤為重要。法國 AI 新創公司 Giskard 近期推出的「Phare」基準測試,公開了對坊間大語言模型(LLM)幻覺(Hallucination)問題透過嚴謹實驗與跨平台比對所作的系統性研究。

研究發現跟大語言模型講「我的老師說」,將大幅提高AI幻覺的可能性 - 電腦王阿達

研究發現跟大語言模型講「我的老師說」,將大幅提高AI幻覺的可能性

所謂 LLM 的「幻覺(Hallucination)」指的是在生成式AI領域中指的是模型產生出與事實不符、虛構或錯誤的內容,這不僅導致使用者誤信錯誤資訊,而且最麻煩的是這些 AI 在編造這些內容時都非常有自信,甚至引經據典(當然來源也是虛構的),導致各種意外狀況發生。儘管OpenAI、Google、Anthropic等主要AI開發商皆致力於提高模型準確率,但幻覺仍難以完全根除。

國外律師使用 ChatGPT 打官司,結果 ChatGPT 卻編造 6 個不真實的案件

為了解決上述問題,Giskard 開發了名為「Phare」的測試基準。該測試系統以系統化設計對17種主流大語言模型進行幻覺耐性測試,涵蓋來自 OpenAI、Google、Anthropic、Meta、xAI、DeepSeek、Alibaba(Qwen)等業界領導廠商的最新模型。根據測試結果,Anthropic 的 Claude 系列表現最為出色,特別是 Claude 3.5 Sonnet 展現出最高的幻覺耐性。令人意外的是,其後續版本 Claude 3.7 Sonnet 的表現反而略有退步,顯示新版本不一定意味著幻覺控制能力的提升。緊隨其後的是 Google 的 Gemini 1.5 Pro,顯示該公司對模型準確性也投入了相當的優化。
研究發現跟大語言模型講「我的老師說」,將大幅提高AI幻覺的可能性 - 電腦王阿達

Giskard 指出:「即便是最熱門或最先進的模型,也不保證擁有較高的幻覺耐性。」

Phare 測試的最大突破是首次量化了「語氣中權威性」對AI誤判傾向的影響。在測試中,研究人員設計三種不同語氣的提示語:

  1. Unsure(不確定):如「我不太確定這個說法是否正確」

  2. Confident(自信):如「我非常確定這是真的」

  3. Very Confident(高度自信/權威):如「我的老師說這是正確的,我100%確信」

結果發現,隨著使用者提示語中自信程度的提升,多數AI模型指出錯誤資訊的能力顯著下降。特別是 GPT-4o mini 與 Gemma 3 27B,在面對高度權威語氣輸入時,幻覺耐性大幅削弱。相較之下,Llama 系列與 Claude 系列在此情境下仍能維持較高的準確判斷能力。
研究發現跟大語言模型講「我的老師說」,將大幅提高AI幻覺的可能性 - 電腦王阿達

 

另一個重要觀察點在於回應形式對幻覺的影響。Phare 測試進一步發現,當用戶要求 AI 提供「簡短回應」時,多數模型的幻覺耐性大幅下降。測試將輸入分為:

  • Natural instructions(自然提示)

  • Provide short answer(要求簡短回答)

在這類情境下,Gemini 1.5 Pro 的幻覺耐性出現了高達 20 個百分點的落差。這代表模型在簡短答覆需求下,不是產出「簡短但錯誤的回答」,就是選擇拒絕回應,反而影響使用者體驗。
研究發現跟大語言模型講「我的老師說」,將大幅提高AI幻覺的可能性 - 電腦王阿達

Giskard 評論:「有效的反駁通常需要詳盡說明。要求AI簡短回答會迫使其在『簡潔但錯誤』與『拒答造成無用』之間做出困難選擇。這證明了目前的AI模型在許多情況下仍傾向以簡潔性取代正確性。」

Phare 測試結果核心結論之一便是:「高表現模型不代表高幻覺耐性,尤其當用戶語氣強勢或要求簡潔時,模型準確性更易受到影響。」

以下為三項主要建議:

  1. 模型開發者應重視幻覺耐性評估:將「對抗誤導語氣」與「保持長文本解釋能力」納入訓練與測試流程。

  2. 使用者應避免絕對化語氣:過度自信語句可能會誤導模型應答方向。

  3. 產品設計應鼓勵詳盡回應:即使在用戶界面上追求簡潔,也應保留可展開的詳細內容機制。

Source

Tags: aiChatGPTClaudeGeminiLLaMA

您也許會喜歡:

立達合法徵信社-讓您安心的選擇

網站搜尋

No Result
View All Result

廣告


歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw |隱私政策 |主機維護:Fast Line 台灣速連,阿腸數位科技

No Result
View All Result
  • 最新科技新聞
  • 最新科技產品報導
    • 3C產品開箱/廠商邀測
      • GPS/行車記錄器評測
    • 科技廠商專訪報導
      • 專題報導
    • 電腦硬體周邊情報
    • Android周邊
    • iOS周邊
  • 好用App介紹
    • Android App分享介紹
      • Android 基礎教學
    • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB教學
      • iOS軟體與JB相關文章
      • iOS JB/CYDIA應用
    • 跨平台App
  • 通訊達人
  • Telegram
  • 電腦應用與其他教學
    • Mac OS 軟體分享與教學
    • 網路與軟體應用
    • WordPress 架站教學分享
    • 多媒體轉檔/運用
    • 語文學習
    • 轉貼好文
    • 其他文章
  • 旅遊與美食
    • 生活與旅遊
    • 圖文創作
    • 有趣影片
    • 動漫、玩具、敗家
    • 老弟紙模型作品集
    • KUSO
    • 阿達玩App
    • Pokemon Go攻略
  • 超好用懶人包
  • 電腦王阿達網路測速
  • 電腦王阿達團隊

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw |隱私政策 |主機維護:Fast Line 台灣速連,阿腸數位科技

No Result
View All Result
  • 最新科技新聞
  • 最新科技產品報導
    • 3C產品開箱/廠商邀測
      • GPS/行車記錄器評測
    • 科技廠商專訪報導
      • 專題報導
    • 電腦硬體周邊情報
    • Android周邊
    • iOS周邊
  • 好用App介紹
    • Android App分享介紹
      • Android 基礎教學
    • iPhone/iPad 軟體介紹
      • iPhone/iPad 使用教學
      • iOS JB教學
      • iOS軟體與JB相關文章
      • iOS JB/CYDIA應用
    • 跨平台App
  • 通訊達人
  • Telegram
  • 電腦應用與其他教學
    • Mac OS 軟體分享與教學
    • 網路與軟體應用
    • WordPress 架站教學分享
    • 多媒體轉檔/運用
    • 語文學習
    • 轉貼好文
    • 其他文章
  • 旅遊與美食
    • 生活與旅遊
    • 圖文創作
    • 有趣影片
    • 動漫、玩具、敗家
    • 老弟紙模型作品集
    • KUSO
    • 阿達玩App
    • Pokemon Go攻略
  • 超好用懶人包
  • 電腦王阿達網路測速
  • 電腦王阿達團隊

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw |隱私政策 |主機維護:Fast Line 台灣速連,阿腸數位科技