跳到主要內容

ChatGPT 的幻覺:實用性的受限

ChatGPT 的幻覺:實用性受限

根據 IEEE 網頁上的一篇文章,討論到了幻覺(hallucination)。ChatGPT 因其令人印象深刻的知識深度和對各種問題的流利回答而備受著稱。但是,長期使用者其實會發現 ChatGPT 一本正經胡說八道的機率非常高,尤其當我們沒提供相關文件供其參考的的時候更嚴重。人們越來越擔心 ChatGPT 的幻覺傾向可能會削弱它的實用性。在這裡,“幻覺”一詞指的是生成文字中的錯誤,這些錯誤在語義上或語法上是合理的,但最終是不正確或無意義的。結果是,用戶不能信任 ChatGPT 的回應的準確性,這可能在醫學、教育和法律等領域產生嚴重後果。

OpenAI 正在採取行動

幸運的是,OpenAI 意識到這個問題並正在採取措施解決它。OpenAI 的首席科學家之一,也是 ChatGPT 的創造者之一的 Ilya Sutskever 表示,這個問題會隨著 LLMs 學會根據現實答話而消失。OpenAI 正在開創一種稱為強化學習與人類反饋(RLHF)的技術來塑造其模型的行為。

Reward predictor

為了幫助 ChatGPT 能更好地與人交談,製作這個程式的人使用了一種被稱為「Reward predictor」的東西。Reward predictor 就像是一位老師,根據 ChatGPT 的表現給它一個分數。如果 ChatGPT 表現得好,它就會得到高分。如果 ChatGPT 犯了一個錯誤,它就會得到較低的分數。

但 Reward predictor 並不完美,所以有時候真正的人類必須檢查 ChatGPT 的工作,以確保它做的事情是正確的。當這個人看到 ChatGPT 做得好時,他們會告訴 Reward predictor 給 ChatGPT 更高的分數,以此類推。當他們看到 ChatGPT 做得不太好時,他們會告訴 Reward predictor 給它更低的分數。

這有助於 ChatGPT 學習它應該做什麼,不應該做什麼。隨著時間的推移,製造 ChatGPT 的人認為它將能更好地與人交談,不會再犯那麼多錯誤了。

真的是這樣嗎?

然而,一些專家認為,ChatGPT 的幻覺可能是大型語言模型的固有缺陷。深度學習先驅 Yann LeCun 認為,模型可能擅長模仿人類的語言,但它們並不真正「理解」語言的含義或在現實世界中的運作方式。他認為,大部分人類知識都是非語言的,計算機需要通過觀察學習來獲取這種知識。他還指出,人類通過試錯學習了許多技能,而不是通過語言。另一方面,Sutskever 認為,文字已經表達了世界,預訓練模型已經知道關於基礎現實的一切。

大型語言模型的限制

儘管 OpenAI 正在努力解決這個問題,但很明顯,大型語言模型在生成精確產出方面的實用性仍然受限制。Diffblue 公司的 CEO Mathew Lodge 使用強化學習自動生成 Java 代碼的單元測試,他認為,僅靠強化系統就可以比大型語言模型更加準確。雖然大型語言模型可以用於自由創意互動,但 Lodge 警告說,過去十年已經教給我們,大型深度學習模型是高度不可預測的,使模型變得更大和更複雜並不能解決這個問題。他認為,最好在錯誤跟幻覺產生時不會造成重大影響下使用 LLMs 當作工具。

寫在後面

總之,ChatGPT 的幻覺傾向是一個嚴重的問題,可能會降低其在各個領域的實用性。

目前的 ChatGPT 並不建議用於需要精確答案的應用,例如數學、專業財經等領域。因為 ChatGPT 可能無法提供完全正確的答案,會出現一些錯誤或不精確的回答。但是在創意類文件總結、coding copilot 等應用中,ChatGPT 是可以建議使用的。因為在這些應用中,ChatGPT 的幻覺問題並不會對最終結果產生太大的影響。

希望未來可以透過 Plugin 的方式來解決這個問題,讓 ChatGPT 的表現能夠更加優秀。目前一些新的 AI 技術,例如 new bing、perplexity AI 等都展現出比 ChatGPT 更好的表現。


參考資料:

留言

這個網誌中的熱門文章

Reddit 超強文章:使用 ChatGPT 的 Custom Instruction 提升回答品質

Forefront Chat:自由切換 GPT-3.5 和 GPT-4 聊天,現在免費!

提高投資決策效率:利用 ChatGPT 分析資產負債表

ChatGPT 可以顯示美觀數學公式:Tex All the Tings Chrome Extension

Glarity Chrome 擴充套件:使用 ChatGPT 生成 Youtube/bilibili, Google/Bing, Page Summary, Comment Summary 摘要

ChatGPT 的 GPTs 筆記 (4):GPTs Konwledge 知識庫的限制與風險

當未來和過去交錯:AI 翻譯古老楔形文字 Cuneiform

TRIZGPT:解決問題的小顧問

ChatGPT Sidebar: 全方位 AI 助手 (Chrome Extension)

Grammarly 推出 GrammarlyGo:創新的生成式 AI 寫作助手