ChatGPT 的幻覺：實用性的受限

根據 IEEE 網頁上的一篇文章，討論到了幻覺(hallucination)。ChatGPT 因其令人印象深刻的知識深度和對各種問題的流利回答而備受著稱。但是，長期使用者其實會發現 ChatGPT 一本正經胡說八道的機率非常高，尤其當我們沒提供相關文件供其參考的的時候更嚴重。人們越來越擔心 ChatGPT 的幻覺傾向可能會削弱它的實用性。在這裡，“幻覺”一詞指的是生成文字中的錯誤，這些錯誤在語義上或語法上是合理的，但最終是不正確或無意義的。結果是，用戶不能信任 ChatGPT 的回應的準確性，這可能在醫學、教育和法律等領域產生嚴重後果。

OpenAI 正在採取行動

幸運的是，OpenAI 意識到這個問題並正在採取措施解決它。OpenAI 的首席科學家之一，也是 ChatGPT 的創造者之一的 Ilya Sutskever 表示，這個問題會隨著 LLMs 學會根據現實答話而消失。OpenAI 正在開創一種稱為強化學習與人類反饋（RLHF）的技術來塑造其模型的行為。

Reward predictor

為了幫助 ChatGPT 能更好地與人交談，製作這個程式的人使用了一種被稱為「Reward predictor」的東西。Reward predictor 就像是一位老師，根據 ChatGPT 的表現給它一個分數。如果 ChatGPT 表現得好，它就會得到高分。如果 ChatGPT 犯了一個錯誤，它就會得到較低的分數。

但 Reward predictor 並不完美，所以有時候真正的人類必須檢查 ChatGPT 的工作，以確保它做的事情是正確的。當這個人看到 ChatGPT 做得好時，他們會告訴 Reward predictor 給 ChatGPT 更高的分數，以此類推。當他們看到 ChatGPT 做得不太好時，他們會告訴 Reward predictor 給它更低的分數。

這有助於 ChatGPT 學習它應該做什麼，不應該做什麼。隨著時間的推移，製造 ChatGPT 的人認為它將能更好地與人交談，不會再犯那麼多錯誤了。

真的是這樣嗎?

然而，一些專家認為，ChatGPT 的幻覺可能是大型語言模型的固有缺陷。深度學習先驅 Yann LeCun 認為，模型可能擅長模仿人類的語言，但它們並不真正「理解」語言的含義或在現實世界中的運作方式。他認為，大部分人類知識都是非語言的，計算機需要通過觀察學習來獲取這種知識。他還指出，人類通過試錯學習了許多技能，而不是通過語言。另一方面，Sutskever 認為，文字已經表達了世界，預訓練模型已經知道關於基礎現實的一切。

大型語言模型的限制

儘管 OpenAI 正在努力解決這個問題，但很明顯，大型語言模型在生成精確產出方面的實用性仍然受限制。Diffblue 公司的 CEO Mathew Lodge 使用強化學習自動生成 Java 代碼的單元測試，他認為，僅靠強化系統就可以比大型語言模型更加準確。雖然大型語言模型可以用於自由創意互動，但 Lodge 警告說，過去十年已經教給我們，大型深度學習模型是高度不可預測的，使模型變得更大和更複雜並不能解決這個問題。他認為，最好在錯誤跟幻覺產生時不會造成重大影響下使用 LLMs 當作工具。

寫在後面

總之，ChatGPT 的幻覺傾向是一個嚴重的問題，可能會降低其在各個領域的實用性。

目前的 ChatGPT 並不建議用於需要精確答案的應用，例如數學、專業財經等領域。因為 ChatGPT 可能無法提供完全正確的答案，會出現一些錯誤或不精確的回答。但是在創意類發想、文件總結、coding copilot 等應用中，ChatGPT 是可以建議使用的。因為在這些應用中，ChatGPT 的幻覺問題並不會對最終結果產生太大的影響。

希望未來可以透過 Plugin 的方式來解決這個問題，讓 ChatGPT 的表現能夠更加優秀。目前一些新的 AI 技術，例如 new bing、perplexity AI 等都展現出比 ChatGPT 更好的表現。

參考資料：

Photo by Ehimetalor Akhere Unuabona on Unsplash

The Key | 每天的關鍵

搜尋此網誌