邏輯推理數學運算仍需突破：LLM的限制

人工智能與其推理困境

生成流暢文字的人工智能系統已成為科技產業的新寵。然而，當它們要解決需要推理的數學問題時，這些大型語言模型（LLM）往往會功虧一簣。雖然 LLM 有時能正確回答這些問題，但更常出現錯誤。這是因為 LLM 僅基於訓練數據中的統計模式生成新文字。然而，Google的LLM「Minerva」在數學數據集中得分為50％，這震驚了研究人員。這個模型是在數學相關文本上訓練的，並且比ChatGPT大三倍。這結果表明，訓練更大的LLM並提供更多數據可能會讓它們通過僅靠模式識別來解決需要推理的任務。

「越大越好」的策略

現在的辯論圍繞著 LLM 訓練的「越大越好」策略。一些研究人員認為，擴大 LLM 規模可以提供成就強大人工智能的途徑。但是其他人則認為這個論點不完全正確，因為 LLM 仍然會犯明顯的錯誤，而更大的模型只是更好地回答了在其訓練數據範圍內的查詢。商業公司使用更大的人工智能模型獲得了更好的結果，因此它們正在推出越來越大的 LLM。然而，這些模型代價昂貴，消耗大量能源，並有重大缺點，包括關於其輸出準確性和傳播錯誤信息的擔憂。

模型大小的作用

像 ChatGPT 和 Minerva 這樣的 LLM 是由在各層中的計算單元組成的巨大網路。LLM 的大小是通過其參數數量來衡量，訓練這樣的網路涉及要求它預測已知句子中的遮罩部分並微調這些參數，以便算法在下次做得更好一些。Minerva的性能隨規模增加而改善，這表明更大的模型越來越好。控制模型大小的規則顯示，性能會隨著某些參數的增加而改善。然而，研究人員不確定為什麼。

抽象推理語料庫

根據 Google 的 AI 研究員 François Chollet 的說法，儘管LLM的答案正確，但其中沒有涉及理解。LLM 仍會犯荒謬的錯誤，這導致了將 LLM 在沒有保護條件的情況下釋出到社會上的許多擔憂。沒有全面測試 LLM 處理真正新的、未見過問題的能力的方式，是目前碰到的問題。Chollet 提出一個他設計的抽象推理測試，稱為「抽象推理資料庫」。該測試將有助於評估 LLM 的推理能力和可靠地解決新問題的能力。

寫在後面

小編目前看起來，LLM 目前看起來就是大型的語言模型，可以預見未來的運用比較合適的部分就是文字相關的總結，潤飾，翻譯，Coding，牽扯到邏輯推理數學運算等需求可能還有段距離，JAVIS 目前應該還是出不來...

參考資料：

In AI, is bigger always better?
Photo by Mika Baumeister on Unsplash

The Key | 每天的關鍵

搜尋此網誌