OpenAI 對判讀性 Interpretability 的研究
判讀性是指理解機器學習模型如何做出預測的能力。這對於建立信任和負責任的使用非常重要。我們可以透過使用簡單模型、視覺化或可解釋演算法來提高判讀性。催生 ChatGPT 的 OpenAI,坦承他們並未完全理解 AI 模型是如何運作的。這些模型被稱為"黑盒子 black boxes",因為從外部很難看出它們是如何運作的。OpenAI 正在努力了解這些模型是如何運作的,這樣我們才能更好地使用它們。
人類看不到黑盒子裡面,利用 AI 來自己解釋自己
在他們最新的研究報告中,OpenAI 使用 GPT-4 來解釋前一個版本 GPT-2 中類神經元 (neurons) 的行為。解釋判讀性很重要,因為它有助於我們理解 AI 系統如何運作,並確保 AI 是安全和可靠的。目標是實現"人工智能對齊 AI alignment",這指的是確保 AI 系統的行為與人類價值觀相符。這種靠 AI 自動化解釋 AI 行為的過程是一個重大的進步,因為它可以幫助我們更快、更容易地理解和評估 AI 系統。
OpenAI 研究判讀性的方法是採用三步驟技術:
1. 使用 GPT-4 解釋類神經元的活動行為
2. 使用 GPT-4 模擬類神經元的活動行為
3. 將模擬與實際進行比較
這邊的關鍵詞:類神經元、電路和注意力頭(attention head)。在類神經網路中,類神經元是小型的決策單元,電路是相互連接的類神經元的網路,而注意力頭則像是一盞聚光燈,幫助模型更加關注特定的文字或句子的一部分。
通過確定需要解釋的模型內特定的類神經元和注意力頭,GPT-4 把這件事情轉換成人類看得懂的解釋。OpenAI 也開發了一種解釋分數,作為語言模型利用自然語言壓縮和重建類神經元活動的能力指標。
初步結果不是很讓人滿意,但是會越來越好
到目前為止,這項研究的結果並不是很好。測試顯示,無論是 GPT-4 還是研究人員在解釋類神經元活動方面都表現得不佳。這可能是因為類神經元可能具有多種含義或與多個概念相聯的關係。這個方法的其他限制包括它所需的算力和它可以解釋到人類聽得懂的能力。
儘管面臨這些挑戰,OpenAI 對此仍保持樂觀。他們相信,這個框架為 AI 機器解讀判讀性提供了強大的基礎。隨著 AI 模型變得越來越精密,可預期的解釋的品質將會提高。OpenAI 相信,隨著AI模型變得更好,他們的框架將能夠產生更準確、更有幫助的解釋。
未來的方向
OpenAI 已經將其研究報告和相關資源公開。互動式的網站包含了每個步驟的詳細例子,顯示文字的特定部分如何對應特定的類神元。
AI 模型確實很複雜,但我們需要了解它們,因為它們可以做出驚人的事情。OpenAI 目前正在努力的解釋這個黑盒子,可想而知,是為了目前逐漸拉高的 AI 安全問題提出讓人安心的解釋,畢竟要說一個不知道怎麼產出原理的模型是安全的,很難令人信服。
留言
張貼留言