OpenAI 對判讀性 Interpretability 的研究 判讀性是指理解機器學習模型如何做出預測的能力。這對於建立信任和負責任的使用非常重要。我們可以透過使用簡單模型、視覺化或可解釋演算法來提高判讀性。催生 ChatGPT 的 OpenAI,坦承他們並未完全理解 AI 模型是如何運作的。這些模型被稱為"黑盒子 black boxes",因為從外部很難看出它們是如何運作的。OpenAI 正在努力了解這些模型是如何運作的,這樣我們才能更好地使用它們。 人類看不到黑盒子裡面,利用 AI 來自己解釋自己 在他們最新的研究報告中,OpenAI 使用 GPT-4 來解釋前一個版本 GPT-2 中類神經元 (neurons) 的行為。解釋判讀性很重要,因為它有助於我們理解 AI 系統如何運作,並確保 AI 是安全和可靠的。目標是實現"人工智能對齊 AI alignment",這指的是確保 AI 系統的行為與人類價值觀相符。這種靠 AI 自動化解釋 AI 行為的過程是一個重大的進步,因為它可以幫助我們更快、更容易地理解和評估 AI 系統。 OpenAI 研究判讀性的方法是採用三步驟技術: 1. 使用 GPT-4 解釋 類神經元的 活動 行為 2. 使用 GPT-4 模擬 類神經元的 活動 行為 3. 將模擬與實際進行比較 這邊的關鍵詞: 類神經元、電路和注意力頭(attention head) 。在類神經網路中, 類神經元 是小型的決策單元,電路是相互連接的類神經元的網路,而注意力頭則像是一盞聚光燈,幫助模型更加關注特定的文字或句子的一部分。 通過確定需要解釋的模型內特定的 類神經元 和 注意力頭 ,GPT-4 把這件事情轉換成人類看得懂的解釋。OpenAI 也開發了一種解釋分數,作為語言模型利用自然語言壓縮和重建類神經元活動的能力指標。 初步結果不是很讓人滿意,但是會越來越好 到目前為止,這項研究的結果並不是很好。測試顯示,無論是 GPT-4 還是研究人員在解釋類神經元活動方面都表現得不佳。這可能是因為類神經元可能具有多種含義或與多個概念相聯的關係。這個方法的其他限制包括它所需的算力和它可以解釋到人類聽得懂的能力。 儘管面臨這些挑戰,OpenAI 對此仍保持樂觀。他們相信,這個框架為 AI 機器解讀判讀性提供了強大的基礎。隨著 A...
這是一個提供科技新知的部落格,你可以在這裡找到各種有趣的科技話題和小技巧,讓你了解最新科技趨勢。趕快來關注我們,探索科技世界的奧秘吧!