跳到主要內容

Meta 推出 Voicebox:AI 語音生成的集大成

人工智慧語音生成的突破

Meta,Facebook的母公司,宣布在語音生成人工智慧領域取得重大突破。Voicebox,一款最先進的人工智慧模型,它能透過上下文學習來執行它並未特別訓練過的語音生成任務。這個人工智慧模型能夠生成高品質的音訊剪輯,並且可以編輯預先錄製的音訊,例如去除不需要的噪音,同時保留音訊的內容和風格。


Voicebox 的功能

Voicebox 擁有多種功能,包括上下文文字轉語音合成、語音編輯和降噪、跨語言風格轉換,以及多樣化的語音取樣。只需要2秒的音訊樣本,Voicebox就可以匹配音訊風格進行文字到語音的生成。它還可以重建被噪音中斷的語音部分或替換錯誤的單詞,而不必重新錄製整段演講。


Voicebox 的可能應用

Voicebox 的可能應用範圍非常廣泛。它可以賦予虛擬助手和元宇宙中的 NPC 自然的聲音。視障人士也可以使用它來聽取由他們的朋友的聲音朗讀的訊息。在未來,這項技術可能應用於患有聲帶損傷的患者的 AI 聲帶。


寫在後面:Voicebox 的未來

Voicebox 在生成人工智慧研究中代表了一個重大的步驟,但它尚未對公眾開放。因為 Meta 認為到這款人工智慧可能被用於不當用途,並且正在研究一種有效的方法來區分真實語音和由 Voicebox 生成的音訊。Voicebox 感覺跟之前介紹的 AI 配音又更進階了一步,把聲音模擬優化一次集大成,看影片的表現也賦予的不同聲音感情,小編本身很看好未來 MMORPG 的發展,Sword Art Online 感覺快要出現了....😨


Read more


參考資料

留言

這個網誌中的熱門文章

Reddit 超強文章:使用 ChatGPT 的 Custom Instruction 提升回答品質

Forefront Chat:自由切換 GPT-3.5 和 GPT-4 聊天,現在免費!

提高投資決策效率:利用 ChatGPT 分析資產負債表

ChatGPT 可以顯示美觀數學公式:Tex All the Tings Chrome Extension

Glarity Chrome 擴充套件:使用 ChatGPT 生成 Youtube/bilibili, Google/Bing, Page Summary, Comment Summary 摘要

ChatGPT 的 GPTs 筆記 (4):GPTs Konwledge 知識庫的限制與風險

當未來和過去交錯:AI 翻譯古老楔形文字 Cuneiform

TRIZGPT:解決問題的小顧問

ChatGPT Sidebar: 全方位 AI 助手 (Chrome Extension)

Grammarly 推出 GrammarlyGo:創新的生成式 AI 寫作助手