6款文字語音生成驅(qū)動虛擬數(shù)字人說話的開源項目
發(fā)布日期:2025/4/16 23:34:16 瀏覽量:
一、FACEGOOD的Audio2Face
github地址:github.com/FACEGOOD/FA…
FACEGOOD 對輸入和輸出數(shù)據(jù)做了相應的調(diào)整,聲音數(shù)據(jù)對應的標簽不再是模型動畫的點云數(shù)據(jù)而是模型動畫的 blendshape 權(quán)重。
FACEGOOD 主要完成 Audio2Face 部分,ASR、TTS 由思必馳智能機器人完成。如果你想用自己的聲音,或第三方的,ASR、TTS 可以自行進行替換。當然,F(xiàn)ACEGOOD Audio2face 部分也可根據(jù)自己的喜好進行重新訓練,比如你想用自己的聲音或其它類型的聲音,或者不同于 FACEGOOD 使用的模型綁定作為驅(qū)動數(shù)據(jù),都可以根據(jù)下面提到的流程完成自己專屬的動畫驅(qū)動算法模型訓練。那么 Audio2Face 這一步的框架是什么樣呢?又如何制作自己的訓練數(shù)據(jù)呢?
常規(guī)的神經(jīng)網(wǎng)絡模型訓練大致可以分為三個階段:數(shù)據(jù)采集制作、數(shù)據(jù)預處理和數(shù)據(jù)模型訓練。第一階段,數(shù)據(jù)采集制作。這里主要包含兩種數(shù)據(jù),分別是聲音數(shù)據(jù)和聲音對應的動畫數(shù)據(jù)。聲音數(shù)據(jù)主要是錄制中文字母表的發(fā)音,以及一些特殊的爆破音,包含盡可能多中發(fā)音的文本。而動畫數(shù)據(jù)就是,在 maya 中導入錄制的聲音數(shù)據(jù)后,根據(jù)自己的綁定做出符合模型面部特征的對應發(fā)音的動畫;第二階段,主要是通過 LPC 對聲音數(shù)據(jù)做處理,將聲音數(shù)據(jù)分割成與動畫對應的幀數(shù)據(jù),及 maya 動畫幀數(shù)據(jù)的導出。第三階段就是將處理之后的數(shù)據(jù)作為神經(jīng)網(wǎng)絡的輸入,然后進行訓練直到 loss 函數(shù)收斂即可。
二、Write-a-Speaker
github地址:github.com/FuxiVirtual…
Write-a-Speaker綜合了高保真的面部表情和頭部運動,并與文本情感、語音節(jié)奏和停頓相一致。具體來說,我們的框架包括一個獨立于說話人的階段和一個特定于說話人的階段。在與說話人無關(guān)的階段,我們設計了三個并行網(wǎng)絡,分別從文本中生成嘴巴、上臉和頭部的動畫參數(shù)。在特定說話人階段,我們提出了一個3D人臉模型引導的注意網(wǎng)絡來合成針對不同個體的視頻。它將動畫參數(shù)作為輸入,并利用注意遮罩操縱輸入個體的面部表情變化。此外,為了更好地在視覺運動(即面部表情變化和頭部移動)和音頻之間建立真實的對應關(guān)系,我們利用高精度的運動帽數(shù)據(jù)集,而不是依賴特定個體的長視頻。在獲得視覺和音頻通信后,我們可以以端到端的方式有效地訓練我們的網(wǎng)絡。對定性和定量結(jié)果的大量實驗表明,我們的算法實現(xiàn)了高質(zhì)量的照片真實感對話頭部視頻,包括根據(jù)語音節(jié)奏進行的各種面部表情和頭部運動,并超過了最先進的水平。
三、AI-generated-characters
github地址:github.com/mitmedialab…
麻省理工學院媒體實驗室(MIT Media Lab)的研究人員開源了一個虛擬角色生成工具。該工具結(jié)合了面部、手勢、語音和動作領域的人工智能模型,可用于創(chuàng)建各種音頻和視頻輸出,一舉登上《Nature Machine Intelligence》。該項目主要用于音頻或視頻驅(qū)動視頻,暫不支持文本驅(qū)動視頻。主要用于醫(yī)療視頻或其他視頻通話時保護個人隱私視頻驅(qū)動視頻,使著名的歷史或現(xiàn)代人栩栩如生。
四、Audio2Head
github地址:github.com/wangsuzhen/…
Audio2Head是基于一張參考照片,和說話音頻,生成口播視頻 one-shot talking head
兼顧生成的韻律和外表的相似,除了面部,考慮到了頭部的動作,慮了背景區(qū)域的artifact
五、Omniverse Audio2Face
Omniverse Audio2Face可以借助 NVIDIA 深度學習 AI 技術(shù),僅需一個音頻來源即可快速輕松生成表情豐富的面部動畫。
六、LiveSpeechPortraits
github: github.com/YuanxunLu/L…
video: yuanxunlu.github.io/projects/Li…
LiveSpeechPortraits僅由超過 30 fps 的音頻信號驅(qū)動,生成個性化的逼真語音頭動畫。我們的系統(tǒng)包含三個階段。第一階段是深度神經(jīng)網(wǎng)絡,它提取深度音頻特征以及流形投影,以將這些特征投影到目標人的語音空間。在第二階段,我們從投影的音頻特征中學習面部動態(tài)和動作。預測的運動包括頭部姿勢和上半身運動,其中前者由自回歸概率模型生成,該模型模擬目標人的頭部姿勢分布。上半身運動是從頭部姿勢推斷出來的。在最后階段,我們從先前的預測中生成條件特征圖,并將其與候選圖像一起發(fā)送到圖像到圖像轉(zhuǎn)換網(wǎng)絡,以合成逼真的渲染。我們的方法可以很好地推廣到野生音頻,并成功合成高保真?zhèn)€性化的面部細節(jié),例如皺紋、牙齒。我們的方法還允許顯式控制頭部姿勢。廣泛的定性和定量評估以及用戶研究證明了我們的方法優(yōu)于最先進的技術(shù)。
轉(zhuǎn)載:blog.bfw.wiki/user12305/1…
一個開源項目:gitee.com/guiji-ai/du…
百度開源:cloud.baidu.com/product/bai…
百度AR-SDK:github.com/baidu/ar-sd…
通過飛漿開源本地:github.com/JiehangXie/…
一個在線demo:demo.deepscience.cn/chatGPT/#/
馬上咨詢: 如果您有業(yè)務方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生