基于UE5的智能數(shù)字人系統(tǒng)
發(fā)布日期:2025/9/5 7:40:34 瀏覽量:
GMTalker 是由光明實(shí)驗(yàn)室媒體智能團(tuán)隊(duì)打造的一款專(zhuān)為虛幻引擎 5.3 設(shè)計(jì)的高沉浸式智能數(shù)字人系統(tǒng)。系統(tǒng)集成了語(yǔ)音識(shí)別、語(yǔ)音合成、自然語(yǔ)言理解、嘴型動(dòng)畫(huà)驅(qū)動(dòng)與3D渲染能力,具備完整的本地部署支持,適用于科研、教育及虛擬人應(yīng)用開(kāi)發(fā)場(chǎng)景。通過(guò)完善的后端、前端和算法設(shè)計(jì),GMTalker 構(gòu)建了一個(gè)完整的商業(yè)化數(shù)字人 Pipeline。
- 前端呈現(xiàn)(UE5 客戶端)
- 后端服務(wù)(AI 數(shù)字人后端系統(tǒng))
- AI 核心服務(wù)能力(模型 + API)
- 環(huán)境管理與部署層(Conda + 本地運(yùn)行)
- 支持語(yǔ)音輸入,能聽(tīng)懂你說(shuō)的話,并快速轉(zhuǎn)成文字
- 支持說(shuō)錯(cuò)可以打斷,讓對(duì)話更像和真人聊天一樣
- 支持把文字變成自然的語(yǔ)音,語(yǔ)氣真實(shí)、語(yǔ)調(diào)自然
- 支持用 AI 回答各種問(wèn)題,還能記住上下文接著聊
- 支持連接本地知識(shí)庫(kù),問(wèn)它專(zhuān)業(yè)問(wèn)題也能答上來(lái)
- 支持根據(jù)語(yǔ)音驅(qū)動(dòng)嘴型,和說(shuō)話內(nèi)容同步張嘴
- 支持配合情緒做表情動(dòng)作,不再死板
- 支持 UE5 渲染,畫(huà)面超真實(shí)
-

-
環(huán)境要求
- Python:3.11+
- 操作系統(tǒng):Windows 10/11 (推薦)
- 內(nèi)存:8GB+ RAM
- Unreal Engine:5.3.2
- Conda(推薦):Anaconda 或 Miniconda
- GPU支持:需2GB以上顯存(推薦支持CUDA的NVIDIA GPU)
快速啟動(dòng)
-
克隆項(xiàng)目
git clone https://github.com/feima09/GMTalker.git
-
一鍵啟動(dòng)
# 使用批處理文件啟動(dòng)(推薦)webui.bat
# 或使用PowerShell腳本./webui.ps1
-
訪問(wèn)服務(wù)
- 主服務(wù):http://127.0.0.1:5002
- Web配置界面:http://127.0.0.1:7860
主要配置文件
- configs/config.yaml - 主配置文件
- configs/gpt/ - GPT模型配置預(yù)設(shè)
- configs/tts/ - TTS服務(wù)配置預(yù)設(shè)
- configs/hotword.txt - 語(yǔ)音喚醒詞配置
- configs/prompt.txt - 系統(tǒng)提示詞
REST API
POST /v1/chat/completions
創(chuàng)建新的聊天對(duì)話,獲取AI回復(fù)并播放語(yǔ)音。
請(qǐng)求體:
- ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{
- "messages": [ {
- "content": "用戶輸入文本"
- } ]}
響應(yīng):
- 格式: text/event-stream
- 內(nèi)容: AI回復(fù)的流式文本
GET /v1/chat/new
創(chuàng)建新的聊天會(huì)話。
SocketIO API
連接地址
ounter(linews://127.0.0.1:5002/socket.io
namespace: /ue
事件類(lèi)型
- question - 發(fā)送用戶問(wèn)題
- aniplay - 動(dòng)畫(huà)播放控制
- connect/disconnect - 連接狀態(tài)
GPT服務(wù) (services/gpt/)
- OpenAI兼容: 支持OpenAI API格式
- 多模型: 支持OpenAI、通義千問(wèn)等
- 流式響應(yīng): 實(shí)時(shí)生成文本流
- RAG支持: 可配置檢索增強(qiáng)生成
TTS服務(wù) (services/tts/)
- MeloTTS: 高質(zhì)量中文語(yǔ)音合成
- 異步處理: 并行處理多個(gè)TTS請(qǐng)求
- 微調(diào)推理:詳細(xì)微調(diào)+推理可以訪問(wèn)MeloTTS
- Weight:如需本項(xiàng)目音色權(quán)重可以聯(lián)系貢獻(xiàn)者
ASR服務(wù) (services/asr/)
- FunASR集成: 基于阿里FunASR的語(yǔ)音識(shí)別
- 喚醒詞檢測(cè): 支持自定義喚醒詞
- 實(shí)時(shí)識(shí)別: 連續(xù)語(yǔ)音識(shí)別模式
播放器服務(wù) (services/player/)
- 本地播放: 基于pygame的本地音頻播放
- 唇形同步: 實(shí)現(xiàn)語(yǔ)音與面部動(dòng)畫(huà)同步
- Audio2Face: Audio2Face由于需要通過(guò)VPN下載人物模型并且項(xiàng)目首次加載緩慢,版本選擇2023.1.1。
- ovrlipsync: ovrlipsync輕量型嘴型驅(qū)動(dòng)算法時(shí)延低但效果稍遜

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{ "messages": [ { "content": "用戶輸入文本" } ]}
馬上咨詢: 如果您有業(yè)務(wù)方面的問(wèn)題或者需求,歡迎您咨詢!我們帶來(lái)的不僅僅是技術(shù),還有行業(yè)經(jīng)驗(yàn)積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生