HunyuanVideo-Avatar
应用简介
HunyuanVideo-Avatar是腾讯开发的基于多模态扩散变换器(MM-DiT)的音频驱动人物动画生成模型,能够同时生成动态、情感可控和多角色对话视频。该模型通过创新的角色图像注入模块、音频情感模块(AEM)和面部感知音频适配器(FAA)三大技术创新,支持多种风格头像(写实、卡通、3D渲染、拟人化)的多尺度生成(肖像、上半身、全身),实现高保真度的音频驱动人物动画,可广泛应用于电商、直播、社交媒体等场景。


主要特性
- 1音频驱动人物动画生成
- 2多模态扩散变换器架构
- 3动态情感可控视频生成
- 4多角色对话视频支持
- 5多风格头像支持
详细信息
HunyuanVideo-Avatar简介
HunyuanVideo-Avatar是腾讯公司于2025年5月28日发布的音频驱动人物动画生成模型。该模型基于多模态扩散变换器(MM-DiT)架构,专门解决音频驱动人物动画领域的三大关键挑战:(1)在保持角色一致性的同时生成高动态视频;(2)实现角色与音频之间的精确情感对齐;(3)支持多角色音频驱动动画。
该项目已在arXiv发表论文,并在GitHub和HuggingFace平台开源了推理代码和模型权重,为研究者和开发者提供了完整的技术实现方案。
主要功能
高动态情感可控视频生成
HunyuanVideo-Avatar支持将任意输入的头像图像动画化为高动态且情感可控的视频,仅需简单的音频条件输入。系统能够处理任意尺度和分辨率的多风格头像图像,包括写实、卡通、3D渲染和拟人化角色等多种风格。
多尺度生成能力
模型支持多尺度生成功能,涵盖肖像、上半身和全身三种不同的生成模式,能够生成具有高动态前景和背景的视频,实现卓越的真实感和自然度。
音频情感控制
系统支持基于输入音频控制角色的面部情感表达,通过音频情感模块(AEM)提取和传递情感参考图像中的情感线索到目标生成视频中,实现细粒度和准确的情感风格控制。
多角色动画支持
通过面部感知音频适配器(FAA),模型能够在潜在级别使用面部掩码隔离音频驱动的角色,通过交叉注意力机制实现多角色场景下的独立音频注入。
如何使用HunyuanVideo-Avatar
环境要求和安装
-
硬件要求:需要支持CUDA的NVIDIA GPU
- 最低配置:24GB显存(用于720p×1280p×129帧生成,但速度较慢)
- 推荐配置:80GB显存GPU以获得更好的生成质量
- 测试操作系统:Linux
-
环境安装:
# 克隆仓库
git clone https://github.com/Tencent/HunyuanVideo-Avatar.git
cd HunyuanVideo-Avatar
# 创建conda环境
conda create -n HunyuanVideo-Avatar python==3.10.9
conda activate HunyuanVideo-Avatar
# 安装PyTorch(CUDA 12.4版本)
conda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 pytorch-cuda=12.4 -c pytorch -c nvidia
# 安装依赖
python -m pip install -r requirements.txt
# 安装flash attention v2加速
python -m pip install ninja
python -m pip install git+https://github.com/Dao-AILab/flash-attention.git@v2.6.3
推理使用方式
多GPU并行推理(以8GPU为例):
cd HunyuanVideo-Avatar
export PYTHONPATH=./
export MODEL_BASE="./weights"
checkpoint_path=${MODEL_BASE}/ckpts/hunyuan-video-t2v-720p/transformers/mp_rank_00_model_states.pt
torchrun --nnodes=1 --nproc_per_node=8 --master_port 29605 hymm_sp/sample_batch.py \
--input 'assets/test.csv' \
--ckpt ${checkpoint_path} \
--sample-n-frames 129 \
--seed 128 \
--image-size 704 \
--cfg-scale 7.5 \
--infer-steps 50 \
--use-deepcache 1 \
--flow-shift-eval-video 5.0 \
--save-path ${OUTPUT_BASEPATH}
单GPU推理:
export DISABLE_SP=1
CUDA_VISIBLE_DEVICES=0 python3 hymm_sp/sample_gpu_poor.py \
--input 'assets/test.csv' \
--ckpt ${checkpoint_path} \
--sample-n-frames 129 \
--seed 128 \
--image-size 704 \
--cfg-scale 7.5 \
--infer-steps 50 \
--use-deepcache 1 \
--flow-shift-eval-video 5.0 \
--save-path ${OUTPUT_BASEPATH} \
--use-fp8 \
--infer-min
极低显存运行:
export CPU_OFFLOAD=1
CUDA_VISIBLE_DEVICES=0 python3 hymm_sp/sample_gpu_poor.py \
--cpu-offload \
--use-fp8 \
[其他参数同上]
Gradio服务器部署:
bash ./scripts/run_gradio.sh
技术原理与架构
HunyuanVideo-Avatar基于多模态扩散变换器(MM-DiT)架构,引入了三项关键技术创新:
角色图像注入模块
设计了角色图像注入模块来替代传统的基于加法的角色条件方案,消除了训练和推理之间固有的条件不匹配问题,确保动态运动和强角色一致性。
音频情感模块(AEM)
引入音频情感模块来提取和传递情感参考图像中的情感线索到目标生成视频中,实现细粒度和准确的情感风格控制。
面部感知音频适配器(FAA)
提出面部感知音频适配器,通过潜在级别的面部掩码隔离音频驱动的角色,通过交叉注意力机制实现多角色场景下的独立音频注入。
授权方案与产品价格
根据提供的链接信息,HunyuanVideo-Avatar采用开源模式发布:
- 开源许可:项目在GitHub上公开发布,包含完整的源代码和模型权重
- 免费使用:推理代码和预训练模型权重免费提供下载
- 商业使用:信息不详,需查看具体的LICENSE文件了解商业使用条款
- 技术支持:通过GitHub Issues和HuggingFace社区提供技术支持
适用场景和人群
目标用户群体
- AI研究者:从事音频驱动动画、多模态生成等相关研究的学者
- 视频内容创作者:需要快速生成人物动画视频的内容制作者
- 企业开发者:开发相关商业应用的技术团队
- 教育工作者:用于教学演示和课程制作的教育从业者
应用场景
- 电子商务:产品介绍视频中的虚拟主播
- 在线直播:虚拟主播和互动娱乐
- 社交媒体:个性化视频内容制作
- 视频内容创作:影视制作中的角色动画
- 在线教育:教学视频中的虚拟讲师
- 企业培训:培训材料中的动画角色
技术优势与特色
创新技术特点
- 多模态融合:结合图像、音频和文本多种模态信息
- 高保真生成:实现高质量的人物动画效果
- 情感控制:精确的面部情感表达控制
- 多角色支持:同时处理多个角色的动画生成
- 灵活部署:支持多种硬件配置和部署方式
性能优化
- 并行推理:支持多GPU并行加速
- 内存优化:提供低显存运行模式
- 推理加速:集成DeepCache等加速技术
- 精度优化:支持FP8精度以节省显存
常见问题
技术问题
- 浮点异常:在特定GPU类型上可能遇到浮点异常,提供了CUDA版本和依赖包的解决方案
- 显存不足:提供了CPU卸载和低精度推理等多种显存优化方案
- 环境配置:详细的CUDA版本兼容性说明和Docker镜像支持
使用限制
- 硬件要求:需要NVIDIA GPU和CUDA支持
- 操作系统:主要在Linux系统上测试
- 显存需求:最低24GB显存要求可能限制部分用户使用
根据链接提供的信息,HunyuanVideo-Avatar代表了音频驱动人物动画生成领域的重要技术突破,通过开源方式为研究社区和产业应用提供了强大的技术基础。
应用信息
分类
开发者
腾讯(Tencent)
收录时间
2025-05-29
暂无评论
快来发表第一条评论吧!