HunyuanVideo-Avatar

HunyuanVideo-Avatar简介

HunyuanVideo-Avatar是腾讯公司于2025年5月28日发布的音频驱动人物动画生成模型。该模型基于多模态扩散变换器(MM-DiT)架构，专门解决音频驱动人物动画领域的三大关键挑战：(1)在保持角色一致性的同时生成高动态视频；(2)实现角色与音频之间的精确情感对齐；(3)支持多角色音频驱动动画。

该项目已在arXiv发表论文，并在GitHub和HuggingFace平台开源了推理代码和模型权重，为研究者和开发者提供了完整的技术实现方案。 20250529032514.968715463.png

主要功能

高动态情感可控视频生成

HunyuanVideo-Avatar支持将任意输入的头像图像动画化为高动态且情感可控的视频，仅需简单的音频条件输入。系统能够处理任意尺度和分辨率的多风格头像图像，包括写实、卡通、3D渲染和拟人化角色等多种风格。

多尺度生成能力

模型支持多尺度生成功能，涵盖肖像、上半身和全身三种不同的生成模式，能够生成具有高动态前景和背景的视频，实现卓越的真实感和自然度。

音频情感控制

系统支持基于输入音频控制角色的面部情感表达，通过音频情感模块(AEM)提取和传递情感参考图像中的情感线索到目标生成视频中，实现细粒度和准确的情感风格控制。

多角色动画支持

通过面部感知音频适配器(FAA)，模型能够在潜在级别使用面部掩码隔离音频驱动的角色，通过交叉注意力机制实现多角色场景下的独立音频注入。

如何使用HunyuanVideo-Avatar

环境要求和安装

硬件要求：需要支持CUDA的NVIDIA GPU
- 最低配置：24GB显存（用于720p×1280p×129帧生成，但速度较慢）
- 推荐配置：80GB显存GPU以获得更好的生成质量
- 测试操作系统：Linux
环境安装：

bash


# 克隆仓库
git clone https://github.com/Tencent/HunyuanVideo-Avatar.git
cd HunyuanVideo-Avatar

# 创建conda环境
conda create -n HunyuanVideo-Avatar python==3.10.9
conda activate HunyuanVideo-Avatar

# 安装PyTorch（CUDA 12.4版本）
conda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 pytorch-cuda=12.4 -c pytorch -c nvidia

# 安装依赖
python -m pip install -r requirements.txt

# 安装flash attention v2加速
python -m pip install ninja
python -m pip install git+https://github.com/Dao-AILab/flash-attention.git@v2.6.3

推理使用方式

多GPU并行推理（以8GPU为例）：

bash


cd HunyuanVideo-Avatar
export PYTHONPATH=./
export MODEL_BASE="./weights"
checkpoint_path=${MODEL_BASE}/ckpts/hunyuan-video-t2v-720p/transformers/mp_rank_00_model_states.pt

torchrun --nnodes=1 --nproc_per_node=8 --master_port 29605 hymm_sp/sample_batch.py \
  --input 'assets/test.csv' \
  --ckpt ${checkpoint_path} \
  --sample-n-frames 129 \
  --seed 128 \
  --image-size 704 \
  --cfg-scale 7.5 \
  --infer-steps 50 \
  --use-deepcache 1 \
  --flow-shift-eval-video 5.0 \
  --save-path ${OUTPUT_BASEPATH}

单GPU推理：

bash


export DISABLE_SP=1
CUDA_VISIBLE_DEVICES=0 python3 hymm_sp/sample_gpu_poor.py \
  --input 'assets/test.csv' \
  --ckpt ${checkpoint_path} \
  --sample-n-frames 129 \
  --seed 128 \
  --image-size 704 \
  --cfg-scale 7.5 \
  --infer-steps 50 \
  --use-deepcache 1 \
  --flow-shift-eval-video 5.0 \
  --save-path ${OUTPUT_BASEPATH} \
  --use-fp8 \
  --infer-min

极低显存运行：

bash


export CPU_OFFLOAD=1
CUDA_VISIBLE_DEVICES=0 python3 hymm_sp/sample_gpu_poor.py \
  --cpu-offload \
  --use-fp8 \
  [其他参数同上]

Gradio服务器部署：

bash


bash ./scripts/run_gradio.sh

开源许可：项目在GitHub上公开发布，包含完整的源代码和模型权重
免费使用：推理代码和预训练模型权重免费提供下载
商业使用：信息不详，需查看具体的LICENSE文件了解商业使用条款
技术支持：通过GitHub Issues和HuggingFace社区提供技术支持

适用场景和人群

目标用户群体

AI研究者：从事音频驱动动画、多模态生成等相关研究的学者
视频内容创作者：需要快速生成人物动画视频的内容制作者
企业开发者：开发相关商业应用的技术团队
教育工作者：用于教学演示和课程制作的教育从业者

应用场景

电子商务：产品介绍视频中的虚拟主播
在线直播：虚拟主播和互动娱乐
社交媒体：个性化视频内容制作
视频内容创作：影视制作中的角色动画
在线教育：教学视频中的虚拟讲师
企业培训：培训材料中的动画角色

技术优势与特色

创新技术特点

多模态融合：结合图像、音频和文本多种模态信息
高保真生成：实现高质量的人物动画效果
情感控制：精确的面部情感表达控制
多角色支持：同时处理多个角色的动画生成
灵活部署：支持多种硬件配置和部署方式

性能优化

并行推理：支持多GPU并行加速
内存优化：提供低显存运行模式
推理加速：集成DeepCache等加速技术
精度优化：支持FP8精度以节省显存

常见问题

技术问题

浮点异常：在特定GPU类型上可能遇到浮点异常，提供了CUDA版本和依赖包的解决方案
显存不足：提供了CPU卸载和低精度推理等多种显存优化方案
环境配置：详细的CUDA版本兼容性说明和Docker镜像支持

使用限制

硬件要求：需要NVIDIA GPU和CUDA支持
操作系统：主要在Linux系统上测试
显存需求：最低24GB显存要求可能限制部分用户使用

根据链接提供的信息，HunyuanVideo-Avatar代表了音频驱动人物动画生成领域的重要技术突破，通过开源方式为研究社区和产业应用提供了强大的技术基础。

HunyuanVideo-Avatar

应用简介

主要特性

详细信息