2026 年 2 月,阿里通义实验室开源了 Wan2.1 系列视频生成模型,包括 T2V(文生视频)和 I2V(图生视频)两个方向。这一发布在 AI 视频生成社区引起了不小的震动——不是因为它是"阿里出品",而是因为它在评测指标上全面超越了当时最火的闭源模型。本文基于实际部署经验,完整记录从环境搭建到推理出片的全流程。
Wan2.1 是阿里通义实验室推出的开源视频生成基座模型,包含多个参数规模版本:
它的核心能力覆盖了文本到视频的完整链路:自然语言生成、画面构图、运动连续性、物理规则模拟。在 VBench 等主流视频生成评测基准上,Wan2.1-T2V-14B 的得分超越了 Sora 和 Gen-3 等知名闭源模型,成为开源视频模型的标杆。
💡 技术亮点:Wan2.1 采用了自研的 3D VAE 和因果注意力机制,使得视频帧之间的连续性大幅提升。同时支持多种分辨率(480P / 720P / 1080P),可根据视频质量需求灵活切换。
我们分别在以下两种环境中完成了部署测试:
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
conda create -n wan2.1 python=3.10
conda activate wan2.1
pip install -r requirements.txt
模型权重托管在 Hugging Face 和 ModelScope 上。由于国内网络环境,推荐使用 ModelScope 镜像下载:
# 通过 ModelScope 下载
pip install modelscope
python -c "
from modelscope.hub.snapshot_download import snapshot_download
snapshot_download('Wan-AI/Wan2.1-T2V-14B', cache_dir='./models')
"
下载完成后,模型文件约 30GB。需要注意:14B 模型需要约 30GB VRAM 进行推理,RTX 4090 的 24GB 显存需要使用量化版本或启用显存优化策略(如 CPU offload)才能正常运行。
官方提供了简洁的推理脚本。文生视频的用法如下:
python inference.py --task t2v-14B \
--prompt "一只橘猫在窗台上晒太阳,阳光透过树叶洒在它身上,背景是动态的云层" \
--size 1280*720 \
--ckpt_dir ./models/Wan2.1-T2V-14B \
--save_dir ./output
对于 RTX 4090 用户,推荐开启以下优化参数以适配 24GB 显存:
# 启用 CPU offload 减少显存占用
python inference.py --task t2v-14B \
--prompt "..." \
--size 1280*720 \
--ckpt_dir ./models/Wan2.1-T2V-14B \
--offload \
--save_dir ./output
⚠️ 注意:如果用 RTX 4090 跑 14B 模型,720P 视频每个 step 约需要 1-2 秒,生成 50 个 step 的 5 秒视频大约耗时 90-120 秒。开启 offload 后速度会降约 20%,但显存占用从 30GB 降到 18GB 左右,可以在 4090 上稳定运行。
我们实际测试了 20+ 条不同风格提示词,覆盖写实、卡通、科幻、水墨画等风格,以下是观察到的表现:
在 VBench 评测中,Wan2.1-T2V-14B 取得了 84.6 的综合得分,在 "时序质量" 和 "画面一致性" 两个维度上分别领先第二名 2.1% 和 3.3%。作为开源模型,这个成绩相当出色。
基于我们的实测经验,针对不同场景推荐如下配置:
总结:Wan2.1 是当前开源视频生成领域的顶级选择。它用 14B 的参数量实现了超越闭源模型的效果,并且完全开源可商用。对于拥有 RTX 4090 或云 GPU 资源的团队来说,部署 Wan2.1 是当下进入 AI 视频生成领域性价比最高的方案之一。从安装到生成第一条视频,熟练操作后可以在 30 分钟内完成。下一次,我们将分享如何将 Wan2.1 接入 ComfyUI 工作流,实现 AI 视频的自动化生产流水线。