工具介绍
阿里巴巴通义实验室于2024年9月推出通义万相视频生成系统,是全球首个支持原生音画同步的视频大模型。通过2025年Wan2.5到Wan2.6的迭代升级,已实现从基础视频生成到电影级创作的跨越。
核心采用原生多模态架构和3D因果VAE技术,支持对参考视频中的角色外观、音色及情绪进行联合建模,实现画面到声音的全感官一致性迁移。独创的智能分镜引擎可将简单文字自动拆解为多镜头脚本。
面向专业影视制作团队和普通创作者,提供零门槛的视频生成能力,使个人用户也能在影视级画面中担任主角,满足企业营销、短剧制作等专业场景需求。
核心功能
角色扮演
参考输入视频中角色外观和音色,实现单人或多人合拍视频生成,支持任意物体作为主角进行表演
智能分镜
自动解析提示词生成多镜头脚本,实现特写、中景、全景的丝滑切换并保持核心要素一致性
音画同步
单一生成管道同步处理视觉与声学特征,精准匹配人物口型与情感表达
多镜头叙事
生成包含入场、互动、离场的完整15秒剧情,自动构建具备故事张力的多镜头段落
多模态输入
支持文本/图像/音频任意组合输入,理解镜头语言指示和复杂语义描述
电影级生成
输出1080P/24fps高清视频,支持16:9等多种比例,光影细节达到专业影视标准
界面截图
通义万相视频
适用场景
1
影视分镜设计
为专业剧组提供分镜预演,输入剧本片段自动生成多角度预览视频
广告创意制作
输入产品图及广告文案,自动生成包含角色互动和产品展示的营销视频
个人电影创作
用户上传自拍视频,结合提示词生成自己担任主角的科幻/悬疑等类型短片
教育内容生成
将教材图文转化为动态教学视频,支持知识点演示与教师角色配音
优缺点分析
👍 优点
- 突破性实现角色扮演功能,万物皆可成为视频主角,降低表演门槛
- 15秒完整叙事视频时长国内领先,告别碎片化动作生成
- 多镜头切换保持主体一致性,实现专业级运镜效果
- 音画同步精确到微妙级别,情感表达自然真实
- 全模态输入支持组合创作,大幅提升提示词自由度
👎 缺点
- 高质量生成需详细描述提示词,普通用户需学习描述技巧
- 生成1080P长视频等待时间较长,实时预览体验待优化
- 复杂场景偶现元素缺失,如多人互动时次要角色动作偏差
- 特定音频驱动场景下存在音画不同步现象
常见问题
生成高质量视频需要怎样的提示词?
需包含场景光线、角色细节、镜头语言三要素。例如:’暖色调侧光,30岁戴眼镜的男性身穿灰色衬衫作波浪舞动作,中景平拍镜头配合鼓点节奏’
最长可生成多少秒的视频?
当前Wan2.6版本支持最长15秒视频,包含3-5个镜头切换,完整展现剧情起承转合
是否支持商业用途?
企业用户可通过阿里云百炼调用API,生成内容可用于广告营销等商业场景,具体授权需查看平台协议
生成视频包含哪些声音元素?
支持人声台词、环境音效、背景音乐三重声音生成,根据提示词自动匹配声场环境
