这是一个很有价值的问题,首先要明确一点:目前的AI工具(截至2025年5月)通常不能直接“一键生成”完整可播放的3D动态分镜视频(那种完全精确控制角色走位、肢体动作、摄像机轨迹的商业级动态预演)。
AI已经可以生成“可动”的、近似动态分镜的视频,并且极大缩短了传统动态分镜的制作周期,这套流程的核心思路是:用AI生成关键帧,再用AI(或传统工具)将它们串联成动态序列。
以下是目前业界主流的 “短剧AI动态分镜”制作流程(分为5个步骤):
第一阶段:剧本解析与镜头草稿(传统+AI辅助)
这一步的目标是明确“要拍什么”,生成文字描述和基础构图。
- 剧本拆解:将剧本按场景、镜头、对白拆成Excel或表格。
- AI补全镜头描述:
- 使用 ChatGPT / Claude 等LLM,输入类似提示词:
“请将以下短剧剧本片段,分解成10个分镜头,每个镜头包含:镜头景别(特写/中景)、摄像机角度(俯拍/平视)、人物动作、场景氛围,参考电影《繁花》的色调。”
- 输出:一份结构化的镜头指令表。
- 使用 ChatGPT / Claude 等LLM,输入类似提示词:
第二阶段:核心静态分镜生成(AI绘画)
这一步的核心是生成“关键帧”图片,作为动态分镜的“演员”和“背景”。
- 确定主角一致性:
- 使用 Midjourney / Stable Diffusion / DALL-E 3。
- 关键技巧:使用 Seed固定 或 LoRA模型,先跑一张主角的正脸图,获得图片Seed,后续所有该角色的镜头都引用这个Seed,保证“脸不跑偏”。
- 逐镜头生成:
- 提示词公式:
[角色描述(带Seed)] + [动作] + [场景] + [景别] + [构图] + [氛围/色调]。 - 例如:
男主角(Seed:12345)在雨中奔跑,回头张望,中景,动态模糊,电影感,冷色调,王家卫风格。
- 提示词公式:
- 素材整理:将生成的JPG/PNG按照“剧集编号_场号_镜号”格式化命名。
第三阶段:从静态到“动态化”(关键环节)
这是回答你问题“是否生成动态分镜”的核心,目前有两种主流方案:
方案A:AI视频生成工具(生成局部动态)
适用于预算低、周期短、对动作要求不高的短剧。
- 工具:Runway Gen-3、Pika、可灵(Kling)、即梦(Jimeng)。
- 操作:将第二阶段的静态分镜图作为输入,附加简短的动作提示词(Prompt)。
- 输入图:男主角站立的静态分镜图。
- 提示词:
主角向前走动,风吹衣摆,头发微动。 - 输出:一段2-4秒的短视频。
- 优点:成品看起来是动态的(有微风、眨眼、呼吸、小幅度走两步)。
- 缺点:无法精确控制“他在第1秒向左转,第2秒拔枪”,AI会自由发挥,动作幅度越大越容易变形。
方案B:AI辅助 + 3D软件(生成精确动态分镜 / 预演)
适用于对镜头节奏、走位、动作逻辑有严格要求的专业短剧。
- 工具:Blender + MetaHuman(或CSM AI)、Cascadeur(AI物理动画)。
- 操作流程:
- AI生成3D资产:使用CSM AI或Tripo生成角色3D模型,或使用MetaHuman创建的写实数字人。
- AI驱动动作:使用Motion Diffusion模型(如MoConDi)输入文本
角色生气地甩门走出去,自动生成一段骨骼动画。 - 手动微调与摄影:在Blender里,把AI生成的动作放到时间线上,手动调整摄像机位置和路径,实现推、拉、摇、移。
- 优点:这是真正的动态分镜,每一帧都是可计算的,镜头角度可控。
- 缺点:需要掌握基本3D软件操作,流程比方案A长。
第四阶段:剪辑与声音合成(动态粗剪)
将生成好的视频片段(无论是方案A的2秒短片,还是方案B的3D动画)导入剪辑软件。
- 时间线组装:使用 Premiere Pro / DaVinci Resolve / 剪映。
- AI声音加速:
- 使用 ElevenLabs 或 Fish Audio 克隆角色声音,快速生成对白草稿。
- 使用 AIVA 或 Suno 生成情绪背景音乐(BGM)。
- 节奏卡点:根据声音轨道的节奏,精确修剪AI生成的视频片段的长短,形成“剪辑节奏板”。
第五阶段:渲染与呈现(最终交付)
- 输出格式:MP4(作为动态分镜预览)。
- 增加提示:在画面上叠加文字气泡、箭头、摄像机运动指示线(AI自动生成或手绘),方便导演和摄影理解。
- 发给导演/甲方:得到的是一份可播放、有配音、有音乐、角色能动的动态分镜视频。
目前的AI能生成“动态分镜”吗?
| 类型 | 能否生成动态? | 控制精度 | 代表工具体系 | 适合场景 |
|---|---|---|---|---|
| AI视频生成流 | 能(表面动态) | 低 (角色可能卡头、穿模) | Midjourney → Runway/可灵 → 剪映 | 快节奏、低成本的竖屏短剧、创意演示 |
| 3D动作生成流 | 能(精确动态) | 高 (走位、视线、道具) | ChatTTS → Blender + Cascadeur → 剪辑 | 精品短剧、电影级预演、需要物理交互的场景 |
答案是:能,但形式分两种。 如果你想要“一秒生成电影级运镜连续剧”,目前AI还做不到(会频繁出现鬼畜和变形),如果你能接受“现在主流AI工具可以生成带微动作的序列帧,并用AI串联成动态预演”,这套流程已经非常成熟且在生产中被广泛使用。
建议起点:先尝试 剧本(ChatGPT)→ 角色设定(Midjourney固定Seed)→ 动态化(可灵AI输入图片+动作词)→ 配音(ElevenLabs)→ 剪映成片,这是成本最低、见效最快的动态分镜AI工作流。

