Google AI 发了一份 Gemini Omni 视频提示词指南:真正重要的不是写长,而是会导演
Google AI 在 X 上发布了一篇 Gemini Omni 视频提示词指南。这篇文章很短,但信号很明确:视频生成的提示词,正在从“把画面描述得更细”,转向“像导演一样控制知识、文字、镜头和编辑”。Gemini Omni 是 Google 上周介绍的新模型,目标是“从任意输入创造任意内容”,首先从视频开始。

Google AI 发了一份 Gemini Omni 视频提示词指南:真正重要的不是写长,而是会导演
Google AI 在 X 上发布了一篇 Gemini Omni 视频提示词指南。
这篇文章很短,但信号很明确:视频生成的提示词,正在从“把画面描述得更细”,转向“像导演一样控制知识、文字、镜头和编辑”。
Gemini Omni 是 Google 上周介绍的新模型,目标是“从任意输入创造任意内容”,首先从视频开始。Google AI 表示,Gemini Omni Flash 已经可以在 Gemini App、Flow by Google、Google Flow Music,以及 YouTube Shorts 和 Create 中体验。
这份指南给了 5 个方向。下面是我整理后的中文版本。
1. 不要过度解释世界,直接调用现实知识
Google AI 的第一个建议是:不要把世界背景解释得过碎。
Gemini Omni 继承了 Gemini 对历史、科学、文化的理解,所以提示词可以直接使用文化符号、历史时期、科学术语和现实场景,而不是把每个细节都拆开写。
比如下面这种提示词:
视频展示字母表中的物品。每个字母都对应一个不常见的物品,物品放在桌子上。比如 C 是水豚,D 是迪斯科球,L 是熔岩灯。26 个字母必须全部出现,每次只出现一个物品和一个对应的字幕条。字幕条像黑色马克笔写在纸条上,放在画面左下角。快速切换,大约每个物品 9 帧,24FPS。最后一帧是一张写着 “THE END” 的纸条。整段视频配平静、顺滑的音乐。
这个提示词看起来长,但真正关键的不是“多写”,而是把约束写清楚:26 个字母、每次一个物品、字幕风格、帧数节奏、结尾画面和音乐情绪。

同一类写法也可以更短:
宇航员在火星上的第一人称视角。
一颗弹珠在连锁反应轨道上快速滚动,连续、顺滑的镜头。
2. 把文字当成画面的一部分,而不是后期贴片
第二个重点是文字渲染。
Google AI 强调,Gemini Omni 不只是能在视频里生成文字,还能把文字自然地融入画面:字体、位置、动画、节奏,甚至双重曝光这类复杂视觉效果,都可以直接写进提示词。
示例提示词:
逐词显示,每次屏幕上只出现一个词:did, you, know, that, this, model, can, do, pretty, good, text!? 每个词都用不同的动画风格出现,节奏要精准,像一支快节奏展示短片。
这个例子说明一件事:视频提示词里的“文字”不再只是内容信息,它本身就是运动设计。

另一个更适合内容创作者的方向,是让文字跟随物理环境:
在真实环境中叠加运动跟踪的极简文字评论。这些文字代表主体的即时内心独白,语气冷静、略荒诞、带一点人生思考,类似“冒出来的念头”。文字使用干净的白色小写无衬线字体,比如 Helvetica 或 Inter。文字悬浮在 3D 空间里,并用极细的白色引导线连接到被评论的对象。
如果你想做短视频包装、产品演示、人物内心 OS,这类提示词比单纯写“加字幕”有效得多。
3. 像摄影师一样写镜头语言
第三个建议非常实用:把提示词写成镜头指导。
Google AI 提到,Gemini Omni 对明确的摄影术语、机位、运动方式和画面风格响应很好。
可以直接使用这些词:
- 镜头与角度:one continuous shot、oner、static、locked off、fixed angle
- 镜头运动:push in、punch in、pan left、dolly zoom
- 摄影风格:natural smartphone zoom、vintage film camera、grainy webcam style
中文写提示词时,也可以保留这些英文摄影术语。很多模型对专业英文术语的理解更稳定。
真正的变化在这里:你不是在告诉模型“画面里有什么”,而是在告诉模型“摄像机怎么拍”。
4. 用迭代编辑,而不是每次重写
第四个建议,是我认为最接近真实视频工作流的一点。
Google AI 说,好的视频是在编辑里做出来的。使用 Gemini Omni 时,不需要为了修一个错误重写整段提示词。你可以只提出局部修改,比如换背景、换字幕、换镜头角度,同时保留视频的核心结构。
示例:
把小提琴转移到一个新环境中。

让小提琴变成隐形。

改变镜头角度,让它从小提琴手肩膀后方看过去。

这个能力的价值,不只是“能改”。更重要的是,模型能尽量保留原视频的结构、人物、动作和视觉连续性。
这意味着视频生成正在接近一个更可控的流程:先生成,再局部修,再保留有效部分继续改。
5. 直接改动作、节奏和情绪
最后一个建议,是在不中断角色连续性的情况下,修改主体动作。
你可以直接要求:
让角色踮脚走路。
加快节奏。
让角色跳到空中。
这类提示词看似简单,但背后考验的是模型对角色一致性、动作连续性和场景关系的保持能力。
如果一个模型能稳定做到这一点,视频生成就不只是“一次性抽卡”,而是能进入可反复调整的创作流程。
这份指南真正想说什么
这篇文章表面上是在讲 5 个提示词技巧。
但更大的变化是:视频提示词正在变成一种“导演语言”。
以前我们写提示词,重点是描述画面:
画面里有什么、是什么风格、光线怎样、角色穿什么。
现在更重要的是控制过程:
镜头怎么运动,文字怎么出现,动作怎么变化,哪一部分要保留,哪一部分要修改。
这也是 Gemini Omni 这类视频模型最值得关注的地方。它不是只在追求单帧好看,而是在把生成、编辑、镜头控制和文字渲染放进同一个工作流里。
可以怎么试
如果你想自己测试,可以从 Google AI 这篇指南里的提示词开始,不要急着写复杂大段。
更稳的做法是:
- 先写清楚场景和主体。
- 再加入镜头术语。
- 然后加入节奏、字幕、动作变化。
- 生成后只改一个局部,不要整段推翻。
原文提到的提示词指南入口在这里:
https://deepmind.google/models/gemini-omni/prompt-guide/
原始 X 文章:
https://x.com/GoogleAI/status/2059381218660270435
如果只记住一句话,就是:
视频提示词不是越长越好,而是越像导演指令越好。
更多推荐



所有评论(0)