Google AI 发了一份 Gemini Omni 视频提示词指南：真正重要的不是写长，而是会导演

Google AI 在 X 上发布了一篇 Gemini Omni 视频提示词指南。这篇文章很短，但信号很明确：视频生成的提示词，正在从“把画面描述得更细”，转向“像导演一样控制知识、文字、镜头和编辑”。Gemini Omni 是 Google 上周介绍的新模型，目标是“从任意输入创造任意内容”，首先从视频开始。

Zero Lu

368人浏览 · 2026-05-27 17:25:45

Zero Lu · 2026-05-27 17:25:45 发布

Gemini Omni 视频提示词指南封面

Google AI 发了一份 Gemini Omni 视频提示词指南：真正重要的不是写长，而是会导演

Google AI 在 X 上发布了一篇 Gemini Omni 视频提示词指南。

这篇文章很短，但信号很明确：视频生成的提示词，正在从“把画面描述得更细”，转向“像导演一样控制知识、文字、镜头和编辑”。

Gemini Omni 是 Google 上周介绍的新模型，目标是“从任意输入创造任意内容”，首先从视频开始。Google AI 表示，Gemini Omni Flash 已经可以在 Gemini App、Flow by Google、Google Flow Music，以及 YouTube Shorts 和 Create 中体验。

这份指南给了 5 个方向。下面是我整理后的中文版本。

1. 不要过度解释世界，直接调用现实知识

Google AI 的第一个建议是：不要把世界背景解释得过碎。

Gemini Omni 继承了 Gemini 对历史、科学、文化的理解，所以提示词可以直接使用文化符号、历史时期、科学术语和现实场景，而不是把每个细节都拆开写。

比如下面这种提示词：

视频展示字母表中的物品。每个字母都对应一个不常见的物品，物品放在桌子上。比如 C 是水豚，D 是迪斯科球，L 是熔岩灯。26 个字母必须全部出现，每次只出现一个物品和一个对应的字幕条。字幕条像黑色马克笔写在纸条上，放在画面左下角。快速切换，大约每个物品 9 帧，24FPS。最后一帧是一张写着 “THE END” 的纸条。整段视频配平静、顺滑的音乐。

这个提示词看起来长，但真正关键的不是“多写”，而是把约束写清楚：26 个字母、每次一个物品、字幕风格、帧数节奏、结尾画面和音乐情绪。

Gemini Omni 现实知识示例

同一类写法也可以更短：

宇航员在火星上的第一人称视角。

一颗弹珠在连锁反应轨道上快速滚动，连续、顺滑的镜头。

2. 把文字当成画面的一部分，而不是后期贴片

第二个重点是文字渲染。

Google AI 强调，Gemini Omni 不只是能在视频里生成文字，还能把文字自然地融入画面：字体、位置、动画、节奏，甚至双重曝光这类复杂视觉效果，都可以直接写进提示词。

示例提示词：

逐词显示，每次屏幕上只出现一个词：did, you, know, that, this, model, can, do, pretty, good, text!? 每个词都用不同的动画风格出现，节奏要精准，像一支快节奏展示短片。

这个例子说明一件事：视频提示词里的“文字”不再只是内容信息，它本身就是运动设计。

Gemini Omni 文字渲染示例

另一个更适合内容创作者的方向，是让文字跟随物理环境：

在真实环境中叠加运动跟踪的极简文字评论。这些文字代表主体的即时内心独白，语气冷静、略荒诞、带一点人生思考，类似“冒出来的念头”。文字使用干净的白色小写无衬线字体，比如 Helvetica 或 Inter。文字悬浮在 3D 空间里，并用极细的白色引导线连接到被评论的对象。

如果你想做短视频包装、产品演示、人物内心 OS，这类提示词比单纯写“加字幕”有效得多。

3. 像摄影师一样写镜头语言

第三个建议非常实用：把提示词写成镜头指导。

Google AI 提到，Gemini Omni 对明确的摄影术语、机位、运动方式和画面风格响应很好。

可以直接使用这些词：

镜头与角度：one continuous shot、oner、static、locked off、fixed angle
镜头运动：push in、punch in、pan left、dolly zoom
摄影风格：natural smartphone zoom、vintage film camera、grainy webcam style

中文写提示词时，也可以保留这些英文摄影术语。很多模型对专业英文术语的理解更稳定。

真正的变化在这里：你不是在告诉模型“画面里有什么”，而是在告诉模型“摄像机怎么拍”。

4. 用迭代编辑，而不是每次重写

第四个建议，是我认为最接近真实视频工作流的一点。

Google AI 说，好的视频是在编辑里做出来的。使用 Gemini Omni 时，不需要为了修一个错误重写整段提示词。你可以只提出局部修改，比如换背景、换字幕、换镜头角度，同时保留视频的核心结构。

示例：

把小提琴转移到一个新环境中。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

让小提琴变成隐形。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

改变镜头角度，让它从小提琴手肩膀后方看过去。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个能力的价值，不只是“能改”。更重要的是，模型能尽量保留原视频的结构、人物、动作和视觉连续性。

这意味着视频生成正在接近一个更可控的流程：先生成，再局部修，再保留有效部分继续改。

5. 直接改动作、节奏和情绪

最后一个建议，是在不中断角色连续性的情况下，修改主体动作。

你可以直接要求：

让角色踮脚走路。

加快节奏。

让角色跳到空中。

这类提示词看似简单，但背后考验的是模型对角色一致性、动作连续性和场景关系的保持能力。

如果一个模型能稳定做到这一点，视频生成就不只是“一次性抽卡”，而是能进入可反复调整的创作流程。

这份指南真正想说什么

这篇文章表面上是在讲 5 个提示词技巧。

但更大的变化是：视频提示词正在变成一种“导演语言”。

以前我们写提示词，重点是描述画面：

画面里有什么、是什么风格、光线怎样、角色穿什么。

现在更重要的是控制过程：

镜头怎么运动，文字怎么出现，动作怎么变化，哪一部分要保留，哪一部分要修改。

这也是 Gemini Omni 这类视频模型最值得关注的地方。它不是只在追求单帧好看，而是在把生成、编辑、镜头控制和文字渲染放进同一个工作流里。

可以怎么试

如果你想自己测试，可以从 Google AI 这篇指南里的提示词开始，不要急着写复杂大段。

更稳的做法是：

先写清楚场景和主体。
再加入镜头术语。
然后加入节奏、字幕、动作变化。
生成后只改一个局部，不要整段推翻。

原文提到的提示词指南入口在这里：

https://deepmind.google/models/gemini-omni/prompt-guide/

原始 X 文章：

https://x.com/GoogleAI/status/2059381218660270435

如果只记住一句话，就是：

视频提示词不是越长越好，而是越像导演指令越好。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

cover

深度拆解 Headroom：AI Agent 的「上下文压缩层」，Token 暴降 60-95% 的背后原理

AI Agent技术社区

cover

ChatGPT生成excel表格，AI导出鸭帮工程师终结格式乱码噩梦

AI Agent技术社区

cover

《从0到1带你Obsidian接入DeepSeek》

AI Agent技术社区

所有评论(0)

查看更多评论

Zero Lu

@weixin_46478996

已为社区贡献2条内容