Gemini 3.5 Flash 来了：4 倍快、价格减半，号称最强编码模型

点击上方前端Q，关注公众号回复加群，加入前端Q技术交流群昨天（2026 年 5 月 19 日）Google I/O 2026 把整个 AI 圈炸了一遍。发布会两个多小时，重磅消息一个接一个。我看到关键词那一刻第一反应是："Flash？开玩笑吧。要知道 Flash 在 Gemini 体系里一直是的代名词——便宜、快、好用，但能力上不可能跟旗舰 Pro 系列比。结果这次 Google 直接把 Flas

winty~~

541人浏览 · 2026-05-22 11:53:21

winty~~ · 2026-05-22 11:53:21 发布

点击上方前端Q，关注公众号

回复加群，加入前端Q技术交流群

昨天（2026 年 5 月 19 日）Google I/O 2026 把整个 AI 圈炸了一遍。

发布会两个多小时，重磅消息一个接一个。但真正让做 AI 产品的人坐直了身子的，是这一条：

Google 发布 Gemini 3.5 Flash，号称"最强编码和 Agent 模型"。

我看到关键词那一刻第一反应是："Flash？开玩笑吧。"

要知道 Flash 在 Gemini 体系里一直是"小模型 / 快模型"的代名词——便宜、快、好用，但能力上不可能跟旗舰 Pro 系列比。

结果这次 Google 直接把 Flash 推到了"最强"的位置。

更夸张的是这两个数字：

▸比其他前沿模型快 4 倍（output tokens per second）

▸价格不到对手的一半

我去 Google 官方博客（blog.google）反复核对了好几遍，原话就是这么写的：

"It's our strongest agentic and coding model yet, outperforming Gemini 3.1 Pro on challenging coding and agentic benchmarks."

"It is 4 times faster than other frontier models."

"Often at less than half the cost of other frontier models."

这不是中文媒体二手转述，是 Google DeepMind CTO Koray Kavukcuoglu 和首席科学家 Jeff Dean 联合署名的官方博客。

这一篇我帮你把全套真实信息梳理清楚：3.5 Flash 到底强在哪、benchmark 数字怎么解读、Antigravity 这个新平台是什么、对比 Claude 4.7 和 GPT-5.5 怎么选、对你今天就能用的 AI 工具影响有多大。

先把"最强"这两个字拆开看

很多人看见"最强"第一反应是怀疑——你的"最强"是哪个维度？

我把官方公布的 4 个核心 benchmark 数字摆出来，一个一个解释你就懂了：

Benchmark	测什么	3.5 Flash 得分	含义
Terminal-Bench 2.1	终端命令完成多步骤任务	76.2%	Coding 实战能力
GDPval-AA	真实有经济价值的工作场景	1656 Elo	通用 Agent 能力
MCP Atlas	MCP 协议下的工具调用准确度	83.6%	工具调度可靠度
CharXiv Reasoning	复杂学术图表理解	84.2%	多模态推理

每一个都是当前业界用来比 Agent 模型实力的硬指标。

▎关键对比点：3.5 Flash 比 3.1 Pro 还强

Google 官方原文最具杀伤力的一句话其实是这个：

"outperforming Gemini 3.1 Pro on challenging coding and agentic benchmarks."

Flash 这个"小模型档位"，居然在硬指标上反超了一代前的 Pro 旗舰。

这是个值得反复品的现象。它意味着——

▸模型"规模决定能力"的传统认知已经被打破

▸小而精的模型可以在特定任务上超越上代大模型

▸这一波的能力跃升不全靠堆参数，而是训练方法 + 数据 + post-training 的复合提升

如果你做产品时一直纠结"是不是必须用旗舰 Pro 模型才行"——这次发布给你一个明确答案：未必。

▎对比一下 Claude 4.7 和 GPT-5.5

我把今年三家顶级旗舰的硬指标整理成一张对比表，全部用官方公布数据：

Benchmark	Claude Opus 4.7	GPT-5.5（OpenAI）	Gemini 3.5 Flash
发布时间	2026-04-16	2026-04-23	2026-05-19（最新）
Terminal-Bench 2.0 / 2.1	69.4% (2.0)	-	76.2% (2.1)
SWE-bench Pro	64.3%	-	-
速度（vs 前沿模型）	基线	同速	4×
输入价（$/MTok）	$5	中等	$0.30（公开 API 价位区间，更低）
输出价（$/MTok）	$25	中等	$2.50（公开 API 价位区间，更低）

注：Flash 系列的具体 API 价格细节，请以 Google AI Studio 实时计价为准；此处取的是 Gemini 3.5 Flash 在 Google 官方文档披露的公开档位区间。

三个一比，Flash 在"价格 + 速度 + 编码能力"这个三角上确实做出了行业最优的平衡。

但要注意一个潜台词——官方刻意拿"3.1 Pro"做对比，而没拿 3.5 Pro。原因是 3.5 Pro 还没发，下个月（6 月）才会推出。意味着：

真正的"最强 Pro"还在路上。3.5 Flash 已经这么强，可以想象 3.5 Pro 的水平。

Antigravity：这才是真正的重头戏

很多媒体报道 Google I/O 只盯着模型本身，但我读完官方博客最大的感受是：真正改变规则的是 Antigravity 这个新平台。

Antigravity 是 Google 这次发布的"agent-first development platform"。

翻译成开发者能听懂的话——它就是 Google 版的 Cursor / Claude Code / Codex。

Antigravity vs Cursor vs Claude Code vs Codex

▎Antigravity 跟 3.5 Flash 是怎么配合的

官方原话：

"When coupled with the updated Antigravity harness, 3.5 Flash becomes a powerful engine for deploying collaborative subagents to tackle problems at scale."

注意几个关键词：

▸harness：跟 Anthropic 4 月 8 日 Managed Agents、OpenAI 4 月 15 日 Agents SDK 用的是同一个词

▸collaborative subagents：多 Agent 协同

▸at scale：生产级、规模化

这意味着——Google 不再只卖模型，而是卖"模型 + Agent harness + 开发环境"三件套。

跟 Anthropic / OpenAI 的玩法路径几乎一模一样。三家头部 AI 公司这一波都在收敛到同一个范式：模型 + harness + 工具 + 沙箱。

▎Antigravity 能做的 5 类典型任务

Google 官方给的演示场景：

多步骤工作流自动化：3.5 Flash 在 Antigravity 里自动重命名 + 分类非结构化资产
论文 → 可玩游戏：6 小时内综合 AlphaZero 论文 + 写出完整可玩游戏代码
遗留代码迁移：把杂乱旧代码库改写成 Next.js
3D 场景生成：用 subagents 创建城市景观
自我改进游戏开发：builder + player 两个 agent 互相磨合

这些演示的共同点：长任务、多步骤、自主运行、可观测——典型的现代 Agent 工程范式。

如果你是已经在用 Cursor 或 Claude Code 的开发者，值得花一小时去 Antigravity 试试，看看 3.5 Flash 在 agentic coding 上的真实体感跟 Claude 4.7 / GPT-5.5 比起来如何。

谁已经在用它：Google 拉出来的客户名单

这次发布会附带的客户案例非常有诚意——不是泛泛的"X 用了我们家产品"，而是具体场景 + 具体收益：

客户	用 3.5 Flash 干什么	价值点
Shopify	跑 subagents 并行分析数据，做商家增长预测	长任务并行
Macquarie Bank	推理 100+ 页文档，加速客户 onboarding	长上下文 + 低延迟
Salesforce Agentforce	集成 3.5 Flash，多 subagent 自动化企业任务	多步骤工具调用
Ramp	复杂发票 OCR + 历史模式推理	多模态 + 推理
Xero	自主管理多周工作流，包括 1099 税表	跨周长任务
Databricks	实时监控 + 海量数据集诊断	数据 Agent

这份名单的含义不是"看，大家都用 Google 了"，而是——

3.5 Flash 已经被验证可以跑生产级的长任务、多 Agent、企业级工作流，不只是 demo 玩具。

特别是 Salesforce Agentforce 集成这条——Salesforce 之前主要绑 Anthropic 的 Claude。这次官方提到接入 3.5 Flash，意味着头部 SaaS 公司开始"模型多元化"，不再只押一家。

对中小 AI 创业公司是个明确信号：别只用一家模型，建立模型抽象层、按场景选最优解，是接下来的标配做法。

9 亿用户的"默认模型"换了

还有一个细节藏在公告中部，但意义巨大：

"3.5 Flash is now the default model for the Gemini app and AI Mode in Search globally."

Gemini app 和 Google Search 的 AI Mode 全球用户的默认模型，今天换成了 3.5 Flash。

Google 上一周公布的数字是：Gemini app 月活已经超过 9 亿，覆盖 230 个国家。

也就是说——9 亿+ 人，今天起每天问"Hey Gemini"得到的答案，都是 3.5 Flash 给的。

这是个非常重要的"分发护城河"。OpenAI 有 ChatGPT 月活 8 亿+，Anthropic 的 Claude 用户量小得多。当 Google 把"最强 Agent 模型"直接塞进每个 Android 手机的 Gemini 入口和每次 Google 搜索，普通用户感知到的 AI 能力会出现明显跃升。

副作用是：Google 短时间内会拿到全球最大体量的"Agent 真实使用数据"，对模型下一步迭代是个不公平的优势。

配套产品：Gemini Spark

再附带说一个相关产品——Gemini Spark。

这是 Google 这次发布的"个人 AI Agent"。原话：

"Your personal AI agent, runs 24/7, helping you navigate your digital life, taking action on your behalf while under your direction."

24/7 跑、跨 app 协作、能替你执行动作。这是 Anthropic 在 Claude Code 那边推的 routines / auto mode 的 Google 版本。

发布节奏：

▸今天：trusted testers 内测

▸下周：开放给 Google AI Ultra 订阅者（美国先行）

不出意外这套东西的底层全是 3.5 Flash 在跑。等于说——

Google 把"最强模型"和"24/7 Agent"打包，对标 ChatGPT Plus + GPT-5.5 的组合。

价格上，AI Ultra 大概率会比 ChatGPT Plus 贵一些（之前披露的版本是 $19.99-29.99/月区间），但能力是显著拉开档次的产品。

对你我开发者的 5 个可操作建议

最实在的部分。我直接给判断。

▎1. 立刻去 Antigravity 试一下，做对照测试

如果你今天在用 Cursor / Claude Code / Codex，强烈建议花 1-2 小时跑一遍 Antigravity。

测试场景建议三个：

▸一个多步骤的小项目（如改造一段遗留代码）

▸一个长任务（如读一份 PDF 然后输出结构化报告）

▸一个多 Agent 协作（如 builder + reviewer 模式）

如果 Antigravity + 3.5 Flash 在你的真实场景下能力跟 Claude 4.7 / GPT-5.5 持平，价格优势 + 速度优势 + 9 亿用户分发就是压倒性的胜出。

▎2. 把"模型抽象层"提上日程

如果你的产品现在还是硬编码绑一家模型（写死了 anthropic.messages.create 或 openai.chat.completions）——

赶紧抽一层 model adapter 出来。

参考 Vercel AI SDK 那种模式：把 Provider 抽象成可切换的实例，业务层只关心"我要一个 chat completion"，不关心底层是 Claude 还是 Gemini 还是 GPT。

理由：未来 1 年模型市场会频繁出现"某家在某场景下短期超越"的情况。Salesforce 这次就是典型案例——它的 Agentforce 同时接 Claude 和 Gemini。

▎3. 别再低估"小模型"

Flash 反超 Pro 这个事件，给所有 AI 产品的人一个明确信号：默认"小模型省钱、大模型保质量"的二分法已经过时了。

接下来要分场景做选型：

▸简单分类、抽取、改写 → 小模型完全够用，省 10 倍成本

▸中等复杂度的 Agent / 工具调用 → 3.5 Flash 这个档位（强且快且便宜）

▸真正复杂的推理、长上下文 → 旗舰大模型（如 3.5 Pro 6 月上线后、Claude Opus 4.7、GPT-5.5）

按场景配模型组合，是接下来 AI 应用工程的常态。

▎4. Token 成本结构会被重算

Gemini 3.5 Flash 把"高质量 + 低价"的均衡推到了新位置。

如果你的产品成本里"模型调用 > 50%"，值得用 3.5 Flash 重新测一次。我预估很多场景成本能砍掉 40-60%。

Token 经济学这本账，每个 AI 产品都该每季度算一次。

▎5. Gemini 配套产品的国内可用性要早点判断

3.5 Flash 本身在国内是用不到的（Google AI Studio 不对中国大陆开放）。但有几个间接路径要关注：

▸Vertex AI：部分企业能合规接入

▸OpenRouter 类聚合层：能间接用到（但合规和稳定性需要自己评估）

▸国内云厂商的镜像或合作版本：暂未公布

如果你做的是面向中国用户的 AI 产品，3.5 Flash 的发布短期内对你影响不大，重心还是放在 Qwen / GLM / DeepSeek / Claude（通过合规渠道）/ 国内开放的 GPT 系列上。

但作为技术趋势的"风向标"，3.5 Flash 反超 3.1 Pro 这件事会反向影响国内模型团队——它们会跟进类似的"小模型反超"策略，国产模型在未来 3-6 个月也会出现类似的能力跃升。

我的理解

Gemini 3.5 Flash 这次发布，我看完最深的感受不是"Google 又出了个新模型"，而是 AI 行业的竞争维度在快速升级。

过去比的是：谁的旗舰更强。

去年加上：谁的小模型更便宜。

到这次明确变成了：谁能在"质量 + 速度 + 价格 + 分发"这个四角同时占优。

这个新维度对应一个很现实的现象：单纯的模型能力之争，正在变成"产品组合 + 生态"之争。

证据就是这次 Google 把三件事捆在一起发布：

模型（3.5 Flash）
开发平台（Antigravity）
消费级 Agent（Gemini Spark）

OpenAI 和 Anthropic 在过去半年也在做同样的事：

▸OpenAI：GPT-5.5 + Agents SDK + ChatGPT super app + Codex

▸Anthropic：Claude Opus 4.7 + Managed Agents + Claude Code + Claude Design

三家头部 AI 公司的产品矩阵，正在收敛到同一个范式。

这对开发者意味着两件事：

一是好事：选哪家都能搭出能用的 stack，技术能力会持续提升，整体成本会持续下降。

二是挑战：模型不再是产品的"独门优势"。光靠"我接了最新模型"已经不够卖点，真正的差异化要往上一层走——业务理解、行业 know-how、工作流设计、用户体验。

如果你做 AI 产品现在还停留在"我们用了 GPT-5.5"这种叙事——这个论点很快就会失效，因为下个月 Gemini 3.5 Pro 来了，再过几个月 Claude 5 也会来。

真正能立住的产品，核心竞争力必须是模型之上的东西：

▸你比别人更懂行业的业务流程

▸你比别人更会设计 multi-agent 工作流

▸你比别人更善于把 AI 嵌进真实场景

模型每个月都在变强、变快、变便宜。作为开发者，要把心思花在"什么不会变"的东西上。

最后说一句最实操的：今晚就去 Antigravity 注册个账号，跑一个你自己项目的真实场景测试。一小时下来你对接下来 3 个月的工具选型，会有非常清晰的判断。

次条我接着写一篇硬核技术——Agent 为什么跑着跑着就死循环了。无论你用 Gemini、Claude 还是 GPT，做 Agent 都绕不开"循环失控"这个坑。这是 Harness Engineering 系列里我之前漏发的一篇主线（第 11 篇），今天补回来。

一起翻下去。

参考链接

▸Google 官方发布博客：https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/

▸Google I/O 2026 主题演讲：https://blog.google/innovation-and-ai/sundar-pichai-io-2026/

▸Antigravity 平台：https://antigravity.google/（agent-first dev platform）

▸Gemini API（Google AI Studio）：https://ai.google.dev/

▸Gemini 3.5 Flash 在 Gemini Enterprise：https://cloud.google.com/products/gemini

▸Artificial Analysis 智能榜单（3.5 Flash 居 top-right quadrant）：https://artificialanalysis.ai/

往期推荐

Multi-Agent Teams：让多个专家 Agent 像团队一样协作

AI Agent 是怎么"想一步做一步"的？拆解 ReAct 模式

从零开始：用 LangChain.js 构建你的第一个 Tool-Calling Agent

最后

点个在看支持我吧

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

Agent 工程中的模型缓存优化经验分享

AI Agent技术社区

CC-Switch不只是切换API：从GitHub更新日志看懂它的功能和底层原理

CC Switch：从配置切换器到AI编程统一管理平台摘要： CC Switch已从最初的Claude Code/Codex供应商切换工具，发展为功能全面的AI编程管理平台。它通过统一界面管理多个AI编程工具（Claude Code、Codex、Gemini CLI等）的配置，支持供应商切换、本地代理路由、跨工具能力同步等功能。核心演进包括：采用SSOT架构集中管理供应商数据、扩展支持6+工具、

AI Agent技术社区

告别手动写PoC！Gemini如何全方位赋能安全工程师自动化漏洞测试

在日常渗透测试、企业内网巡检中，经常会遇到未公开编号的自定义漏洞、小众组件漏洞，无现成PoC可参考。此时只需向Gemini输入漏洞核心特征，包括注入点位、请求路径、参数缺陷、权限漏洞、数据交互异常等关键信息，模型即可自主推导漏洞触发逻辑，针对性生成SQL注入、XSS跨站、文件上传、命令执行、路径遍历等各类自定义测试代码，满足个性化渗透测试需求。AI不会取代安全工程师，但熟练使用AI的安全工程师，将