点击上方 前端Q,关注公众号

回复加群,加入前端Q技术交流群

昨天(2026 年 5 月 19 日)Google I/O 2026 把整个 AI 圈炸了一遍。

发布会两个多小时,重磅消息一个接一个。但真正让做 AI 产品的人坐直了身子的,是这一条:

Google 发布 Gemini 3.5 Flash,号称"最强编码和 Agent 模型"。

我看到关键词那一刻第一反应是:"Flash?开玩笑吧。"

要知道 Flash 在 Gemini 体系里一直是"小模型 / 快模型"的代名词——便宜、快、好用,但能力上不可能跟旗舰 Pro 系列比。

结果这次 Google 直接把 Flash 推到了"最强"的位置。

更夸张的是这两个数字:

比其他前沿模型快 4 倍(output tokens per second)

价格不到对手的一半

我去 Google 官方博客(blog.google)反复核对了好几遍,原话就是这么写的:

"It's our strongest agentic and coding model yet, outperforming Gemini 3.1 Pro on challenging coding and agentic benchmarks."

>

"It is 4 times faster than other frontier models."

>

"Often at less than half the cost of other frontier models."

这不是中文媒体二手转述,是 Google DeepMind CTO Koray Kavukcuoglu 和首席科学家 Jeff Dean 联合署名的官方博客。

这一篇我帮你把全套真实信息梳理清楚:3.5 Flash 到底强在哪、benchmark 数字怎么解读、Antigravity 这个新平台是什么、对比 Claude 4.7 和 GPT-5.5 怎么选、对你今天就能用的 AI 工具影响有多大

Gemini 3.5 Flash 发布全景

先把"最强"这两个字拆开看

很多人看见"最强"第一反应是怀疑——你的"最强"是哪个维度?

我把官方公布的 4 个核心 benchmark 数字摆出来,一个一个解释你就懂了:

Benchmark 测什么 3.5 Flash 得分 含义
Terminal-Bench 2.1 终端命令完成多步骤任务 76.2% Coding 实战能力
GDPval-AA 真实有经济价值的工作场景 1656 Elo 通用 Agent 能力
MCP Atlas MCP 协议下的工具调用准确度 83.6% 工具调度可靠度
CharXiv Reasoning 复杂学术图表理解 84.2% 多模态推理

每一个都是当前业界用来比 Agent 模型实力的硬指标。

▎关键对比点:3.5 Flash 比 3.1 Pro 还强

Google 官方原文最具杀伤力的一句话其实是这个:

"outperforming Gemini 3.1 Pro on challenging coding and agentic benchmarks."

Flash 这个"小模型档位",居然在硬指标上反超了一代前的 Pro 旗舰

这是个值得反复品的现象。它意味着——

▸模型"规模决定能力"的传统认知已经被打破

小而精的模型可以在特定任务上超越上代大模型

▸这一波的能力跃升不全靠堆参数,而是训练方法 + 数据 + post-training 的复合提升

如果你做产品时一直纠结"是不是必须用旗舰 Pro 模型才行"——这次发布给你一个明确答案:未必

▎对比一下 Claude 4.7 和 GPT-5.5

我把今年三家顶级旗舰的硬指标整理成一张对比表,全部用官方公布数据:

Benchmark Claude Opus 4.7 GPT-5.5(OpenAI) Gemini 3.5 Flash
发布时间 2026-04-16 2026-04-23 2026-05-19(最新)
Terminal-Bench 2.0 / 2.1 69.4% (2.0) - 76.2% (2.1)
SWE-bench Pro 64.3% - -
速度(vs 前沿模型) 基线 同速
输入价($/MTok) $5 中等 $0.30(公开 API 价位区间,更低)
输出价($/MTok) $25 中等 $2.50(公开 API 价位区间,更低)
注:Flash 系列的具体 API 价格细节,请以 Google AI Studio 实时计价为准;此处取的是 Gemini 3.5 Flash 在 Google 官方文档披露的公开档位区间。

三个一比,Flash 在"价格 + 速度 + 编码能力"这个三角上确实做出了行业最优的平衡

但要注意一个潜台词——官方刻意拿"3.1 Pro"做对比,而没拿 3.5 Pro。原因是 3.5 Pro 还没发,下个月(6 月)才会推出。意味着:

真正的"最强 Pro"还在路上。3.5 Flash 已经这么强,可以想象 3.5 Pro 的水平。

Antigravity:这才是真正的重头戏

很多媒体报道 Google I/O 只盯着模型本身,但我读完官方博客最大的感受是:真正改变规则的是 Antigravity 这个新平台

Antigravity 是 Google 这次发布的"agent-first development platform"。

翻译成开发者能听懂的话——它就是 Google 版的 Cursor / Claude Code / Codex

Antigravity vs Cursor vs Claude Code vs Codex

▎Antigravity 跟 3.5 Flash 是怎么配合的

官方原话:

"When coupled with the updated Antigravity harness, 3.5 Flash becomes a powerful engine for deploying collaborative subagents to tackle problems at scale."

注意几个关键词:

harness:跟 Anthropic 4 月 8 日 Managed Agents、OpenAI 4 月 15 日 Agents SDK 用的是同一个词

collaborative subagents:多 Agent 协同

at scale:生产级、规模化

这意味着——Google 不再只卖模型,而是卖"模型 + Agent harness + 开发环境"三件套

跟 Anthropic / OpenAI 的玩法路径几乎一模一样。三家头部 AI 公司这一波都在收敛到同一个范式:模型 + harness + 工具 + 沙箱

▎Antigravity 能做的 5 类典型任务

Google 官方给的演示场景:

  1. 多步骤工作流自动化:3.5 Flash 在 Antigravity 里自动重命名 + 分类非结构化资产
  2. 论文 → 可玩游戏:6 小时内综合 AlphaZero 论文 + 写出完整可玩游戏代码
  3. 遗留代码迁移:把杂乱旧代码库改写成 Next.js
  4. 3D 场景生成:用 subagents 创建城市景观
  5. 自我改进游戏开发:builder + player 两个 agent 互相磨合

这些演示的共同点:长任务、多步骤、自主运行、可观测——典型的现代 Agent 工程范式。

如果你是已经在用 Cursor 或 Claude Code 的开发者,值得花一小时去 Antigravity 试试,看看 3.5 Flash 在 agentic coding 上的真实体感跟 Claude 4.7 / GPT-5.5 比起来如何。

谁已经在用它:Google 拉出来的客户名单

这次发布会附带的客户案例非常有诚意——不是泛泛的"X 用了我们家产品",而是具体场景 + 具体收益

3.5 Flash 客户应用全景
客户 用 3.5 Flash 干什么 价值点
Shopify 跑 subagents 并行分析数据,做商家增长预测 长任务并行
Macquarie Bank 推理 100+ 页文档,加速客户 onboarding 长上下文 + 低延迟
Salesforce Agentforce 集成 3.5 Flash,多 subagent 自动化企业任务 多步骤工具调用
Ramp 复杂发票 OCR + 历史模式推理 多模态 + 推理
Xero 自主管理多周工作流,包括 1099 税表 跨周长任务
Databricks 实时监控 + 海量数据集诊断 数据 Agent

这份名单的含义不是"看,大家都用 Google 了",而是——

3.5 Flash 已经被验证可以跑生产级的长任务、多 Agent、企业级工作流,不只是 demo 玩具

特别是 Salesforce Agentforce 集成这条——Salesforce 之前主要绑 Anthropic 的 Claude。这次官方提到接入 3.5 Flash,意味着头部 SaaS 公司开始"模型多元化",不再只押一家。

对中小 AI 创业公司是个明确信号:别只用一家模型,建立模型抽象层、按场景选最优解,是接下来的标配做法

9 亿用户的"默认模型"换了

还有一个细节藏在公告中部,但意义巨大:

"3.5 Flash is now the default model for the Gemini app and AI Mode in Search globally."

Gemini app 和 Google Search 的 AI Mode 全球用户的默认模型,今天换成了 3.5 Flash

Google 上一周公布的数字是:Gemini app 月活已经超过 9 亿,覆盖 230 个国家。

也就是说——9 亿+ 人,今天起每天问"Hey Gemini"得到的答案,都是 3.5 Flash 给的

这是个非常重要的"分发护城河"。OpenAI 有 ChatGPT 月活 8 亿+,Anthropic 的 Claude 用户量小得多。当 Google 把"最强 Agent 模型"直接塞进每个 Android 手机的 Gemini 入口和每次 Google 搜索,普通用户感知到的 AI 能力会出现明显跃升

副作用是:Google 短时间内会拿到全球最大体量的"Agent 真实使用数据",对模型下一步迭代是个不公平的优势。

配套产品:Gemini Spark

再附带说一个相关产品——Gemini Spark

这是 Google 这次发布的"个人 AI Agent"。原话:

"Your personal AI agent, runs 24/7, helping you navigate your digital life, taking action on your behalf while under your direction."

24/7 跑、跨 app 协作、能替你执行动作。这是 Anthropic 在 Claude Code 那边推的 routines / auto mode 的 Google 版本。

发布节奏:

今天:trusted testers 内测

下周:开放给 Google AI Ultra 订阅者(美国先行)

不出意外这套东西的底层全是 3.5 Flash 在跑。等于说——

Google 把"最强模型"和"24/7 Agent"打包,对标 ChatGPT Plus + GPT-5.5 的组合

价格上,AI Ultra 大概率会比 ChatGPT Plus 贵一些(之前披露的版本是 $19.99-29.99/月区间),但能力是显著拉开档次的产品。

对你我开发者的 5 个可操作建议

最实在的部分。我直接给判断。

▎1. 立刻去 Antigravity 试一下,做对照测试

如果你今天在用 Cursor / Claude Code / Codex,强烈建议花 1-2 小时跑一遍 Antigravity

测试场景建议三个:

▸一个多步骤的小项目(如改造一段遗留代码)

▸一个长任务(如读一份 PDF 然后输出结构化报告)

▸一个多 Agent 协作(如 builder + reviewer 模式)

如果 Antigravity + 3.5 Flash 在你的真实场景下能力跟 Claude 4.7 / GPT-5.5 持平,价格优势 + 速度优势 + 9 亿用户分发就是压倒性的胜出

▎2. 把"模型抽象层"提上日程

如果你的产品现在还是硬编码绑一家模型(写死了 anthropic.messages.create 或 openai.chat.completions)——

赶紧抽一层 model adapter 出来

参考 Vercel AI SDK 那种模式:把 Provider 抽象成可切换的实例,业务层只关心"我要一个 chat completion",不关心底层是 Claude 还是 Gemini 还是 GPT。

理由:未来 1 年模型市场会频繁出现"某家在某场景下短期超越"的情况。Salesforce 这次就是典型案例——它的 Agentforce 同时接 Claude 和 Gemini。

▎3. 别再低估"小模型"

Flash 反超 Pro 这个事件,给所有 AI 产品的人一个明确信号:默认"小模型省钱、大模型保质量"的二分法已经过时了

接下来要分场景做选型:

▸简单分类、抽取、改写 → 小模型完全够用,省 10 倍成本

▸中等复杂度的 Agent / 工具调用 → 3.5 Flash 这个档位(强且快且便宜)

▸真正复杂的推理、长上下文 → 旗舰大模型(如 3.5 Pro 6 月上线后、Claude Opus 4.7、GPT-5.5)

按场景配模型组合,是接下来 AI 应用工程的常态。

▎4. Token 成本结构会被重算

Gemini 3.5 Flash 把"高质量 + 低价"的均衡推到了新位置

如果你的产品成本里"模型调用 > 50%",值得用 3.5 Flash 重新测一次。我预估很多场景成本能砍掉 40-60%。

Token 经济学这本账,每个 AI 产品都该每季度算一次。

▎5. Gemini 配套产品的国内可用性要早点判断

3.5 Flash 本身在国内是用不到的(Google AI Studio 不对中国大陆开放)。但有几个间接路径要关注:

Vertex AI:部分企业能合规接入

OpenRouter 类聚合层:能间接用到(但合规和稳定性需要自己评估)

国内云厂商的镜像或合作版本:暂未公布

如果你做的是面向中国用户的 AI 产品,3.5 Flash 的发布短期内对你影响不大,重心还是放在 Qwen / GLM / DeepSeek / Claude(通过合规渠道)/ 国内开放的 GPT 系列上。

但作为技术趋势的"风向标",3.5 Flash 反超 3.1 Pro 这件事会反向影响国内模型团队——它们会跟进类似的"小模型反超"策略,国产模型在未来 3-6 个月也会出现类似的能力跃升。

我的理解

Gemini 3.5 Flash 这次发布,我看完最深的感受不是"Google 又出了个新模型",而是 AI 行业的竞争维度在快速升级

过去比的是:谁的旗舰更强

去年加上:谁的小模型更便宜

到这次明确变成了:谁能在"质量 + 速度 + 价格 + 分发"这个四角同时占优

这个新维度对应一个很现实的现象:单纯的模型能力之争,正在变成"产品组合 + 生态"之争

证据就是这次 Google 把三件事捆在一起发布:

  1. 模型(3.5 Flash)
  2. 开发平台(Antigravity)
  3. 消费级 Agent(Gemini Spark)

OpenAI 和 Anthropic 在过去半年也在做同样的事:

▸OpenAI:GPT-5.5 + Agents SDK + ChatGPT super app + Codex

▸Anthropic:Claude Opus 4.7 + Managed Agents + Claude Code + Claude Design

三家头部 AI 公司的产品矩阵,正在收敛到同一个范式

这对开发者意味着两件事:

一是好事:选哪家都能搭出能用的 stack,技术能力会持续提升,整体成本会持续下降。

二是挑战:模型不再是产品的"独门优势"。光靠"我接了最新模型"已经不够卖点,真正的差异化要往上一层走——业务理解、行业 know-how、工作流设计、用户体验。

如果你做 AI 产品现在还停留在"我们用了 GPT-5.5"这种叙事——这个论点很快就会失效,因为下个月 Gemini 3.5 Pro 来了,再过几个月 Claude 5 也会来。

真正能立住的产品,核心竞争力必须是模型之上的东西

▸你比别人更懂行业的业务流程

▸你比别人更会设计 multi-agent 工作流

▸你比别人更善于把 AI 嵌进真实场景

模型每个月都在变强、变快、变便宜。作为开发者,要把心思花在"什么不会变"的东西上

最后说一句最实操的:今晚就去 Antigravity 注册个账号,跑一个你自己项目的真实场景测试。一小时下来你对接下来 3 个月的工具选型,会有非常清晰的判断。

次条我接着写一篇硬核技术——Agent 为什么跑着跑着就死循环了。无论你用 Gemini、Claude 还是 GPT,做 Agent 都绕不开"循环失控"这个坑。这是 Harness Engineering 系列里我之前漏发的一篇主线(第 11 篇),今天补回来。

一起翻下去。

参考链接

▸Google 官方发布博客:https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/

▸Google I/O 2026 主题演讲:https://blog.google/innovation-and-ai/sundar-pichai-io-2026/

▸Antigravity 平台:https://antigravity.google/(agent-first dev platform)

▸Gemini API(Google AI Studio):https://ai.google.dev/

▸Gemini 3.5 Flash 在 Gemini Enterprise:https://cloud.google.com/products/gemini

▸Artificial Analysis 智能榜单(3.5 Flash 居 top-right quadrant):https://artificialanalysis.ai/

往期推荐

Multi-Agent Teams:让多个专家 Agent 像团队一样协作

AI Agent 是怎么"想一步做一步"的?拆解 ReAct 模式

从零开始:用 LangChain.js 构建你的第一个 Tool-Calling Agent

最后

点个在看支持我吧

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐