老铁们,这波操作直接让隔壁OpenAI和马斯克的Grok-3都坐不住了!

谷歌这次是真·放大招了!憋了快两年,终于掏出了号称“史上最智能”的AI模型——Gemini 2.5 Pro。这玩意儿一发布,直接屠榜各大AI测试平台,甚至把人类专家设计的“地狱级”考题都给干趴了!今天咱们就来扒一扒,这模型到底有多能打?


一、推理能力逆天,连人类专家都懵了

如果说以前的AI是“做题家”,那Gemini 2.5 Pro就是“逻辑怪”。它最炸裂的表现,是在号称“人类终极考试”的Humanity’s Last Exam测试中,直接拿下了18.8%的准确率,比OpenAI的o3-mini高了近5%。

这测试有多难?几百个领域专家联手出题,题目涵盖科学、哲学、数学,甚至还有“如何用一艘单人船让两人同时过河”这种烧脑题。结果Gemini 2.5 Pro愣是没靠外挂工具,纯靠脑力通关!

更狠的是,它在GPQA、AIME 2025、MMLU等主流测试中全面碾压对手,连Chatbot Arena榜单上都以39分的断层优势登顶。有网友调侃:“谷歌这是把AI训练成‘灭霸’了吧?”


二、编程能力开挂,一句话生成游戏代码

你以为推理强就完了?程序员看了Gemini 2.5 Pro的代码能力,分分钟想转行

实测中,用户只要丢一句提示词,比如“做个像素风恐龙跑酷游戏,用p5.js别用HTML”,它就能秒出完整代码,连测试页面都给你打包好。更夸张的是,在行业标准编程测试SWE-Bench Verified中,它直接刷出63.8%的高分,虽然略逊于Claude 3.7 Sonnet,但成本却低得多。

打工人狂喜! 以后写代码、搞数据可视化的脏活累活,怕是要被AI承包了……


三、多模态+超长记忆,AI界的“六边形战士”

Gemini 2.5 Pro还有个杀手锏——原生多模态。它能同时处理文本、音频、图像、视频,甚至整个代码库!比如你丢给它一份TB级数据集,它不仅能解析,还能跨模态推理出关联性。

更绝的是,它的“记忆力”强到离谱!支持100万token的上下文窗口(相当于一本《三体》的长度),还能升级到200万token。这意味着,它能在超长对话中保持逻辑连贯,甚至帮你分析整部小说的剧情脉络。


四、免费开放!谷歌这次玩真的?

最让网友直呼“真香”的是,Gemini 2.5 Pro居然免费了! 原本只有每月花145元的高级用户能体验,现在普通用户也能在官网和App里白嫖。

不过,谷歌也留了一手:想要高频调用或商用?得等未来几周的Vertex AI平台上线,价格估计不便宜(API输入每百万token 1.25刀,输出10刀)。但至少,普通玩家终于能零门槛感受“最强大脑”了!


五、AI行业变天,谷歌要翻身当老大?

Gemini 2.5 Pro的发布,直接把AI竞赛拉到了新高度。推理+编程+多模态的三板斧,让谷歌在OpenAI、Meta、DeepSeek的围剿中杀出一条血路。

不过,也有业内人士泼冷水:“模型虽强,但落地场景还没完全跑通”。比如在智能体编程测试中,它依然打不过Claude 3.7 Sonnet。但无论如何,这次谷歌算是打了个漂亮的翻身仗!


最后说句大实话: 与其看参数吹牛,不如亲自去试试!Gemini官网已经开放体验,搞不好你让它写个“996员工摸鱼指南”,它都能给你整出花来……(手动狗头)

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐