收藏!小白程序员必看:大模型Embedding选型攻略(附10大模型实测对比)
本文针对初学者在使用RAG(检索增强生成)时,在OpenAI text-embedding-3-small后如何选择更合适的embedding模型提供了指导。文章分析了不同文件形态和内容类型对模型选型的影响,并介绍了embedding模型在单模态优化和多模态融合两个方向的发展趋势。作者设计了一套专项测试,对比了10个热门embedding模型在跨模态检索、跨语言检索、关键信息检索和MRL维度压缩四个维度的表现。测试结果显示,没有一个模型能在所有任务上同时拿第一,每个模型各有优劣。文章最后提供了选型建议,强调根据自身业务场景和数据特点进行测试验证的重要性,并建议建立评估能力比选对某一个模型更有价值。

1、参赛模型
我们一共选了 10 个模型,覆盖 API 服务和开源本地部署两种形态,也加上了 OpenAI text-embedding-3-large、CLIP ViT-L-14 这些经典模型作为对照。先看看都有谁:

简单介绍一下各家:
Gemini Embedding 2 是 Google 2026 年 3 月发布的首个全模态 embedding 模型,五种模态都支持。

Jina Embeddings v4 基于 Qwen2.5-VL-3B 构建,3.8B 参数。通过三个 LoRA 适配器(retrieval.query / retrieval.passage / text-matching)切换不同检索场景。支持文本、图像和 PDF。

Jina CLIP v2 是 Jina AI 基于 CLIP 架构的现代版本,专注文本-图像跨模态对齐,支持多语言。
Voyage Multimodal 3.5 来自 Voyage AI 团队,2025 年 2 月被 MongoDB 以 2.2 亿美元收购。文本、图像、视频都支持。

Qwen3-VL-Embedding 是阿里 Qwen 团队的开源多模态 embedding 系列,有 2B 和 8B 两个版本。我们选了 2B 版本测试,因为它刚好能跑在一张 11GB 的消费级 GPU 上,更能体现轻量部署的可行性。

Cohere Embed v4 和 OpenAI****3-large 都是纯文本模型,MTEB 细分榜单上的常客,RAG 场景用得最多。

BGE-M3 是智源研究院(BAAI)的开源多语言 embedding 模型,568M 参数,支持 100+ 语言,中文开源 embedding 领域的标杆。

mxbai-embed-large 和 nomic-embed-text 分别来自德国 Mixedbread AI 和美国 Nomic AI,都是轻量级开源模型。mxbai 335M 参数,英文 MRL 表现突出。nomic 只有 137M 参数,是这次测试中最小的模型。


2、现有 Benchmark 的局限性与我们的思路
模型选好了,接下来要定测试项目。我们先看了一下现有的 benchmark,发现不太够用。
MTEB(Massive Text Embedding Benchmark)是目前最权威的 embedding 评测体系,但有几个维度没有覆盖:
- 纯文本:不涉及图片、视频等多模态输入
- 同语言检索:虽然有多语言子集(如 MIRACL),但测的是同语言内检索,没有「中文 query 检索英文文档」这种跨语言项目
- 不测维度压缩:不评估 MRL 裁剪后的质量衰减
- 长文档覆盖有限:虽然有 LongEmbed 子集,但主流评测仍以千 token 级别的短文本为主,缺少万字级文档的系统测试
MMEB(Massive Multimodal Embedding Benchmark)补上了多模态,但也有不足:
- 不含 hard negative:干扰项和正确答案差异太大,容易拿高分但区分不出模型之间的细微差别
- 不测跨语言、不测 MRL、不测长文档
这些缺项恰好对应当下开发者在建 RAG / Agent / 向量检索系统时最常遇到的实际问题。所以我们设计了四个评测任务:跨模态检索、跨语言检索、大海捞针、MRL 维度压缩。
因此,针对以上四个问题,我们设计了四个测评维度:
维度一:跨模态检索(文本 ↔ 图像)
场景:电商以图搜图、图文混合知识库检索、多媒体内容理解。
任务设计:从 COCO val2017 中取 200 对图文。文本是 GPT-4o-mini 生成的详细描述,每张图还配了 3 条 hard negative——和正确描述只差一两个细节的干扰项。模型需要在 200 张图 + 600 条干扰描述的混合池中完成图文双向检索。
下面是数据集中的一个实际样例:

正确描述
:“The image features vintage brown leather suitcases with various travel stickers including ‘California’, ‘Cuba’, and ‘New York’, placed on a metal luggage rack against a clear blue sky.”(图中是复古的棕色皮革旅行箱,上面贴着「California」、「Cuba」、「New York」等旅行贴纸,放在金属行李架上,背景是晴朗的蓝天。)干扰项(仅改动关键词):模型必须真正「理解」图片中的细节,才能区分这些 hard negative。
计分方式:
- 所有图片和文本(200 正确 + 600 干扰)生成 embedding
- 文本找图 (t2i):每条描述在 200 张图中找最像的,第一名对了就得分
- 图找文本 (i2t):每张图在 800 条文本中找最像的,第一名是正确描述(不是干扰项)才得分
- 最终分
hard_avg_R@1= (t2i 得分率 + i2t 得分率) / 2
结果
这个结果我们自己也没想到。

Qwen3-VL-2B 以 hard_avg_R@1 = 0.945 位居第一,超过了 Gemini(0.928)和 Voyage(0.900)。一个 2B 参数的开源模型跑赢了闭源 API。
为什么?看一个指标就明白了:模态间隙(Modality Gap)。
什么是模态间隙?
Embedding 模型会把文本和图片都映射到同一个向量空间。但实际中,文本向量和图片向量往往「聚居」在不同区域。模态间隙衡量的就是这两个聚居区之间的距离(文本向量均值和图片向量均值的 L2 距离)。间隙越小,跨模态检索越容易做准。


Qwen3-VL-2B 的模态间隙只有 0.25,远低于 Gemini 的 0.73。在 Milvus 中建图文混合 collection 的话,模态间隙小意味着文本和图片向量可以直接混在同一个索引里,不用额外处理。
跨模态测试的结论比较清楚:多模态能力上,开源小模型已经能和闭源 API 掰手腕了。
维度二:跨语言检索(中文 ↔ 英文)
场景:中英文混合知识库,用户中文提问但答案在英文文档里,或反过来。
任务设计:166 对手工构建的中英平行句子,分三个难度级别。每个语言另加 152 条 hard negative 干扰。

计分方式:
- 所有中文(166 + 152 干扰)和英文(166 + 152 干扰)文本生成 embedding
- 中→英:每条中文在 318 条英文中找到正确翻译
- 英→中:反过来
hard_avg_R@1= (中→英得分率 + 英→中得分率) / 2
结果

这一回合 Gemini 表现最好,0.997 接近满分,包括「画蛇添足」这种成语难度也答对了。在 Hard 分组中,Gemini 是唯一保持 R@1 = 1.000 的模型。

这个任务把模型分成了泾渭分明的两拨:前 8 个(hard_avg_R@1 > 0.93)有多语言能力,nomic 和 mxbai(R@1 < 0.16)基本只认英文。中间没有过渡地带。
维度三:关键信息检索
场景:RAG 系统处理长篇法律合同、研究论文。Embedding 模型在几万字的文本中还能抓到关键信息吗?
任务设计:Wikipedia 文章作为「大海」(4K-32K 字符),在不同位置(开头 / 25% / 50% / 75% / 结尾)插入一条虚构的事实信息作为大海里的那个「针」。看模型能否通过 query 的 embedding 在含针文档和不含针文档之间做出正确判断。
样例针
:“The Meridian Corporation reported quarterly revenue of $847.3 million in Q3 2025.”(Meridian 公司 2025 年第三季度营收 8.473 亿美元。)查询:“What was Meridian Corporation’s quarterly revenue?”(Meridian 公司的季度营收是多少?)大海:一篇 32000 字符的 Wikipedia 文章(比如关于光合作用的),中间某个位置藏着那条营收信息。
计分方式:
- 生成 query、含针文档、不含针文档的 embedding
- 如果 query 和含针文档的相似度更高,判定为「找到了」
- 在所有长度和位置上取平均准确率
最终指标:overall_accuracy,degradation_rate(从最短到最长文档的准确率衰减)。
结果
这个任务的区分度比预期大不少。直接看热力图,绿色满分,黄色开始退化,红色严重退化,灰色是超出模型能力没跑的:

完整成绩:

「—」表示该长度超出模型上下文窗口限制或未测试。
大致分三档。Gemini、OpenAI、Jina v4、Cohere 在各自上下文范围内几乎满分。BGE-M3(568M)到 8K 开始轻微退化(0.92)。335M 以下的 mxbai、nomic 则在 4K 就开始明显下降,8K 准确率只有 0.40-0.44。
Gemini 是唯一跑完 4K-32K 全程且满分的。另一边,335M 以下的模型在 4K 字符(大概 1000 tokens)就掉到了 0.46-0.60——如果你的 RAG 系统文档平均超过 2000 字,用这些模型需要留意。
维度四:MRL 维度压缩
什么是 MRL?
MRL(Matryoshka Representation Learning,俄罗斯套娃表示学习)是一种训练技巧,让 embedding 向量的前 N 维本身就构成一个有意义的低维表示。举个例子,一个 3072 维的向量,你只取前 256 维,仍然能保持不错的语义质量。维度减半,存储成本也减半。

任务设计:使用 STS-B(Semantic Textual Similarity Benchmark)的 150 对句子,每对都有人工标注的语义相似度评分(0-5 分)。模型对这些句子生成 embedding,先用全维度,再截断到 256 / 512 / 1024 维,看在每个维度下与人工评分的排序一致性。

计分方式:
- 每个维度下,计算每对句子 embedding 的余弦相似度
- 将模型给出的相似度排序与人工评分排序做 Spearman 秩相关,得到 ρ 值
什么是 Spearman ρ?
Spearman 秩相关系数衡量两个排序的一致性。人工觉得 A 对最相似、B 对次之、C 对最不像,模型的 embedding 相似度排序也是 A > B > C,那 ρ 就接近 1.0。ρ = 1.0 是完全一致,ρ = 0 是毫无关联。
关键指标:Spearman ρ(越高越好),min_viable_dim(质量衰减不超过 5% 的最小维度)。
结果
如果你打算在向量数据库中通过截断维度来降低存储成本,这个结果很关键。


这一回合 Gemini 排在最后。mxbai-embed-large 只有 335M 参数,MRL 排第三,超过了 OpenAI 3-large。Jina v4 和 Voyage 之所以在 MRL 上突出,也是因为训练时专门优化过 MRL 目标函数。维度压缩能力跟模型大小关系不大,训练的时候有没有专门练过才是决定因素。
注意
:MRL 排名反映的是维度压缩后的语义保持能力,跟全维度下的语义理解质量是两回事。Gemini 全维度下的检索能力很强(跨语言和跨模态已经证明了),但在这个瘦身测试中成绩偏低。如果不需要维度压缩,这个项目的参考价值有限。
四个维度测完下来,每个模型的长处和短板都比较清楚了。把所有成绩放到一张表里看看全貌:
总成绩一览

「—」表示模型不支持该能力或未测试。CLIP 作为 2021 年的基线对照。
可以发现:没有一个模型能在所有任务上同时拿第一。Gemini 跨语言和长文档最强但 MRL 垫底,Qwen3-VL-2B 跨模态第一但 MRL 中游,Voyage 各项都不错但没有一项第一。每个模型的成绩单形状都不一样。
3、总结与选型建议
跨模态:Qwen3-VL-2B(0.945)拿了第一,Gemini(0.928)第二,Voyage(0.900)第三。开源 2B 模型胜过闭源 API,模态间隙是关键差异。
跨语言:Gemini(0.997)遥遥领先,成语级别的中英对齐也能满分。前 8 个模型都在 0.93 以上,英文专精的轻量模型则直接归零。
大海捞针:API 和大型开源模型在 8K 以内基本满分,335M 以下模型 4K 就开始退化。Gemini 是唯一跑完 32K 全程满分的。
MRL 维度压缩:Voyage(0.880)和 Jina v4(0.833)领先,裁到 256 维衰减不到 1%。Gemini(0.668)垫底。
而在综合维度上,Gemini Embedding 2 的确可以算得上是最新的embedding模型之王。
强项:跨语言第一(0.997),大海捞针第一(1.000),跨模态第二(0.928),模态覆盖最广(五种模态,其他模型最多三种)。
弱项:MRL 维度压缩排名靠后(ρ=0.668),跨模态被开源的 Qwen3-VL-2B 超越。
如果不需要维度压缩,Gemini 在跨语言 + 长文档的组合场景上目前没有对手。但跨模态精度和维度压缩上,专精型模型做得更好。
基于以上测试结果,决策流程供参考如下:

写在最后
四个回合跑下来,感触还挺多的。
几年前跨语言语义对齐还是论文里的研究方向,现在调个 API 就能用。五年前图文检索得专门训 CLIP,现在一个通用模型能同时处理文本、图片、视频、音频和 PDF。这个领域的变化速度,比大多数人感知到的要快。
另一个让我印象深刻的是开源的追赶速度。Qwen3-VL-2B 只有 2B 参数,跨模态精度却超过了所有闭源 API。BGE-M3 跨语言能力也不输多数商业服务。在 embedding 这条赛道上,数据质量和训练策略越来越重要,模型规模和算力投入的权重在下降。不用担心被绑死在哪家 API 上,开源这边总能找到替代方案。
最后说回选型这件事。今天这篇文章的结论,放到一年后大概率得改。与其花时间纠结到底选哪个模型,不如把评测流程搭好——清楚自己的业务场景和数据长什么样,用自己的数据搭一套能快速验证新模型的测试流程,新东西出来的时候跑一轮就知道行不行。公开的 benchmark 也值得参考,比如 MTEB、MMTEB、MMEB,但最终还是要回到自己的场景里验证。本文的评测代码也开源在 GitHub,有需要可以参考。(链接都在下方参考资料里)长远来看,建立这样的评估能力比选对某一个模型更有价值。
最后说一下这次测试的不足。有一些模型没来得及测,比如 NVIDIA 的 NV-Embed-v2、Jina v5-text。另外,视频、音频、PDF/表格这些模态虽然部分模型声称支持,但我们这次没有覆盖,代码检索之类的垂直领域也没涉及。样本量级别较小,个别模型之间的排名差异可能在统计误差范围内。更多的测试有待后续跟进。
最后
对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?
答案只有一个:人工智能(尤其是大模型方向)
当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应聘者,月基础工资也能稳定在4万元左右。
再看阿里、腾讯两大互联网大厂,非“人才计划”的AI相关岗位应聘者,月基础工资也约有3万元,远超其他行业同资历岗位的薪资水平,对于程序员、小白来说,无疑是绝佳的转型和提升赛道。

对于想入局大模型、抢占未来10年行业红利的程序员和小白来说,现在正是最好的学习时机:行业缺口大、大厂需求旺、薪资天花板高,只要找准学习方向,稳步提升技能,就能轻松摆脱“低薪困境”,抓住AI时代的职业机遇。
如果你还不知道从何开始,我自己整理一套全网最全最细的大模型零基础教程,我也是一路自学走过来的,很清楚小白前期学习的痛楚,你要是没有方向还没有好的资源,根本学不到东西!
下面是我整理的大模型学习资源,希望能帮到你。

👇👇扫码免费领取全部内容👇👇

最后
1、大模型学习路线

2、从0到进阶大模型学习视频教程
从入门到进阶这里都有,跟着老师学习事半功倍。

3、 入门必看大模型学习书籍&文档.pdf(书面上的技术书籍确实太多了,这些是我精选出来的,还有很多不在图里)

4、 AI大模型最新行业报告
2026最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

5、面试试题/经验

【大厂 AI 岗位面经分享(107 道)】

【AI 大模型面试真题(102 道)】

【LLMs 面试真题(97 道)】

6、大模型项目实战&配套源码

适用人群

四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
-
硬件选型
-
带你了解全球大模型
-
使用国产大模型服务
-
搭建 OpenAI 代理
-
热身:基于阿里云 PAI 部署 Stable Diffusion
-
在本地计算机运行大模型
-
大模型的私有化部署
-
基于 vLLM 部署大模型
-
案例:如何优雅地在阿里云私有部署开源大模型
-
部署一套开源 LLM 项目
-
内容安全
-
互联网信息服务算法备案
-
…
👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐
所有评论(0)