收藏！小白程序员必看：大模型Embedding选型攻略（附10大模型实测对比）

m0_48891301

608人浏览 · 2026-03-24 10:35:14

m0_48891301 · 2026-03-24 10:35:14 发布

本文针对初学者在使用RAG（检索增强生成）时，在OpenAI text-embedding-3-small后如何选择更合适的embedding模型提供了指导。文章分析了不同文件形态和内容类型对模型选型的影响，并介绍了embedding模型在单模态优化和多模态融合两个方向的发展趋势。作者设计了一套专项测试，对比了10个热门embedding模型在跨模态检索、跨语言检索、关键信息检索和MRL维度压缩四个维度的表现。测试结果显示，没有一个模型能在所有任务上同时拿第一，每个模型各有优劣。文章最后提供了选型建议，强调根据自身业务场景和数据特点进行测试验证的重要性，并建议建立评估能力比选对某一个模型更有价值。

1、参赛模型

我们一共选了 10 个模型，覆盖 API 服务和开源本地部署两种形态，也加上了 OpenAI text-embedding-3-large、CLIP ViT-L-14 这些经典模型作为对照。先看看都有谁：

简单介绍一下各家：

Gemini Embedding 2 是 Google 2026 年 3 月发布的首个全模态 embedding 模型，五种模态都支持。

Jina Embeddings v4 基于 Qwen2.5-VL-3B 构建，3.8B 参数。通过三个 LoRA 适配器（retrieval.query / retrieval.passage / text-matching）切换不同检索场景。支持文本、图像和 PDF。

Jina CLIP v2 是 Jina AI 基于 CLIP 架构的现代版本，专注文本-图像跨模态对齐，支持多语言。

Voyage Multimodal 3.5 来自 Voyage AI 团队，2025 年 2 月被 MongoDB 以 2.2 亿美元收购。文本、图像、视频都支持。

Qwen3-VL-Embedding 是阿里 Qwen 团队的开源多模态 embedding 系列，有 2B 和 8B 两个版本。我们选了 2B 版本测试，因为它刚好能跑在一张 11GB 的消费级 GPU 上，更能体现轻量部署的可行性。

Cohere Embed v4 和 OpenAI****3-large 都是纯文本模型，MTEB 细分榜单上的常客，RAG 场景用得最多。

BGE-M3 是智源研究院（BAAI）的开源多语言 embedding 模型，568M 参数，支持 100+ 语言，中文开源 embedding 领域的标杆。

mxbai-embed-large 和 nomic-embed-text 分别来自德国 Mixedbread AI 和美国 Nomic AI，都是轻量级开源模型。mxbai 335M 参数，英文 MRL 表现突出。nomic 只有 137M 参数，是这次测试中最小的模型。

2、现有 Benchmark 的局限性与我们的思路

模型选好了，接下来要定测试项目。我们先看了一下现有的 benchmark，发现不太够用。

MTEB（Massive Text Embedding Benchmark）是目前最权威的 embedding 评测体系，但有几个维度没有覆盖：

纯文本：不涉及图片、视频等多模态输入
同语言检索：虽然有多语言子集（如 MIRACL），但测的是同语言内检索，没有「中文 query 检索英文文档」这种跨语言项目
不测维度压缩：不评估 MRL 裁剪后的质量衰减
长文档覆盖有限：虽然有 LongEmbed 子集，但主流评测仍以千 token 级别的短文本为主，缺少万字级文档的系统测试

MMEB（Massive Multimodal Embedding Benchmark）补上了多模态，但也有不足：

不含 hard negative：干扰项和正确答案差异太大，容易拿高分但区分不出模型之间的细微差别
不测跨语言、不测 MRL、不测长文档

这些缺项恰好对应当下开发者在建 RAG / Agent / 向量检索系统时最常遇到的实际问题。所以我们设计了四个评测任务：跨模态检索、跨语言检索、大海捞针、MRL 维度压缩。

因此，针对以上四个问题，我们设计了四个测评维度：

维度一：跨模态检索（文本 ↔ 图像）

场景：电商以图搜图、图文混合知识库检索、多媒体内容理解。

任务设计：从 COCO val2017 中取 200 对图文。文本是 GPT-4o-mini 生成的详细描述，每张图还配了 3 条 hard negative——和正确描述只差一两个细节的干扰项。模型需要在 200 张图 + 600 条干扰描述的混合池中完成图文双向检索。

下面是数据集中的一个实际样例：

正确描述

：“The image features vintage brown leather suitcases with various travel stickers including ‘California’, ‘Cuba’, and ‘New York’, placed on a metal luggage rack against a clear blue sky.”（图中是复古的棕色皮革旅行箱，上面贴着「California」、「Cuba」、「New York」等旅行贴纸，放在金属行李架上，背景是晴朗的蓝天。）干扰项（仅改动关键词）：模型必须真正「理解」图片中的细节，才能区分这些 hard negative。

计分方式：

所有图片和文本（200 正确 + 600 干扰）生成 embedding
文本找图 (t2i)：每条描述在 200 张图中找最像的，第一名对了就得分
图找文本 (i2t)：每张图在 800 条文本中找最像的，第一名是正确描述（不是干扰项）才得分
最终分 hard_avg_R@1 = (t2i 得分率 + i2t 得分率) / 2

结果

这个结果我们自己也没想到。

Qwen3-VL-2B 以 hard_avg_R@1 = 0.945 位居第一，超过了 Gemini（0.928）和 Voyage（0.900）。一个 2B 参数的开源模型跑赢了闭源 API。

为什么？看一个指标就明白了：模态间隙（Modality Gap）。

什么是模态间隙？

Embedding 模型会把文本和图片都映射到同一个向量空间。但实际中，文本向量和图片向量往往「聚居」在不同区域。模态间隙衡量的就是这两个聚居区之间的距离（文本向量均值和图片向量均值的 L2 距离）。间隙越小，跨模态检索越容易做准。

Qwen3-VL-2B 的模态间隙只有 0.25，远低于 Gemini 的 0.73。在 Milvus 中建图文混合 collection 的话，模态间隙小意味着文本和图片向量可以直接混在同一个索引里，不用额外处理。

跨模态测试的结论比较清楚：多模态能力上，开源小模型已经能和闭源 API 掰手腕了。

维度二：跨语言检索（中文 ↔ 英文）

场景：中英文混合知识库，用户中文提问但答案在英文文档里，或反过来。

任务设计：166 对手工构建的中英平行句子，分三个难度级别。每个语言另加 152 条 hard negative 干扰。

计分方式：

所有中文（166 + 152 干扰）和英文（166 + 152 干扰）文本生成 embedding
中→英：每条中文在 318 条英文中找到正确翻译
英→中：反过来
hard_avg_R@1 = (中→英得分率 + 英→中得分率) / 2

结果

这一回合 Gemini 表现最好，0.997 接近满分，包括「画蛇添足」这种成语难度也答对了。在 Hard 分组中，Gemini 是唯一保持 R@1 = 1.000 的模型。

这个任务把模型分成了泾渭分明的两拨：前 8 个（hard_avg_R@1 > 0.93）有多语言能力，nomic 和 mxbai（R@1 < 0.16）基本只认英文。中间没有过渡地带。

维度三：关键信息检索

场景：RAG 系统处理长篇法律合同、研究论文。Embedding 模型在几万字的文本中还能抓到关键信息吗？

任务设计：Wikipedia 文章作为「大海」（4K-32K 字符），在不同位置（开头 / 25% / 50% / 75% / 结尾）插入一条虚构的事实信息作为大海里的那个「针」。看模型能否通过 query 的 embedding 在含针文档和不含针文档之间做出正确判断。

样例针

：“The Meridian Corporation reported quarterly revenue of $847.3 million in Q3 2025.”（Meridian 公司 2025 年第三季度营收 8.473 亿美元。）查询：“What was Meridian Corporation’s quarterly revenue?”（Meridian 公司的季度营收是多少？）大海：一篇 32000 字符的 Wikipedia 文章（比如关于光合作用的），中间某个位置藏着那条营收信息。

计分方式：

生成 query、含针文档、不含针文档的 embedding
如果 query 和含针文档的相似度更高，判定为「找到了」
在所有长度和位置上取平均准确率

最终指标：overall_accuracy，degradation_rate（从最短到最长文档的准确率衰减）。

结果

这个任务的区分度比预期大不少。直接看热力图，绿色满分，黄色开始退化，红色严重退化，灰色是超出模型能力没跑的：

完整成绩：

「—」表示该长度超出模型上下文窗口限制或未测试。

大致分三档。Gemini、OpenAI、Jina v4、Cohere 在各自上下文范围内几乎满分。BGE-M3（568M）到 8K 开始轻微退化（0.92）。335M 以下的 mxbai、nomic 则在 4K 就开始明显下降，8K 准确率只有 0.40-0.44。

Gemini 是唯一跑完 4K-32K 全程且满分的。另一边，335M 以下的模型在 4K 字符（大概 1000 tokens）就掉到了 0.46-0.60——如果你的 RAG 系统文档平均超过 2000 字，用这些模型需要留意。

维度四：MRL 维度压缩

什么是 MRL？

MRL（Matryoshka Representation Learning，俄罗斯套娃表示学习）是一种训练技巧，让 embedding 向量的前 N 维本身就构成一个有意义的低维表示。举个例子，一个 3072 维的向量，你只取前 256 维，仍然能保持不错的语义质量。维度减半，存储成本也减半。

任务设计：使用 STS-B（Semantic Textual Similarity Benchmark）的 150 对句子，每对都有人工标注的语义相似度评分（0-5 分）。模型对这些句子生成 embedding，先用全维度，再截断到 256 / 512 / 1024 维，看在每个维度下与人工评分的排序一致性。

计分方式：

每个维度下，计算每对句子 embedding 的余弦相似度
将模型给出的相似度排序与人工评分排序做 Spearman 秩相关，得到 ρ 值

什么是 Spearman ρ？

Spearman 秩相关系数衡量两个排序的一致性。人工觉得 A 对最相似、B 对次之、C 对最不像，模型的 embedding 相似度排序也是 A > B > C，那 ρ 就接近 1.0。ρ = 1.0 是完全一致，ρ = 0 是毫无关联。

关键指标：Spearman ρ（越高越好），min_viable_dim（质量衰减不超过 5% 的最小维度）。

结果

如果你打算在向量数据库中通过截断维度来降低存储成本，这个结果很关键。

这一回合 Gemini 排在最后。mxbai-embed-large 只有 335M 参数，MRL 排第三，超过了 OpenAI 3-large。Jina v4 和 Voyage 之所以在 MRL 上突出，也是因为训练时专门优化过 MRL 目标函数。维度压缩能力跟模型大小关系不大，训练的时候有没有专门练过才是决定因素。

注意

：MRL 排名反映的是维度压缩后的语义保持能力，跟全维度下的语义理解质量是两回事。Gemini 全维度下的检索能力很强（跨语言和跨模态已经证明了），但在这个瘦身测试中成绩偏低。如果不需要维度压缩，这个项目的参考价值有限。

四个维度测完下来，每个模型的长处和短板都比较清楚了。把所有成绩放到一张表里看看全貌：

总成绩一览

「—」表示模型不支持该能力或未测试。CLIP 作为 2021 年的基线对照。

可以发现：没有一个模型能在所有任务上同时拿第一。Gemini 跨语言和长文档最强但 MRL 垫底，Qwen3-VL-2B 跨模态第一但 MRL 中游，Voyage 各项都不错但没有一项第一。每个模型的成绩单形状都不一样。

3、总结与选型建议

跨模态：Qwen3-VL-2B（0.945）拿了第一，Gemini（0.928）第二，Voyage（0.900）第三。开源 2B 模型胜过闭源 API，模态间隙是关键差异。

跨语言：Gemini（0.997）遥遥领先，成语级别的中英对齐也能满分。前 8 个模型都在 0.93 以上，英文专精的轻量模型则直接归零。

大海捞针：API 和大型开源模型在 8K 以内基本满分，335M 以下模型 4K 就开始退化。Gemini 是唯一跑完 32K 全程满分的。

MRL 维度压缩：Voyage（0.880）和 Jina v4（0.833）领先，裁到 256 维衰减不到 1%。Gemini（0.668）垫底。

而在综合维度上，Gemini Embedding 2 的确可以算得上是最新的embedding模型之王。

强项：跨语言第一（0.997），大海捞针第一（1.000），跨模态第二（0.928），模态覆盖最广（五种模态，其他模型最多三种）。

弱项：MRL 维度压缩排名靠后（ρ=0.668），跨模态被开源的 Qwen3-VL-2B 超越。

如果不需要维度压缩，Gemini 在跨语言 + 长文档的组合场景上目前没有对手。但跨模态精度和维度压缩上，专精型模型做得更好。

基于以上测试结果，决策流程供参考如下：

写在最后

四个回合跑下来，感触还挺多的。

几年前跨语言语义对齐还是论文里的研究方向，现在调个 API 就能用。五年前图文检索得专门训 CLIP，现在一个通用模型能同时处理文本、图片、视频、音频和 PDF。这个领域的变化速度，比大多数人感知到的要快。

另一个让我印象深刻的是开源的追赶速度。Qwen3-VL-2B 只有 2B 参数，跨模态精度却超过了所有闭源 API。BGE-M3 跨语言能力也不输多数商业服务。在 embedding 这条赛道上，数据质量和训练策略越来越重要，模型规模和算力投入的权重在下降。不用担心被绑死在哪家 API 上，开源这边总能找到替代方案。

最后说回选型这件事。今天这篇文章的结论，放到一年后大概率得改。与其花时间纠结到底选哪个模型，不如把评测流程搭好——清楚自己的业务场景和数据长什么样，用自己的数据搭一套能快速验证新模型的测试流程，新东西出来的时候跑一轮就知道行不行。公开的 benchmark 也值得参考，比如 MTEB、MMTEB、MMEB，但最终还是要回到自己的场景里验证。本文的评测代码也开源在 GitHub，有需要可以参考。（链接都在下方参考资料里）长远来看，建立这样的评估能力比选对某一个模型更有价值。

最后说一下这次测试的不足。有一些模型没来得及测，比如 NVIDIA 的 NV-Embed-v2、Jina v5-text。另外，视频、音频、PDF/表格这些模态虽然部分模型声称支持，但我们这次没有覆盖，代码检索之类的垂直领域也没涉及。样本量级别较小，个别模型之间的排名差异可能在统计误差范围内。更多的测试有待后续跟进。

最后

对于正在迷茫择业、想转行提升，或是刚入门的程序员、编程小白来说，有一个问题几乎人人都在问：未来10年，什么领域的职业发展潜力最大？

答案只有一个：人工智能（尤其是大模型方向）

当下，人工智能行业正处于爆发式增长期，其中大模型相关岗位更是供不应求，薪资待遇直接拉满——字节跳动作为AI领域的头部玩家，给硕士毕业的优质AI人才（含大模型相关方向）开出的月基础工资高达5万—6万元；即便是非“人才计划”的普通应聘者，月基础工资也能稳定在4万元左右。

再看阿里、腾讯两大互联网大厂，非“人才计划”的AI相关岗位应聘者，月基础工资也约有3万元，远超其他行业同资历岗位的薪资水平，对于程序员、小白来说，无疑是绝佳的转型和提升赛道。

对于想入局大模型、抢占未来10年行业红利的程序员和小白来说，现在正是最好的学习时机：行业缺口大、大厂需求旺、薪资天花板高，只要找准学习方向，稳步提升技能，就能轻松摆脱“低薪困境”，抓住AI时代的职业机遇。

如果你还不知道从何开始，我自己整理一套全网最全最细的大模型零基础教程，我也是一路自学走过来的，很清楚小白前期学习的痛楚，你要是没有方向还没有好的资源，根本学不到东西！

下面是我整理的大模型学习资源，希望能帮到你。

👇👇扫码免费领取全部内容👇👇

在这里插入图片描述

最后

1、大模型学习路线

2、从0到进阶大模型学习视频教程

从入门到进阶这里都有，跟着老师学习事半功倍。

在这里插入图片描述

3、入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里）

在这里插入图片描述

4、 AI大模型最新行业报告

2026最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

5、面试试题/经验

【大厂 AI 岗位面经分享（107 道）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

6、大模型项目实战&配套源码

适用人群

在这里插入图片描述

四阶段学习规划（共90天，可落地执行）

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

企业级Multi-Agent落地案例：从成本中心到利润AI Agent在智能AI Agent在智能营销中的实战：多智能体协同投放与效果优化

本文将基于国内头部美妆电商年5亿投放预算的真实落地案例，完整拆解企业级Multi-Agent智能营销投放系统的搭建、落地、优化全流程，从需求分析、智能体角色定义、系统架构设计、核心代码实现到效果验证，所有内容均可直接复用在你的企业投放场景中。我们会详细讲解7个不同职能的Agent如何协同完成从市场调研、人群洞察、渠道分配、创意生成、实时出价到效果归因的全链路自动化投放，彻底替代90%的人工操作。

AI Agent技术社区

如何让 AI Agent Harness Engineering 与企业指标 KPI 自动对齐：运营驱动式智能体系统设计

语义转化鸿沟：业务侧的KPI语义（如“提升用户复购率15%”）无法直接转化为Agent可执行的动作指令归因鸿沟：Agent的单个动作对KPI的贡献无法精准量化，无法建立动作和业务结果的因果关系响应鸿沟：企业KPI动态调整时（如大促期间临时调整优先级），Agent的配置更新延迟高达数天，无法适配业务节奏：对智能体的目标注入、动作管控、效果归因、迭代优化全生命周期进行标准化管控的工程体系，核心是建立业

AI Agent技术社区

从单一模型到混合专家（MoE）：AI Agent Harness Engineering 架构的下一代演进

Harness的本意是马具、挽具，引申为"把不同组件套在一起协同工作的框架"，AI Agent Harness Engineering指的是介于Agent业务逻辑层和底层模型层之间的中间层，负责模型的选择、调用、适配、容错、治理的全套工程能力，是Agent的"模型调度中枢"。模块核心能力模型适配层兼容不同厂商、不同部署方式的大模型、小模型、自定义模型，统一调用接口调度路由层根据任务的特性动态选择最