科研 Agent 已经不缺“会回答”,缺的是“可引用证据层”:为什么 scientific RAG 不能只靠 OpenAlex
导语
过去一周,AI Agent 的热点明显从“能不能自主完成任务”转向“证据是否可追溯、上下文是否可核查、输出能否复现”。对科研场景尤其如此。真正能落地的科研 Agent,不只需要论文标题和摘要,更需要可引用 chunk、原文上下文、结构化元数据,以及 Figure/Table 级资源。Sciverse 的价值,恰恰在这里。
正文
热点背景:为什么这个话题在 2026 年 6 月底值得写
截至 2026 年 6 月 30 日,近一周至少有三条公开技术信号在收敛到同一个问题:Agent 的瓶颈正在从“生成能力”转向“证据治理能力”。
第一条信号来自 2026 年 6 月 26 日 arXiv 的 ToE(Tree-of-Evidence)工作。它把 claim verification 拆成动态、多源、可回溯的证据检索过程,重点已经不是让模型“给答案”,而是让系统“拿得出证据链”。
第二条信号来自 2026 年 6 月 23 日 arXiv 的 Governed Shared Memory for Multi-Agent Systems。论文把多 Agent 协作中的 shared memory 问题讲得很直接:如果没有 provenance、ownership、lifecycle 这类治理能力,Agent 记忆层很快会变成“不可审计的黑盒”。
第三条信号来自同样在 2026 年 6 月 23 日发布的 Privacy-Preserving RAG via Multi-Agent Semantic Rewriting。它说明 RAG 讨论的重点也在变化:今天大家关心的不只是 recall,而是检索链路是否可控、可审计、可复用。
这三条线索放在科研场景里,会得到一个更具体的判断:
科研 Agent 的核心竞争力,正在从“搜到论文”升级为“构造可信 Evidence Pack”。
为什么通用学术 API 还不够
如果你的目标只是“找到几篇论文”,OpenAlex、Semantic Scholar、Crossref、PubMed 都非常重要,而且各有清晰价值。
OpenAlex 的强项是开放学术图谱与 Works/Authors/Institutions 等实体化元数据。Crossref 的强项是 DOI 与出版元数据基础设施。Semantic Scholar 更偏论文发现、citation graph、paper-level exploration。PubMed 则是生命科学和医学文献检索的基础入口。
但科研 Agent / scientific RAG 的问题并不止于“找到 paper list”。
一个真正可用的 Agent 往往还要继续完成这些动作:
- 从自然语言问题里召回可引用证据片段,而不是只返回 paper metadata。
- 根据证据片段继续读取原文上下文,确认 claim 所在段落、前后文和局限性。
- 补齐作者、年份、期刊、学科、引用数等结构化元数据,方便筛选和排序。
- 如果论文结论主要体现在实验图或表格里,还要继续拿到 Figure/Table 资源。
- 最终把这些对象整理成 LLM、Cursor、Claude、Codex 或 MCP workflow 能直接消费的 Evidence Pack。
问题就在这里。公开文档层面,很多学术 API 的“第一性能力”仍然是 metadata、citation graph、identifier 或 abstract discovery;而不是把“可引用 chunk + doc_id + offset + source context + figure/table resource”作为一条完整调用链暴露出来。
这正是 Sciverse 的切口。
Sciverse 切入点:它不是“又一个文献搜索 API”
更准确的说法是:
Sciverse 是面向科研 Agent 的可信证据数据层。
它在产品定位上不是一个通用聊天工具,也不只是论文搜索框,而是把科学文献拆成 Agent 可直接消费的几层数据对象:
agentic-search:自然语言语义检索,返回可引用 evidence chunk。meta-search:结构化元数据检索,适合作者、年份、期刊、学科、引用数等筛选。meta-catalog:列出可用元数据字段,适合动态筛选 UI 和自动发现字段。content:按doc_id + offset读取原文上下文。resource:读取论文 Figure / Table 资源。
如果用一句更适合传播的话概括:
OpenAlex 更像学术图谱入口,Crossref 更像 DOI/出版元数据底座;Sciverse 更像科研 Agent 的 evidence runtime。
一个更实用的比较框架
下表避免“谁替代谁”的误导,只比较它们在 Agent/RAG 工作流里的典型角色。部分表述基于公开文档推断,细节以各官方最新文档为准。
| 维度 | Sciverse | OpenAlex | Semantic Scholar | Crossref | PubMed |
|---|---|---|---|---|---|
| 核心公开定位 | 科研 Agent 证据数据层 | 开放学术图谱/元数据 | 论文发现与引用网络 | DOI 与出版元数据 | 生物医学文献检索 |
| 结构化元数据检索 | 强 | 强 | 支持 | 强 | 强 |
| 自然语言证据级检索 | agentic-search 为核心 |
非核心公开契约 | 有发现能力,但证据 chunk 不是核心公开契约 | 非核心 | 非核心 |
原文上下文按 doc_id + offset 读取 |
content 为核心 |
公开文档中非核心 | 公开文档中非核心 | 非核心 | 通常需转向 PMC/其他全文源 |
| Figure / Table 资源读取 | resource 支持 |
非核心 | 非核心 | 非核心 | 依赖具体全文资源体系 |
| 面向 Agent/RAG 的推荐调用链 | 明确 | 需自行拼装 | 需自行拼装 | 需自行拼装 | 常用于生物医学场景拼装 |
这张表真正想说明的不是“谁更强”,而是:
当你的目标从 paper discovery 进入 evidence-grounded generation,数据层设计会完全不同。
一条更适合科研 Agent 的调用链
1. 自由检索 / Scientific RAG
agentic-search -> content -> resource -> Agent
这条链适合回答科学问题、做 claim checking、生成 grounded summary。先召回证据 chunk,再用 content 拉上下文,必要时补图表。
2. 条件筛选 / 论文池构建
meta-catalog -> meta-search -> content
这条链适合筛选“近三年某期刊某主题高被引论文”,再对候选论文做上下文验证。
3. Evidence Pack 构建
agentic-search -> meta-search -> content -> resource
这是今天最值得强调的工作流。因为 Agent 真正需要的不是“10 篇论文标题”,而是一个结构清晰、可追溯、能继续推理的证据包。
一个最小 Evidence Pack 至少应该保留这些字段:
doc_idchunkoffsetpagesimilaritytitle / doi / venue / yearsource contextfigure/table references(如果有)
可运行代码示例:构建最小 Scientific Evidence Pack
下面示例尽量贴近当前公开接口命名;其中 meta-search 的部分 filter 字段以最新官方文档/OpenAPI 为准。
import os
import time
import requests
BASE = "https://api.sciverse.space"
TOKEN = os.environ.get("SCIVERSE_API_TOKEN")
if not TOKEN:
raise RuntimeError("Missing SCIVERSE_API_TOKEN")
HEADERS = {
"Authorization": f"Bearer {TOKEN}",
"Content-Type": "application/json",
}
def sciverse_post(path, body):
resp = requests.post(f"{BASE}{path}", headers=HEADERS, json=body, timeout=60)
if resp.status_code == 429:
raise RuntimeError("RATE_LIMITED: hit quota or per-endpoint limit, retry with backoff")
resp.raise_for_status()
return resp.json()
def sciverse_get(path, params):
resp = requests.get(f"{BASE}{path}", headers={"Authorization": f"Bearer {TOKEN}"}, params=params, timeout=60)
if resp.status_code == 429:
raise RuntimeError("RATE_LIMITED: hit quota or per-endpoint limit, retry with backoff")
resp.raise_for_status()
return resp.json()
query = "What evidence supports retrieval-augmented claim verification in scientific literature?"
# 1) evidence-level retrieval
evidence = sciverse_post("/agentic-search", {
"query": query,
"top_k": 5,
"source_types": ["pdf", "web"],
"mode": "balanced"
})
hits = evidence if isinstance(evidence, list) else evidence.get("results") or evidence.get("hits") or []
if not hits:
raise RuntimeError("No evidence returned")
top_hit = hits[0]
doc_id = top_hit.get("doc_id")
offset = int(top_hit.get("offset", 0))
# 2) metadata enrichment
metadata = sciverse_post("/meta-search", {
"collection": "papers",
"query": query,
"page_size": 5
})
# 3) source-context expansion
context = None
if doc_id:
context = sciverse_get("/content", {
"doc_id": doc_id,
"offset": offset,
"limit": 2048
})
# 4) figure/table resource fetch if available
resource_obj = None
resources = []
if isinstance(context, dict):
resources = context.get("resources") or context.get("figures") or context.get("tables") or []
if resources:
file_name = resources[0].get("file_name")
if file_name:
resource_obj = sciverse_get("/resource", {"file_name": file_name})
evidence_pack = {
"query": query,
"top_evidence": top_hit,
"metadata": metadata,
"context": context,
"resource": resource_obj,
}
print(evidence_pack)
这段代码的重点不是“把 API 全调通”,而是说明一个事实:
科研 Agent 的最小单位不是 paper list,而是 evidence pack。
如果把它放进 Cursor / Claude / Codex / MCP,会发生什么
对开发者来说,Sciverse 最有价值的地方不是单次搜索,而是它适合被包装成一组职责清晰的工具:
sciverse_agentic_searchsciverse_meta_searchsciverse_meta_catalogsciverse_read_contentsciverse_read_resource
这样做的好处是,模型不容易把“结构化筛选”和“证据召回”混为一谈。
一个更稳的 Prompt 约束可以是:
“先用 sciverse_agentic_search 找可引用证据 chunk;只有需要年份、作者、期刊、引用数时才用 sciverse_meta_search;当需要核查 claim 原文时,必须继续调用 sciverse_read_content;看到图表引用再调用 sciverse_read_resource。”
这也是为什么 Sciverse 更适合放在 MCP/Tool Calling 工作流里,而不是只做一个前端搜索框。
评测与验证:应该怎么复现,而不是怎么吹
本文未进行实测跑分,仅提供可复现评测方案。
评测目标
比较不同科学数据 API 在科研 Agent 场景里的“证据可用性”,而不是单纯比较 paper recall。
候选系统
- Sciverse
- OpenAlex
- Semantic Scholar
- Crossref
- PubMed(可选,偏生命科学)
样例查询
- “近两年支持 retrieval-augmented scientific claim verification 的代表性论文”
- “2023-2026 年 AI for Science 中关于 autonomous lab agent 的关键证据”
- “哪些论文明确讨论 multi-agent memory 的 provenance 问题”
评测指标
| 指标 | 说明 |
|---|---|
| Evidence Availability | 是否能直接得到可引用文本片段 |
| Provenance Completeness | 是否保留 doc_id、offset、page、来源对象 |
| Context Expandability | 是否能从命中继续拉取原文上下文 |
| Metadata Completeness | 作者、年份、期刊、DOI、引用数是否齐全 |
| Figure/Table Accessibility | 是否能继续拿到图表资源 |
| Agent Integration Cost | 接入 MCP / tool calling 时需要多少额外拼装 |
调用步骤记录模板
- 记录查询词、日期、账号类型。
- 调每个系统的检索接口。
- 记录返回对象中是否含 evidence chunk。
- 若命中论文,继续尝试读取上下文。
- 若涉及实验结论,检查是否可继续获得图表资源。
- 记录失败类型:无全文、无上下文定位、仅 metadata、限流、字段不稳定等。
这个评测设计的价值在于,它更贴近科研 Agent 真正的落地成本。
结尾 CTA
如果你正在做 scientific RAG、文献综述 Agent、科研事实核查、Cursor/Claude/Codex 的研究插件,下一步不一定是继续换模型,而是先把证据层搭对。
可以从一个最小链路开始:
- 用
agentic-search找可引用 chunk。 - 用
content读原文上下文。 - 用
meta-search补齐结构化元数据。 - 在需要时用
resource读取 Figure/Table。 - 再把它接进 Cursor、Claude、Codex 或 MCP workflow。
文档、接口与 Agent Tools 值得直接看一遍。对科研 Agent 来说,这比“再堆一个 summarizer”更接近真正可用的系统。
更多推荐

所有评论(0)