大模型Function Calling工程实战：从协议到生产的完整指南

场景一：多跳推理原始文档 ↓ 文本分块文本片段 ↓ 实体提取（LLM）实体+关系列表 ↓ 实体去重与合并知识图谱 ↓ 社区检测（Leiden算法）层次化社区结构 ↓ 社区摘要生成（LLM）社区摘要实体提取。

少林码僧

182人浏览 · 2026-05-25 01:03:25

少林码僧 · 2026-05-25 01:03:25 发布

传统RAG（检索增强生成）在处理简单的"单跳"问题时表现良好——“文章里提到了什么” “这个概念是什么意思”——但当问题涉及多个实体之间的关系、需要跨多个文档推理时，传统RAG就显得力不从心。GraphRAG（Graph-based Retrieval Augmented Generation）通过将知识图谱与LLM结合，为这类复杂查询提供了更强大的解决方案。本文从原理到落地，系统介绍GraphRAG的工程实践。

为什么需要GraphRAG先来看传统RAG的核心局限Function Calling（函数调用）是让LLM从"会聊天"进化为"能干活"的关键能力。通过Function Calling，模型可以决定何时调用外部工具、传递什么参数，从而查询实时数据、执行代码、操作文件……几乎任何你能写成函数的能力，都可以被LLM"驱动"。本文从协议原理到生产实践，系统讲解Function Calling工程中的核心知识点与踩坑经验。

Function Calling的工作原理理解原理是写好代码的基础。Function Calling的完整流程：1. 工具注册：将函数的名称、描述和参数Schema告知模型2. 模型决策：模型根据用户请求决定是否调用工具，以及调用哪个工具、传入什么参数3. 工具执行：应用代码实际执行被选中的函数4. 结果回传：将函数执行结果回传给模型5. 最终生成：模型根据函数结果生成最终回复这个流程中，模型只做决策，不执行代码。代码的实际执行权始终在你的应用手中，这是一个重要的安全边界。python# 一个完整的Function Calling示例from openai import OpenAIimport jsonclient = OpenAI()# 工具定义（JSON Schema格式）tools = [ { "type": "function", "function": { "name": "get_weather", "description": "获取指定城市的当前天气信息", "parameters": { "type": "object", "properties": { "city": { "type": "string", "description": "城市名称，如'北京'、'上海'" }, "unit": { "type": "string", "enum": ["celsius", "fahrenheit"], "description": "温度单位，默认celsius" } }, "required": ["city"] } } }]# 实际的工具实现def get_weather(city: str, unit: str = "celsius") -> dict: # 实际中调用天气API return { "city": city, "temperature": 25, "unit": unit, "condition": "晴天", "humidity": "60%" }def run_conversation(user_message: str): messages = [{"role": "user", "content": user_message}] # 第一次调用：模型决策是否使用工具 response = client.chat.completions.create( model="gpt-4o", messages=messages, tools=tools, tool_choice="auto" # 让模型自主决定 ) response_message = response.choices[0].message # 检查模型是否决定调用工具 if response_message.tool_calls: messages.append(response_message) # 执行所有工具调用（可能多个） for tool_call in response_message.tool_calls: function_name = tool_call.function.name function_args = json.loads(tool_call.function.arguments) # 路由到实际函数 if function_name == "get_weather": result = get_weather(function_args) else: result = {"error": f"未知工具: {function_name}"} # 将结果回传 messages.append({ "role": "tool", "tool_call_id": tool_call.id, "content": json.dumps(result, ensure_ascii=False) }) # 第二次调用：基于工具结果生成最终回复 final_response = client.chat.completions.create( model="gpt-4o", messages=messages ) return final_response.choices[0].message.content return response_message.contentresult = run_conversation("上海今天天气怎么样？")print(result)## 工具Schema设计的核心原则工具的Schema设计直接影响模型调用的准确率。这里有五个关键原则：### 1. 描述要精准，不要模糊`python# ❌ 模糊的描述{ "name": "search", "description": "搜索相关信息"}# ✅ 精准的描述{ "name": "search_knowledge_base", "description": "在公司内部知识库中搜索技术文档。仅用于查询公司产品、API文档和内部指南。不要用于查询实时行情、新闻等外部信息。"}`### 2. 参数类型和约束要明确python{ "name": "create_task", "description": "在项目管理系统中创建任务", "parameters": { "type": "object", "properties": { "title": { "type": "string", "description": "任务标题，50字以内", "maxLength": 50 }, "priority": { "type": "string", "enum": ["low", "medium", "high", "urgent"], "description": "优先级：low(低)、medium(中)、high(高)、urgent(紧急)" }, "due_date": { "type": "string", "pattern": "^\\d{4}-\\d{2}-\\d{2}$", "description": "截止日期，格式YYYY-MM-DD，如2026-05-31" }, "assignee_id": { "type": "string", "description": "负责人的用户ID（不是用户名），可以通过get_user_id工具获取" } }, "required": ["title", "priority"] }}### 3. 多工具时要消除歧义当有多个功能相似的工具时，需要在描述中明确区分使用场景：`pythontools = [ { "function": { "name": "search_web", "description": "搜索互联网上的公开信息，适合：最新新闻、实时行情、公开资料查询。不适合：内部文档、公司数据。" } }, { "function": { "name": "search_internal_docs", "description": "搜索公司内部知识库，适合：API文档、技术规范、内部流程。不适合：外部信息、实时数据。" } }]`### 4. 设计原子性工具，而非复合工具python# ❌ 复合工具（功能太多，参数复杂）{ "name": "manage_calendar", "description": "管理日历：可以查看、创建、删除、修改事件"}# ✅ 原子性工具（每个工具做一件事）tools = [ {"name": "get_calendar_events", "description": "查询指定日期范围内的日历事件"}, {"name": "create_calendar_event", "description": "创建新的日历事件"}, {"name": "update_calendar_event", "description": "修改已有日历事件"}, {"name": "delete_calendar_event", "description": "删除日历事件"},]## 并行函数调用现代LLM支持在一次响应中同时调用多个工具，利用好这个特性可以显著减少延迟：pythonimport asyncioasync def handle_parallel_tool_calls(tool_calls: list) -> list: """并行执行多个工具调用""" async def execute_single(tool_call): function_name = tool_call.function.name args = json.loads(tool_call.function.arguments) try: if function_name == "get_stock_price": result = await get_stock_price(args) elif function_name == "get_company_info": result = await get_company_info(args) elif function_name == "get_news": result = await get_news(args) else: result = {"error": f"未知工具: {function_name}"} except Exception as e: result = {"error": str(e)} return { "role": "tool", "tool_call_id": tool_call.id, "content": json.dumps(result, ensure_ascii=False) } # 并行执行所有工具调用 results = await asyncio.gather(*[execute_single(tc) for tc in tool_calls]) return list(results)# 使用示例：GPT-4o会自动识别可以并行的工具调用response = client.chat.completions.create( model="gpt-4o", messages=[{ "role": "user", "content": "帮我查一下腾讯和阿里的当前股价，以及它们最近的新闻" }], tools=tools)# 模型可能同时调用 get_stock_price("腾讯")、get_stock_price("阿里")、get_news("腾讯")、get_news("阿里")if response.choices[0].message.tool_calls: tool_results = await handle_parallel_tool_calls(response.choices[0].message.tool_calls)## 工具调用安全性Function Calling最大的风险是：LLM决策 + 自动执行 = 潜在的高风险操作。特别是涉及数据写入、外部API调用、代码执行的工具，需要严格的安全设计。### 分级权限控制pythonfrom enum import Enumclass ToolRiskLevel(Enum): READ_ONLY = "read_only" # 只读操作，无需确认 LOW_RISK = "low_risk" # 低风险写入，自动执行但记录日志 MEDIUM_RISK = "medium_risk" # 中等风险，需要用户确认 HIGH_RISK = "high_risk" # 高风险操作，需要显式授权TOOL_RISK_MAP = { "search_web": ToolRiskLevel.READ_ONLY, "get_weather": ToolRiskLevel.READ_ONLY, "create_task": ToolRiskLevel.LOW_RISK, "send_email": ToolRiskLevel.MEDIUM_RISK, "delete_records": ToolRiskLevel.HIGH_RISK, "execute_code": ToolRiskLevel.HIGH_RISK,}class SafeToolExecutor: def init(self, user_approval_callback): self.approval_callback = user_approval_callback async def execute(self, tool_name: str, args: dict) -> dict: risk_level = TOOL_RISK_MAP.get(tool_name, ToolRiskLevel.MEDIUM_RISK) if risk_level == ToolRiskLevel.READ_ONLY: return await self._execute_directly(tool_name, args) elif risk_level == ToolRiskLevel.LOW_RISK: result = await self._execute_directly(tool_name, args) await self._audit_log(tool_name, args, result) return result elif risk_level in (ToolRiskLevel.MEDIUM_RISK, ToolRiskLevel.HIGH_RISK): # 暂停，等待用户确认 approved = await self.approval_callback({ "tool": tool_name, "args": args, "risk_level": risk_level.value, "message": f"AI助手请求执行 [{tool_name}]，参数：{json.dumps(args, ensure_ascii=False)}" }) if not approved: return {"error": "用户拒绝了此操作"} return await self._execute_directly(tool_name, args) async def _execute_directly(self, tool_name: str, args: dict) -> dict: # 实际工具执行逻辑 tool_func = TOOL_REGISTRY[tool_name] return await tool_func(**args) async def _audit_log(self, tool_name: str, args: dict, result: dict): # 记录审计日志 pass### 参数验证与沙箱pythondef validate_tool_args(tool_name: str, args: dict) -> tuple[bool, str]: """在执行工具前验证参数""" if tool_name == "execute_code": code = args.get("code", "") # 检查危险操作 dangerous_patterns = ["os.system", "subprocess", "eval(", "exec(", "import"] for pattern in dangerous_patterns: if pattern in code: return False, f"代码包含不允许的操作: {pattern}" if tool_name == "delete_records": # 确保有明确的ID而非通配符删除 if "" in str(args) or "all" in str(args).lower(): return False, "删除操作不允许使用通配符，必须指定具体ID" return True, "OK"## 流式Function Calling对于需要实时展示进度的场景，可以使用流式API：pythonasync def stream_with_tools(user_message: str): """流式Function Calling，支持实时展示工具调用过程""" stream = client.chat.completions.create( model="gpt-4o", messages=[{"role": "user", "content": user_message}], tools=tools, stream=True ) current_tool_calls = {} async for chunk in stream: delta = chunk.choices[0].delta # 处理工具调用块 if delta.tool_calls: for tc_chunk in delta.tool_calls: idx = tc_chunk.index if idx not in current_tool_calls: current_tool_calls[idx] = { "id": tc_chunk.id, "name": tc_chunk.function.name or "", "arguments": "" } if tc_chunk.function.arguments: current_tool_calls[idx]["arguments"] += tc_chunk.function.arguments # 处理完成信号 if chunk.choices[0].finish_reason == "tool_calls": print(f"\n[工具调用] 模型决定调用 {len(current_tool_calls)} 个工具") # 执行工具并继续对话...## 常见问题与解决方案| 问题 | 原因 | 解决方案 ||------|------|---------|| 模型总是调用工具，即使不需要 | 工具描述过于宽泛 | 明确指定使用场景和不适用场景 || 参数格式经常不对 | Schema描述不够清晰 | 添加格式说明和示例值 || 模型选错工具 | 多个工具功能有重叠 | 重写描述，强调使用边界 || 工具调用失败后模型卡住 | 没有处理错误返回 | 在工具结果中包含error字段，模型会据此调整策略 || 多轮对话中重复调用工具 | 历史结果没有正确回传 | 确保tool角色消息正确插入到历史中 |## 总结Function Calling是构建实用AI Agent的基础能力。关键工程原则：精心设计工具Schema（描述要精准、参数要明确）、合理处理并行调用（减少延迟）、严格控制执行安全（分级权限+参数验证），以及完善的错误处理（工具失败不应导致整个对话中断）。掌握这些，你的AI助手就能从"聊天机器人"进化为真正能做事的智能体。。场景一：多跳推理问题：“A公司的CEO在哪所大学的同学，后来创立了什么公司？“传统RAG：单次向量检索，找到"A公司CEO毕业于X大学”，找到"B公司创始人也毕业于X大学”，但无法建立两者之间的"同学"关系，更无法回答"B公司创始人创立了什么其他公司"这个需要多步推理的问题。GraphRAG：知识图谱中有[CEO]→[毕业于]→[X大学]←[就读于]←[B创始人]的路径，通过图遍历可以直接找到相关信息。场景二：实体关系聚合问题："列出所有与GPT-4技术相关的论文作者，以及他们各自的研究领域"传统RAG：会返回若干文档片段，但无法系统地聚合所有相关作者的信息，容易遗漏。GraphRAG：以"GPT-4"为起点，通过"作者"关系遍历所有相关节点，系统化地返回完整信息。场景三：社区摘要与宏观视角问题："AI安全领域的主要研究机构有哪些，它们之间有什么关联？"这类问题需要"鸟瞰"视角，传统RAG难以提供跨文档的系统性总结，而GraphRAG的社区检测功能天然支持这类全局性查询。## GraphRAG的核心架构GraphRAG（尤其是Microsoft开源版本）的处理流程分为两个阶段：### 索引阶段（离线构建）`原始文档 ↓ 文本分块文本片段 ↓ 实体提取（LLM）实体+关系列表 ↓ 实体去重与合并知识图谱 ↓ 社区检测（Leiden算法）层次化社区结构 ↓ 社区摘要生成（LLM）社区摘要`实体提取是索引阶段的核心。GraphRAG使用LLM从文本中识别实体（人、组织、事件、概念等）和关系：pythonENTITY_EXTRACTION_PROMPT = """从以下文本中提取所有实体和它们之间的关系。文本：{input_text}输出格式（JSON）：{ "entities": [ {"name": "实体名称", "type": "PERSON/ORGANIZATION/CONCEPT/EVENT", "description": "简短描述"} ], "relationships": [ {"source": "实体A", "target": "实体B", "type": "关系类型", "description": "关系描述"} ]}注意：- 只提取文本中明确提到的实体和关系- 关系类型应简洁明了（如：WORKS_FOR, FOUNDED, COLLABORATED_WITH等）- 每个实体的描述不超过50字"""### 查询阶段GraphRAG提供两种查询模式：Local Search（局部搜索）：适合具体问题- 先找到与查询最相关的实体- 然后提取这些实体的邻居子图- 将子图信息和原始文本片段一起送给LLM生成答案Global Search（全局搜索）：适合宏观问题- 利用预计算的社区摘要- 在各社区摘要上并行生成答案- 聚合多个社区的答案生成最终回复## 使用Microsoft GraphRAG快速上手`bash# 安装pip install graphrag# 初始化项目mkdir graphrag-democd graphrag-demopython -m graphrag.index --init --root .# 准备文档（放入input目录）mkdir -p input# 将你的.txt文件放入input目录# 配置（编辑settings.yaml）# 主要配置：LLM API、嵌入模型、语言`关键配置文件 `settings.yaml`：yamlencoding_model: cl100k_baseskip_workflows: []llm: api_key: ${GRAPHRAG_API_KEY} type: openai_chat model: gpt-4o-mini # 推荐用mini降低成本 model_supports_json: true max_tokens: 4000 temperature: 0embeddings: async_mode: threaded llm: api_key: ${GRAPHRAG_API_KEY} type: openai_embedding model: text-embedding-3-small # 成本效益最优chunks: size: 300 overlap: 100 group_by_columns: [id]input: type: file file_type: text base_dir: "input"# 实体提取配置entity_extraction: max_gleanings: 1 # 提取轮次，1轮已足够大多数场景# 社区报告配置community_reports: max_length: 2000 max_input_length: 8000构建索引：`bash# 构建知识图谱索引（耗时操作，取决于文档量和模型速度）python -m graphrag.index --root .`查询：pythonimport asynciofrom graphrag.query.context_builder.entity_extraction import EntityVectorStoreKeyfrom graphrag.query.indexer_adapters import ( read_indexer_entities, read_indexer_relationships, read_indexer_reports, read_indexer_text_units)from graphrag.query.structured_search.local_search.mixed_context import LocalSearchMixedContextfrom graphrag.query.structured_search.local_search.search import LocalSearchfrom graphrag.query.llm.oai.chat_openai import ChatOpenAIfrom graphrag.query.llm.oai.embedding import OpenAIEmbedding# 加载索引数据INPUT_DIR = "./output/artifacts"COMMUNITY_LEVEL = 2 # 社区层级，越高越宏观entities = read_indexer_entities(INPUT_DIR, COMMUNITY_LEVEL)relationships = read_indexer_relationships(INPUT_DIR)text_units = read_indexer_text_units(INPUT_DIR)reports = read_indexer_reports(INPUT_DIR, COMMUNITY_LEVEL)# 初始化本地搜索llm = ChatOpenAI(api_key="your_api_key", model="gpt-4o")embedding = OpenAIEmbedding(api_key="your_api_key", model="text-embedding-3-small")context_builder = LocalSearchMixedContext( entities=entities, relationships=relationships, text_units=text_units, community_reports=reports, entity_text_embeddings=entity_embeddings, text_embedder=embedding)search_engine = LocalSearch( llm=llm, context_builder=context_builder, token_encoder=token_encoder, response_type="single paragraph")# 执行查询result = await search_engine.asearch("LLM在医疗诊断中的应用案例有哪些？")print(result.response)## 自建轻量GraphRAG方案Microsoft GraphRAG功能完整但成本较高（构建大型文档集可能消耗数百美元API费用）。对于中小规模项目，可以考虑轻量级自建方案：pythonfrom neo4j import GraphDatabasefrom sentence_transformers import SentenceTransformerimport numpy as npclass LightweightGraphRAG: """基于Neo4j的轻量级GraphRAG实现""" def init(self, neo4j_uri: str, username: str, password: str): self.driver = GraphDatabase.driver(neo4j_uri, auth=(username, password)) self.embedder = SentenceTransformer('BAAI/bge-m3') def add_entity(self, name: str, entity_type: str, description: str): """添加实体到知识图谱""" embedding = self.embedder.encode(description).tolist() with self.driver.session() as session: session.run(""" MERGE (e:Entity {name: $name}) SET e.type = $type, e.description = $description, e.embedding = $embedding """, name=name, type=entity_type, description=description, embedding=embedding) def add_relationship(self, source: str, target: str, rel_type: str, description: str = ""): """添加实体间关系""" with self.driver.session() as session: session.run(""" MATCH (a:Entity {name: $source}) MATCH (b:Entity {name: $target}) MERGE (a)-[r:RELATES_TO {type: $rel_type}]->(b) SET r.description = $description """, source=source, target=target, rel_type=rel_type, description=description) def local_search(self, query: str, depth: int = 2) -> str: """局部搜索：找到相关实体及其邻居""" query_embedding = self.embedder.encode(query).tolist() # 使用向量相似度找到入口实体 with self.driver.session() as session: # Neo4j 5.x支持向量索引 result = session.run(""" CALL db.index.vector.queryNodes('entity-embeddings', 5, $embedding) YIELD node, score WHERE score > 0.7 RETURN node.name AS entity, node.description AS description, score ORDER BY score DESC """, embedding=query_embedding) seed_entities = [r['entity'] for r in result] if not seed_entities: return "未找到相关实体" # 从种子实体出发，获取子图 context_parts = [] for entity in seed_entities[:3]: with self.driver.session() as session: subgraph = session.run(f""" MATCH path = (e:Entity {{name: $entity}})-[r1..{depth}]-(neighbor) RETURN e, r, neighbor LIMIT 50 """, entity=entity) for record in subgraph: context_parts.append( f"{record['e']['name']} --[{record['r'][-1]['type']}]--> {record['neighbor']['name']}: " f"{record['neighbor'].get('description', '')}" ) return "\n".join(context_parts)## GraphRAG vs 传统RAG：选型决策矩阵| 维度 | 传统RAG | GraphRAG ||------|---------|---------|| 适合查询类型 | 单跳、事实查询 | 多跳、关系推理、全局摘要 || 构建成本 | 低 | 中-高（LLM提取） || 查询延迟 | 低（~200ms） | 中-高（~1-3s） || 知识更新 | 容易 | 需重建图或增量更新 || 可解释性 | 差 | 好（推理路径可见） || 适合规模 | 大规模文档 | 中等规模、高质量文档 |## 实际落地建议混合策略：不必非此即彼。可以用传统RAG处理简单查询，遇到复杂关系查询时自动切换到GraphRAG。成本控制：- 使用GPT-4o-mini而非GPT-4进行实体提取，成本降低90%- 对重复的实体描述进行去重，减少LLM调用次数- 设置合理的`max_gleanings`（1次通常足够）增量更新：生产环境中文档会不断增加，设计增量更新机制避免每次全量重建：- 新文档：提取实体后合并到现有图中- 修改文档：删除旧实体/关系，重新提取- 定期全量重建（如每周）确保图的质量## 总结GraphRAG不是传统RAG的替代品，而是针对特定场景的强化方案。当你的应用需要处理复杂关系推理、全局知识摘要，或者需要在大型知识库中进行多跳查询时，GraphRAG的投入是值得的。理解两者的边界，根据业务需求选择合适的方案，才是2026年RAG工程师的核心竞争力。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

cover

深度拆解 Headroom：AI Agent 的「上下文压缩层」，Token 暴降 60-95% 的背后原理

AI Agent技术社区

cover

ChatGPT生成excel表格，AI导出鸭帮工程师终结格式乱码噩梦

AI Agent技术社区

cover

《从0到1带你Obsidian接入DeepSeek》

AI Agent技术社区

所有评论(0)

查看更多评论

少林码僧

已为社区贡献16条内容