从零写一个 AI Agent：用 Python 搞懂智能体原理

大靠山

76人浏览 · 2026-06-30 20:46:57

大靠山 · 2026-06-30 20:46:57 发布

很多人第一次接触 Agent，是从 LangChain、CrewAI、AutoGen 开始。框架文档里 Chain、Tool、Memory、Planner 一堆抽象，很容易让人觉得：Agent 很复杂，必须先学框架。

其实把框架剥开，底层逻辑就三件事：LLM 负责思考，工具负责行动，循环负责持续推进。

即：Agent = LLM + Tools + Loop。

理解这个公式，比背任何框架 API 都重要。框架会变，机制不会。下面用最小 Python Agent 把循环跑起来。

Agent 到底是什么？

普通 LLM 调用是一次性的：用户提问，模型回答，结束。Agent 多了”行动循环”：

LLM 读取用户问题和当前状态；
LLM 判断是否需要工具；
如果需要，程序执行工具并把结果返回给 LLM；
LLM 基于新结果继续判断；
直到模型认为任务完成，输出最终答案。

这个模式常称 ReAct：Reasoning + Acting。先推理，再行动，再观察结果，继续推理。

图1：Agent 循环流程图——用户输入进入 LLM，LLM 要么直接回答，要么调用工具；工具结果回传 LLM 继续思考，直到输出最终答案

什么时候需要 Agent？ 任务需要”多步判断 + 外部动作”时，如查资料、算数、调接口、读文件。只做改写、摘要、分类，普通 LLM 调用就够。

用 Python 写一个最小 Agent

示例用 Anthropic Claude API 的 tool_use。OpenAI function calling 同一套思想：定义工具 → 模型选工具 → 程序执行 → 结果回传。

先安装依赖，通过环境变量设置 Key（不要写进代码）：

pip install anthropicexport ANTHROPIC_API_KEY="你的_API_Key"

2.1 定义工具

工具不是函数本身，而是给模型看的"能力说明书"：工具叫什么、能做什么、需要哪些参数。

import reimport anthropicclient = anthropic.Anthropic()tools = [{    "name": "calculator",    "description": "计算简单数学表达式，只支持数字、加减乘除和括号。",    "input_schema": {        "type": "object",        "properties": {            "expression": {                "type": "string",                "description": "数学表达式，例如 123 * 456 + 789"            }        },        "required": ["expression"]    }}]

工具描述越清楚，模型越容易选对。这里只放一个计算器，方便看懂完整链路。

2.2 执行工具

模型不会真的执行代码。它只提出”我要调 calculator，参数是 x”。真正执行的是你的 Python 程序。

def run_tool(name: str, args: dict) -> str:    if name != "calculator":        return"未知工具"    expr = args["expression"]    ifnot re.fullmatch(r"[0-9+\-*/(). ]+", expr):        return"表达式包含不允许的字符"    try:        return str(eval(expr, {"__builtins__": {}}, {}))    except Exception as e:        returnf"计算失败：{e}"

这里用白名单限制字符。生产环境更建议用专门数学解析库，别让模型生成内容直接进入高权限执行环境。

2.3 写 Agent 循环

核心就是一个 for 循环：请求模型 → 检查工具调用 → 执行工具 → 结果塞回历史 → 再请求模型。

def agent(user_input: str, max_steps: int = 5) -> str:    messages = [{"role": "user", "content": user_input}]    for _ in range(max_steps):        response = client.messages.create(            model="claude-opus-4-8",            max_tokens=1024,            tools=tools,            messages=messages,        )        messages.append({"role": "assistant", "content": response.content})        if response.stop_reason != "tool_use":            return"".join(                block.text for block in response.content                if block.type == "text"            )        tool_results = []        for block in response.content:            if block.type == "tool_use":                result = run_tool(block.name, block.input)                tool_results.append({                    "type": "tool_result",                    "tool_use_id": block.id,                    "content": result,                })        messages.append({"role": "user", "content": tool_results})    return"达到最大循环次数，Agent 停止。"print(agent("123 乘以 456 再加上 789 等于多少？"))

典型运行：用户提问 → LLM 判断需要计算器 → 生成工具调用 calculator({"expression":"123*456+789"}) → Python 执行得 56877 → 结果回传 LLM → LLM 输出自然语言答案。

图2：Agent 运行过程——LLM 思考"需要计算器"→ 调用 calculator → 工具返回 56787 → LLM 组织最终回答

注意：图中示例数值用于展示流程；如果你换表达式，结果以程序实际计算为准。

什么时候用这个最小版？ 学原理、验证工具调用、做内部小工具。还不适合直接上生产——缺权限控制、日志、重试、上下文管理和人工确认。

拆开看：Agent 的 4 个关键机制

机制一：工具定义

工具定义就是 LLM 的“工具菜单”。模型根据 name、description 和参数 schema 判断能不能用、该不该用、怎么传参。

坑点： 工具描述太泛会导致误选。例如“处理数据”不如“计算数学表达式并返回结果”。工具越多，描述越要互斥。

什么时候用： 只要模型需要访问外部世界——数据库、文件、接口、搜索、计算——就要定义工具。

机制二：模型决策

Agent 不是你硬编码“先调 A，再调 B”。LLM 会根据问题和工具列表自己决定下一步。这是 Agent 相比普通脚本最大的区别。

什么时候用： 路径不固定时用 Agent；路径固定时用普通代码编排更稳定、更便宜。

机制三：工具执行

LLM 只负责“提出动作”，程序负责“执行动作”。这个边界很重要：工具权限、参数校验、失败处理，都应该在你控制的代码里完成。

什么时候用： 永远如此。不要让模型直接执行任意 shell、SQL 或高权限 API。

机制四：循环终止

stop_reason == "tool_use" 表示模型还想行动；否则说明它准备回答。除此之外，还要加 max_steps，防止无限循环。

什么时候用： 所有 Agent 都必须有循环上限。没有上限，成本和风险都会失控。

从最小 Agent 到实用 Agent

最小版本能说明原理，但实用 Agent 至少要补三层能力。

图3：从最简 Agent 到实用 Agent 的演进——补循环上限、补错误回传、补上下文管理

第一，循环上限。用 max_steps 控制最多执行几轮，避免模型在“搜索—总结—再搜索”里打转。

第二，错误回传。工具失败时不要吞错误，要把错误作为 tool_result 返回给模型。模型看见“参数不合法”或“接口超时”，才有机会换策略。

第三，上下文管理。每轮工具调用都会让消息历史变长。短任务可以直接保留全部历史；长任务要做截断、摘要或外部记忆，否则 token 会爆。

什么时候升级？ 当 Agent 需要跑很多步、接多个工具、给多人使用，或者会触碰文件/数据库/生产系统时，就不能停留在教学版。

要不要用框架？

方案	适合场景	优点	坑点
原生 API + 循环	学原理、简单工具	透明、好调试	基建要自己补
LangChain	快速原型、RAG	生态大	抽象多、版本变化快
CrewAI	多角色协作	任务组织清晰	简单任务容易过度设计
AutoGen	多 Agent 对话	适合研究协作模式	调试链路长

建议路线：先写原生 Agent，搞懂 LLM + Tool + Loop；再学框架。 否则框架出错时，你分不清是模型没选对工具、schema 写错、工具执行失败，还是框架封装层的问题。

继续练习

如果你想继续深入，做三个小练习：

加一个 read_file 工具，让 Agent 能读本地文件；
加一个 search 工具，让 Agent 能查外部资料；
把 messages 保存到文件里，实现最简单的记忆。

做完这三个练习，你就真正理解了 Agent 的基本机制：模型负责决策，工具负责行动，循环负责推进，边界负责安全。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

AI Agent 的插件化工具系统：动态注册、热加载与安全沙箱

*** 标记一个方法为 Agent 可调用的工具。* 框架会自动提取注解信息生成 function calling schema。/** 工具名称，LLM 通过此名称调用 */ String name();/** 工具描述，会出现在 system prompt 的 tool description 中 */ String description();/** 调用示例，帮助 LLM 理解如何使用 *

AI Agent技术社区

AI Agent 三种记忆的工程落地

AI Agent技术社区

告别剪辑熬夜赶工：口播智能匹配画面，30 分钟搞定全账户一周投放素材

传统流程里，剪辑师拿到一条达人口播，先要完整听 2-3 遍，拆分话术节点，写好对应画面的备注，再去素材库找对应的产品特写、演示视频、场景空镜，然后拖到时间线上逐帧对齐，最后再加字幕、加转场。系统自动完成语音识别、语义打标、画面检索、音画同步全流程：自动识别每一句话术对应的信息，自动从素材库调取最匹配的画面，自动按照口播节奏完成拼接对齐，连字幕和基础转场都能自动生成。所有画面都来自原生素材库，是重新