AI Agent驱动的智能工作流自动化:从原理到落地,构建下一代智能业务引擎


引言

1.1 痛点引入

在数字化转型的下半场,企业的业务流程已经从“人工串联的零散工具”阶段,走到了“RPA规则驱动的硬自动化”阶段——但RPA的局限性正日益凸显:**只能处理严格结构化、无歧义的“确定性任务”,当流程涉及模糊的自然语言交互、复杂的多步骤决策、突发异常处理、跨工具的上下文传递时,规则就成了枷锁:

  • 客户服务RPA识别不了手写体报销单的“手写备注说明”,必须安排财务二次审核;
  • 内容创作RPA只能填充预设模板,无法根据用户反馈实时调整视频脚本的情感倾向;
  • 研发运维RPA检测到服务器告警后,只会机械重启,不会分析日志、调用监控工具定位根因、通知对应研发同事跟进、甚至写好修复建议的邮件;
  • 跨部门的“市场调研→竞品分析→产品迭代→需求评审→研发测试→上线运营”长流程,虽然每个环节都有单点工具,但工具间的衔接仍需人工协调,信息失真率高、响应周期长(比如一个中型互联网公司的中小功能上线流程,可能需要1-2周才能完成前期调研,其中70%的时间是在“发邮件要数据、等数据、整理数据”。

这些“规则无法覆盖的“灰色地带”,占企业日常业务流程的60%-80%——而这正是AI Agent驱动的智能工作流自动化的“主战场”。

1.2 解决方案概述

AI Agent(人工智能代理)驱动的智能工作流自动化,是将“大语言模型(LLM)为核心决策大脑,结合RPA(机器人流程自动化)为手脚,知识库(Vector DB + RAG)为知识储备,API为能力扩展,工具调用(Tool Use)为交互手段,形成**具备“感知-决策-行动-反思”的闭环系统”闭环系统”具备“感知-决策-行动-反思-优化”的自主闭环能力的新一代自动化系统。

它与传统RPA的核心区别在于:

  1. 决策方式: 从“硬规则”到“LLM自主推理决策”——可以处理非结构化数据、模糊指令、多步骤规划;
  2. 知识获取: 从“预设知识库/固定数据源”到“实时检索+实时学习(微调/RAG)”——可以动态调用最新的业务知识、行业数据、甚至实时搜索结果;
  3. 能力边界: 从“固定工具集”到“可扩展的API工具生态”——可以调用任意开放的第三方API、内部系统的私有化API、甚至编写简单的代码片段;
  4. 自我进化: 从“无反馈”到“闭环反思优化”——可以根据任务执行结果、用户反馈、历史经验优化后续的决策和行动;
  5. 交互方式: 从“预设触发条件”到“自然语言交互”——可以通过文字、语音、甚至图片/视频的自然语言指令直接启动任务。

1.3 最终效果展示(虚拟但可信的场景模拟)

我们先来看一个由AI Agent驱动的智能“市场调研→竞品分析→产品周报”的完整工作流,感受一下它的效率提升:

场景: 某中型电商公司的产品经理小李,今天早上一上班,通过企业内部的“智能助手”(本质是一个AI Agent),发了一条自然语言指令:

“你好,请帮我完成一份关于‘Z世代女性美妆小样市场的上周竞品分析周报,要求覆盖完美日记、花西子、珂拉琪三个国内头部品牌,重点关注:

  1. 上周各品牌在小红书、抖音、快手的投放数据(投放量、KOL层级分布、平均互动率);
  2. 上周各品牌天猫旗舰店的小样销售数据(销量TOP3的小样、客单价、复购率);
  3. 上周各品牌小样的用户负面评价关键词TOP10;
  4. 基于以上数据,给出3条针对我们品牌(假设是‘初颜’)的Z世代女性美妆小样市场的产品优化建议和投放策略建议;
  5. 把报告整理成符合公司规范的PPT,第一页放报告标题和我的名字,最后一页放公司logo和联系方式。

传统流程的时间成本: 小李需要发邮件给市场投放部要小红书/抖音/快手的投放数据(等2小时),发邮件给电商运营部要天猫旗舰店的销售数据(等4小时),自己爬取或者找客服要三个品牌的用户负面评价(等6小时),整理数据、分析数据、写建议(等8小时),做PPT(等4小时)——总时间成本:至少24小时,甚至更久

AI Agent驱动的流程的时间成本: 智能助手(AI Agent)收到指令后,自主分解任务、调用对应的工具(内部API、RAG知识库、爬虫API、PPT生成API)、执行任务、反思优化——总时间成本:3分27秒

智能助手的执行过程(简化版)如下:

  1. 感知与理解: 理解小李的指令,识别出任务目标是“Z世代女性美妆小样市场上周竞品分析周报”,覆盖品牌是“完美日记、花西子、珂拉琪”,重点关注的5个维度,输出是“符合公司规范的PPT”。
  2. 任务分解与规划: 将大任务分解成12个子任务,比如:
    a. 从公司内部的“数据中台API”获取上周三个品牌的小红书/抖音/快手的投放数据;
    b. 从公司内部的“电商数据API”获取上周三个品牌的天猫旗舰店小样销售数据;
    c. 调用“小红书/抖音/快手的公开爬虫API”(或者公司内部的“社媒分析API”)获取上周三个品牌小样的用户评论数据;
    d. 调用“情感分析API”(或者LLM自己的情感分析能力)对用户评论数据进行情感分类和关键词提取;
    e. 从公司内部的“RAG知识库”中检索“公司产品周报PPT规范”、“初颜品牌的定位、目标用户、现有产品”、“Z世代女性美妆小样市场的历史数据”;
    f. 基于所有数据,LLM自主推理出3条产品优化建议和3条投放策略建议;
    g. 调用“PPT生成API”(比如Microsoft 365 Copilot的API、或者Canva的API)生成符合公司规范的PPT;
    h. 检查PPT是否符合要求,比如第一页是否有标题和小李的名字,最后一页是否有公司logo和联系方式;
    i. 如果有不符合要求的地方,调整PPT;
    j. 把PPT发送给小李;
    k. 等待小李的反馈;
    l. 如果小李有反馈,根据反馈调整PPT。
  3. 行动与执行: 按照任务分解的顺序,调用对应的工具,执行子任务,比如:
    a. 调用数据中台API,拿到投放数据;
    b. 调用电商数据API,拿到销售数据;
    c. 调用社媒分析API,拿到评论数据;
    d. 用LLM自己的情感分析能力,对评论数据进行情感分类和关键词提取;
    e. 检索RAG知识库,拿到公司PPT规范、初颜品牌信息、历史数据;
    f. 推理出产品优化建议和投放策略建议;
    g. 调用PPT生成API,生成PPT;
    h. 检查PPT,发现第一页的标题后面没有“上周”两个字,调整PPT;
    i. 把PPT发送给小李。
  4. 反思与优化: 记录这次任务的执行过程,比如:
    a. 任务分解是否合理?是否可以优化顺序?
    b. 调用工具是否成功?有没有遇到什么问题?
    c. 输出结果是否符合要求?有没有需要改进的地方?
    d. 把这次任务的执行过程和结果存储到“Agent记忆库”中,以便后续优化。

小李收到PPT后,发现数据准确、分析到位、建议合理、PPT符合公司规范——他只花了5分钟修改了几个小细节,就把报告发给了老板。

这就是AI Agent驱动的智能工作流自动化的威力:把人从“繁琐的、重复的、低价值的”工作中解放出来,让人专注于“创造性的、战略性的、高价值的”工作


2. 准备工作:从入门到实操的必备条件

在我们深入探讨AI Agent驱动的智能工作流自动化的原理和落地之前,我们需要先做一些准备工作,包括:环境/工具的准备、基础知识的准备。

2.1 环境/工具的准备

要构建一个简单的AI Agent驱动的智能工作流自动化系统,我们需要准备以下环境/工具:

2.1.1 开发环境
  • 操作系统: Windows 10/11、macOS 12+、Linux(Ubuntu 20.04+ 推荐);
  • 编程语言: Python 3.9+(Python是AI领域的“事实标准”,几乎所有的LLM API、Agent框架、Vector DB都有Python的SDK);
  • Python包管理工具: pip 22.0+ 或者 conda 23.0+(推荐使用conda创建虚拟环境,避免依赖冲突);
  • 代码编辑器/IDE: VS Code(推荐,有丰富的Python插件、LLM插件)、PyCharm;
  • Git: 用于版本控制。
2.1.2 核心技术栈

我们推荐使用以下开源/商业化的技术栈(这些技术栈都是目前业界最流行、最成熟、最易用的):

技术分类 开源推荐方案 商业化推荐方案 用途说明
核心决策大脑(LLM) Llama 3.1 70B/400B(Meta)、Qwen 2.5 72B(阿里云)、Claude 3 Opus/Haiku(Anthropic开源API?不,Claude 3是商业化的,开源的Llama 3.1 70B/400B、Qwen 2.5 72B、Mixtral 8x7B/8x22B) GPT-4o/GPT-4o mini(OpenAI)、Claude 3.5 Sonnet(Anthropic)、Qwen 2.5 Turbo(阿里云)、Gemini 1.5 Pro/Flash(Google) 用于自然语言理解、任务分解、推理决策、反思优化。
Agent框架 LangChain(Python/JS,最流行的开源Agent框架)、AutoGPT(最早的开源自主Agent框架)、CrewAI(用于构建多Agent协作系统)、LlamaIndex(原名GPT Engineer,原名GPT Engineer是构建专注于RAG+Agent的框架) LangSmith(LangChain的商业化平台,用于Agent的开发、测试、监控、部署)、OpenAI Assistants API(OpenAI的商业化Agent平台,封装了RAG、工具调用、记忆库)、Microsoft 365 Copilot Studio(Microsoft的商业化Agent平台,用于构建企业内部的智能助手)、Coze(字节跳动的商业化Agent平台,零代码/低代码构建Agent) 用于快速构建Agent,封装了LLM调用、工具调用、记忆库、RAG等能力。
记忆库(Memory) LangChain的ConversationBufferMemory、ConversationSummaryMemory、ConversationBufferWindowMemory、VectorStoreRetrieverMemory、SQLite(存储结构化的历史对话数据)、PostgreSQL(存储结构化的历史对话数据) LangSmith的Memory Store、OpenAI Assistants API的Memory Store、Microsoft 365 Copilot Studio的Memory Store 用于存储Agent的历史对话数据、任务执行数据、反思优化数据,让Agent具备“记忆”能力。
知识储备(RAG) FAISS(Meta的开源向量数据库,适合本地开发)、Chroma(最流行的开源向量数据库,适合本地开发)、Pinecone(商业化的向量数据库,适合生产环境)、Weaviate(开源+商业化的向量数据库)、Qdrant(开源+商业化的向量数据库)、FAISS)、ChromaDB LangChain的RAG、LlamaIndex的RAG、OpenAI Assistants API的Retrieval、Pinecone+LangChain/LlamaIndex 用于存储和检索企业内部的私有知识、历史数据、行业数据,让Agent具备“调用私有知识”的能力。
手脚(RPA) Playwright(Microsoft的开源浏览器自动化工具,适合网页自动化)、Selenium(最流行的开源浏览器自动化工具)、PyAutoGUI(开源的桌面自动化工具,适合桌面应用自动化)、UiPath(商业化的RPA平台,适合企业级RPA)、Automation Anywhere(商业化的RPA平台)、Blue Prism(商业化的RPA平台) 用于执行网页自动化、桌面应用自动化、桌面操作自动化,让Agent具备“动手能力”。
交互方式 FastAPI(Python的开源Web框架,用于构建Agent的API接口)、Streamlit(Python的开源Web框架,用于快速构建Agent的Web界面)、Gradio(Python的开源Web框架,用于快速构建Agent的Web界面)、Telegram Bot API(用于构建Telegram上的Agent)、微信公众号/企业微信/飞书/钉钉的API(用于构建企业内部IM上的Agent) 用于构建Agent的交互界面,让用户可以通过自然语言指令与Agent交互。
部署环境 Docker(用于容器化部署Agent)、Kubernetes(用于集群化部署Agent,适合生产环境)、AWS EC2/Sagemaker、阿里云ECS/PAI、Google Cloud Compute Engine/Vertex AI、Microsoft Azure VM/OpenAI Studio 用于部署Agent,让Agent可以在生产环境中稳定运行。
2.1.3 环境安装步骤(以Ubuntu 20.04+、conda、Python 3.10、VS Code为例)

我们将在后续的“核心步骤”章节中详细讲解每个技术栈的安装和使用方法,这里先给出一个快速的环境安装步骤:

步骤1:安装conda

首先,我们需要安装conda,用于创建虚拟环境和管理Python依赖包。我们可以从conda的官网下载Miniconda(轻量级的conda,只包含conda和Python):

# 下载Miniconda for Linux x86_64
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

# 安装Miniconda
bash Miniconda3-latest-Linux-x86_64.sh

# 按照提示完成安装,安装完成后,重启终端或者执行以下命令激活conda
source ~/.bashrc

# 验证conda是否安装成功
conda --version
步骤2:创建虚拟环境

然后,我们需要创建一个名为ai_agent_workflow的虚拟环境,Python版本为3.10:

# 创建虚拟环境
conda create -n ai_agent_workflow python=3.10 -y

# 激活虚拟环境
conda activate ai_agent_workflow
步骤3:安装Python依赖包

接下来,我们需要安装一些基础的Python依赖包,比如:langchainlangchain-openailangchain-communitychromadbplaywrightfastapistreamlitgradiopython-dotenv

# 安装基础的Python依赖包
pip install langchain langchain-openai langchain-community chromadb playwright fastapi streamlit gradio python-dotenv

# 安装playwright的浏览器驱动
playwright install
步骤4:安装VS Code和相关插件

然后,我们需要安装VS Code和相关的Python插件、LLM插件:

  1. 从VS Code的官网下载VS Code for Linux x86_64:https://code.visualstudio.com/
  2. 安装VS Code;
  3. 打开VS Code,安装以下插件:
    • Python(Microsoft官方的Python插件,用于Python代码的编写、调试、运行);
    • Pylance(Microsoft官方的Python语言服务器,用于Python代码的智能提示、类型检查);
    • LangChain Snippets(LangChain的代码片段插件,用于快速编写LangChain代码);
    • GitHub Copilot(GitHub的AI代码助手插件,用于快速编写代码、生成代码、解释代码);
    • Copilot Chat(GitHub的AI代码聊天插件,用于与AI聊天、解决代码问题)。
步骤5:申请API密钥

最后,我们需要申请一些API密钥,比如:OpenAI API密钥、阿里云通义千问API密钥、Anthropic Claude API密钥、Google Gemini API密钥、Pinecone API密钥(可选)、Weaviate API密钥(可选):

  1. OpenAI API密钥: 从OpenAI的官网申请:https://platform.openai.com/api-keys
  2. 阿里云通义千问API密钥: 从阿里云的官网申请:https://dashscope.console.aliyun.com/apiKey
  3. Anthropic Claude API密钥: 从Anthropic的官网申请:https://console.anthropic.com/settings/keys
  4. Google Gemini API密钥: 从Google AI Studio的官网申请:https://aistudio.google.com/app/apikey
  5. Pinecone API密钥: 从Pinecone的官网申请:https://app.pinecone.io/
  6. Weaviate API密钥: 从Weaviate的官网申请:https://console.weaviate.cloud/

申请完API密钥后,我们需要创建一个.env文件,用于存储这些API密钥,避免将API密钥硬编码到代码中(安全起见):

# 创建.env文件
touch .env

# 打开.env文件,添加以下内容(替换为你自己的API密钥)
OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
DASHSCOPE_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
ANTHROPIC_API_KEY=sk-ant-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
GOOGLE_API_KEY=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
PINECONE_API_KEY=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
WEAVIATE_API_KEY=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

2.2 基础知识的准备

要理解和构建AI Agent驱动的智能工作流自动化系统,我们需要具备以下基础知识:

2.2.1 Python编程基础

Python是AI领域的“事实标准”,几乎所有的LLM API、Agent框架、Vector DB都有Python的SDK。我们需要掌握以下Python编程基础:

  • Python的基本语法:变量、数据类型、运算符、条件语句、循环语句、函数、类、对象、继承、多态;
  • Python的常用内置模块:os、sys、time、datetime、json、csv、requests、urllib;
  • Python的常用第三方模块:numpy、pandas、matplotlib、seaborn(可选,用于数据处理和可视化)。

如果您还不熟悉Python编程基础,可以参考以下学习资源:

  • Python官方教程: https://docs.python.org/zh-cn/3/tutorial/index.html
  • 廖雪峰的Python教程: https://www.liaoxuefeng.com/wiki/1016959663602400
  • **Python Crash Course, 2nd Edition:https://nostarch.com/pythoncrashcourse2e
  • Coursera的Python for Everybody课程: https://www.coursera.org/specializations/python
2.2.2 大语言模型(LLM)基础

大语言模型(LLM)是AI Agent的核心决策大脑,我们需要掌握以下LLM基础:

  • 什么是LLM?LLM的发展历史;
  • LLM的工作原理:Transformer架构、自注意力机制、预训练、微调、提示工程(Prompt Engineering);
  • 什么是Token?Token的计算方法;
  • LLM的应用场景:文本生成、文本摘要、文本翻译、情感分析、问答系统、代码生成;
  • 常用的LLM API的使用方法:OpenAI API、阿里云通义千问API、Anthropic Claude API、Google Gemini API。

如果您还不熟悉LLM基础,可以参考以下学习资源:

  • OpenAI官方文档: https://platform.openai.com/docs/introduction
  • 阿里云通义千问官方文档: https://help.aliyun.com/zh/dashscope/
  • Anthropic Claude官方文档: https://docs.anthropic.com/claude/
  • Google Gemini官方文档: https://ai.google.dev/gemini-api/docs
  • Attention Is All You Need论文: https://arxiv.org/abs/1706.03762
  • Stanford CS224N: Natural Language Processing with Deep Learning课程: https://web.stanford.edu/class/cs224n/
  • Coursera的Generative AI with Large Language Models课程: https://www.coursera.org/learn/generative-ai-with-llms
2.2.3 提示工程(Prompt Engineering)基础

提示工程(Prompt Engineering)是与LLM交互的关键技术,我们需要掌握以下提示工程基础:

  • 什么是提示工程?提示工程的重要性;
  • 提示的基本结构:角色设定(System Prompt)、任务描述(Task Description)、输入数据(Input Data)、输出格式(Output Format)、示例(Few-Shot Examples);
  • 常用的提示工程技巧:清晰明确的指令、提供上下文信息、指定输出格式、使用Few-Shot Examples、使用思维链(Chain of Thought, CoT)、使用思维树(Tree of Thought, ToT)、使用自我一致性(Self-Consistency)、使用检索增强生成(Retrieval-Augmented Generation, RAG);
  • 提示工程的最佳实践。

如果您还不熟悉提示工程基础,可以参考以下学习资源:

  • OpenAI官方提示工程指南: https://platform.openai.com/docs/guides/prompt-engineering
  • Anthropic Claude官方提示工程指南: https://docs.anthropic.com/claude/docs/prompt-engineering
  • Prompt Engineering Guide: https://www.promptingguide.ai/
  • Learn Prompting: https://learnprompting.org/
  • Chain-of-Thought Prompting Elicits Reasoning in Large Language Models论文: https://arxiv.org/abs/2201.11903
  • Tree of Thoughts: Deliberate Problem Solving with Large Language Models论文: https://arxiv.org/abs/2305.10601
2.2.4 LangChain基础

LangChain是目前最流行的开源Agent框架,我们需要掌握以下LangChain基础:

  • 什么是LangChain?LangChain的核心组件;
  • LangChain的核心组件:LLMs、Chat Models、Prompt Templates、Chains、Agents、Tools、Memory、Vector Stores、Retrievers、Callbacks;
  • LangChain的基本使用方法:调用LLMs、调用Chat Models、使用Prompt Templates、构建Chains、构建Agents、使用Tools、使用Memory、使用Vector Stores、使用Retrievers。

如果您还不熟悉LangChain基础,可以参考以下学习资源:

  • LangChain官方文档: https://python.langchain.com/docs/get_started/introduction
  • LangChain官方教程: https://python.langchain.com/docs/tutorials/
  • LangChain GitHub仓库: https://github.com/langchain-ai/langchain
  • DeepLearning.AI的LangChain for LLM Application Development课程: https://www.deeplearning.ai/short-courses/langchain-for-llm-application-development/
  • DeepLearning.AI的LangChain: Chat with Your Data课程: https://www.deeplearning.ai/short-courses/langchain-chat-with-your-data/

3. 核心概念与问题背景:从规则自动化到自主智能自动化的演变

在深入探讨AI Agent驱动的智能工作流自动化的原理和落地之前,我们需要先明确一些核心概念,了解问题的背景和演变历史。

3.1 核心概念

3.1.1 工作流(Workflow)

核心概念: 工作流是指一系列相互关联的任务,按照一定的规则和顺序,自动或半自动地完成,以实现一个特定的业务目标。

概念结构与核心要素组成:

  • 任务(Task): 工作流的最小执行单元,比如“发送一封邮件”、“处理一个订单”、“生成一份报告”;
  • 规则(Rule): 任务之间的衔接规则,比如“当任务A完成后,执行任务B”、“当条件C满足时,执行任务D,否则执行任务E”;
  • 参与者(Participant): 执行任务的主体,比如“人”、“系统”、“机器人”;
  • 数据(Data): 任务执行过程中需要的输入数据和产生的输出数据,比如“客户信息”、“订单信息”、“报告内容”;
  • 业务目标(Business Goal): 工作流要实现的最终目标,比如“提高客户满意度”、“降低运营成本”、“提高工作效率”。

概念之间的关系:
任务是工作流的最小执行单元,规则是任务之间的衔接规则,参与者是执行任务的主体,数据是任务执行过程中需要的输入数据和产生的输出数据,业务目标是工作流要实现的最终目标。它们之间的关系可以用以下ER实体关系图表示:

contains

uses

involves

processes

follows

executed_by

uses_input

produces_output

WORKFLOW

string

id

PK

工作流唯一标识符

string

name

工作流名称

string

description

工作流描述

string

business_goal

工作流业务目标

datetime

created_at

创建时间

datetime

updated_at

更新时间

TASK

string

id

PK

任务唯一标识符

string

workflow_id

FK

所属工作流ID

string

name

任务名称

string

description

任务描述

string

type

任务类型:人工/系统/机器人

int

order

任务执行顺序

datetime

created_at

创建时间

datetime

updated_at

更新时间

RULE

string

id

PK

规则唯一标识符

string

workflow_id

FK

所属工作流ID

string

name

规则名称

string

description

规则描述

string

condition

规则条件

string

action

规则动作

datetime

created_at

创建时间

datetime

updated_at

更新时间

PARTICIPANT

string

id

PK

参与者唯一标识符

string

name

参与者名称

string

type

参与者类型:人/系统/机器人

string

contact_info

联系方式

datetime

created_at

创建时间

datetime

updated_at

更新时间

DATA

string

id

PK

数据唯一标识符

string

name

数据名称

string

type

数据类型:结构化/非结构化/半结构化

string

source

数据来源

datetime

created_at

创建时间

datetime

updated_at

更新时间

3.1.2 规则驱动的工作流自动化(RPA)

核心概念: 规则驱动的工作流自动化(Robotic Process Automation, RPA)是指使用软件机器人(或者称为“RPA机器人”)来模拟人类用户的操作,自动执行严格结构化、无歧义的“确定性任务”,比如“填写表单”、“复制粘贴数据”、“发送邮件”、“处理发票”。

问题背景: 在传统的工作流中,很多任务都是由人工来执行的,这些任务通常是“繁琐的、重复的、低价值的”,占用了大量的人力成本和时间成本,而且容易出错。比如,财务部门的发票处理工作,需要人工从发票中提取数据、录入到财务系统中、审核发票的真实性和合法性——一个中型企业的财务部门,可能需要安排10-20个员工专门处理发票,每天处理几百甚至上千张发票,人力成本高、时间成本长、出错率高。

问题描述: 规则驱动的工作流自动化(RPA)可以解决传统工作流中“繁琐的、重复的、低价值的”人工任务的问题,但它也有很大的局限性:

  1. 只能处理严格结构化的数据: RPA机器人只能处理Excel表格、CSV文件、数据库等严格结构化的数据,无法处理手写体、图片、视频、音频、自然语言文本等非结构化或半结构化的数据;
  2. 只能处理无歧义的“确定性任务”: RPA机器人只能执行预设的规则,无法处理模糊的指令、复杂的多步骤决策、突发异常处理;
  3. 规则维护成本高: 当业务流程发生变化时,需要重新编写或修改RPA机器人的规则,维护成本高、周期长;
  4. 跨工具的上下文传递困难: RPA机器人很难在不同的工具之间传递上下文信息,比如“从Excel表格中提取数据,录入到财务系统中,然后从财务系统中提取数据,生成一份报告,最后把报告发送给老板——虽然每个环节都可以由RPA机器人执行,但工具间的上下文传递仍需人工协调;
  5. 无法自我进化: RPA机器人不会根据任务执行结果、用户反馈、历史经验优化后续的决策和行动。
3.1.3 人工智能代理(AI Agent)

核心概念: 人工智能代理(Artificial Intelligence Agent, AI Agent)是指一个能够感知环境、理解环境、做出决策、采取行动、并与环境交互的自主实体。在AI Agent驱动的智能工作流自动化中,AI Agent的核心决策大脑是大语言模型(LLM),手脚是RPA机器人、API调用等,知识储备是Vector DB + RAG,记忆库是存储历史对话数据、任务执行数据、反思优化数据。

概念结构与核心要素组成:
根据Russell和Norvig在《人工智能:一种现代方法》(Artificial Intelligence: A Modern Approach)一书中的定义,一个完整的AI Agent应该具备以下四个核心要素:

  1. 感知(Perception): 感知环境,获取环境信息,比如通过自然语言文本、图片、视频、音频、传感器数据等;
  2. 推理决策(Reasoning & Decision Making): 基于感知到的环境信息、记忆库中的历史信息、知识储备中的知识信息,进行推理和决策,制定行动计划;
  3. 行动(Action): 执行推理决策制定的行动计划,采取行动,改变环境,比如通过API调用、RPA机器人、代码执行、自然语言交互等;
  4. 记忆(Memory): 存储感知到的环境信息、推理决策的过程和结果、行动的过程和结果,以便后续的推理和决策。

在AI Agent驱动的智能工作流自动化中,我们通常还会添加一个核心要素:
5. 反思优化(Reflection & Optimization): 根据任务执行结果、用户反馈、历史经验,反思之前的推理决策和行动,优化后续的推理决策和行动。

因此,AI Agent驱动的智能工作流自动化中的AI Agent的核心要素组成可以用以下“感知-推理决策-行动-记忆-反思优化”的自主闭环架构图表示:

输入自然语言指令/环境信息

处理后的感知信息

历史对话数据/任务执行数据/反思优化数据

处理后的感知信息

私有知识/行业数据/实时搜索结果

行动计划

执行结果/环境变化

执行结果

历史数据

优化后的策略/提示/规则

优化后的记忆

用户/环境

感知模块
Perception

记忆模块
Memory

推理决策模块
Reasoning & Decision Making

知识储备模块
Knowledge Base
Vector DB + RAG

行动模块
Action
API调用/RPA机器人/代码执行

反思优化模块
Reflection & Optimization

3.1.4 检索增强生成(Retrieval-Augmented Generation, RAG)

核心概念: 检索增强生成(Retrieval-Augmented Generation, RAG)是指在大语言模型(LLM)生成文本之前,先从一个外部的知识储备库(比如Vector DB)中检索出与输入问题相关的知识信息,然后将检索到的知识信息与输入问题一起输入到LLM中,让LLM基于检索到的知识信息生成更准确、更可靠、更有针对性的文本。

问题背景: 大语言模型(LLM)虽然具有强大的文本生成能力和推理能力,但它也有很大的局限性:

  1. 知识截止日期: LLM的知识是基于预训练数据的,预训练数据有一个截止日期,比如GPT-4o的知识截止日期是2024年5月,Claude 3.5 Sonnet的知识截止日期是2024年4月——LLM无法知道知识截止日期之后发生的事情;
  2. 私有知识缺失: LLM的预训练数据通常是公开的互联网数据,无法包含企业内部的私有知识、历史数据、敏感数据——LLM无法回答与企业内部的私有知识相关的问题;
  3. 幻觉(Hallucination): LLM有时会生成一些看似合理但实际上是错误的、不存在的信息——这就是所谓的“幻觉”问题,幻觉问题会严重影响LLM的可靠性和可信度。

问题解决: 检索增强生成(RAG)可以解决LLM的知识截止日期、私有知识缺失、幻觉问题:

  1. 知识截止日期问题: RAG可以从实时搜索结果中检索出与输入问题相关的最新知识信息,让LLM知道知识截止日期之后发生的事情;
  2. 私有知识缺失问题: RAG可以从企业内部的Vector DB中检索出与输入问题相关的私有知识、历史数据、敏感数据,让LLM回答与企业内部的私有知识相关的问题;
  3. 幻觉问题: RAG可以让LLM基于检索到的真实的、可靠的知识信息生成文本,减少LLM生成幻觉的概率。

概念结构与核心要素组成:
检索增强生成(RAG)的核心要素组成可以用以下架构图表示:

向量索引

检索到的相关知识信息

用户输入问题

拼接后的输入
用户输入问题 + 检索到的相关知识信息

生成的文本

用户输入问题

检索模块
Retrieval

知识储备库
Vector DB
私有知识/行业数据/实时搜索结果

拼接模块
Augmentation

大语言模型
LLM

用户输出答案

3.1.5 工具调用(Tool Use)

核心概念: 工具调用(Tool Use)是指大语言模型(LLM)根据用户的输入问题或任务,自主地选择、调用、使用外部的工具(比如API、RPA机器人、代码执行环境、数据库等),来获取更多的信息、执行更多的操作、完成更多的任务。

问题背景: 大语言模型(LLM)虽然具有强大的文本生成能力和推理能力,但它也有很大的局限性:

  1. 无法获取实时信息: LLM的知识是基于预训练数据的,无法获取实时信息,比如“今天的天气怎么样?”、“现在的股票价格是多少?”;
  2. 无法执行复杂的数学计算: LLM虽然可以执行简单的数学计算,但对于复杂的数学计算,比如“求解微分方程”、“计算大整数的乘积”,LLM的计算结果通常是不准确的;
  3. 无法执行代码: LLM虽然可以生成代码,但无法直接执行代码,比如“编写一个Python脚本来爬取某个网站的数据”;
  4. 无法操作外部系统: LLM无法直接操作外部系统,比如“发送一封邮件”、“处理一个订单”、“生成一份报告”。

问题解决: 工具调用(Tool Use)可以解决LLM的无法获取实时信息、无法执行复杂的数学计算、无法执行代码、无法操作外部系统的问题:

  1. 无法获取实时信息: LLM可以调用天气API、股票API来获取实时信息;
  2. 无法执行复杂的数学计算: LLM可以调用计算器API、Python代码执行环境来执行复杂的数学计算;
  3. 无法执行代码: LLM可以调用Python代码执行环境、JavaScript代码执行环境来执行代码;
  4. 无法操作外部系统: LLM可以调用邮件API、订单API、报告生成API来操作外部系统。

3.2 问题演变发展历史:从规则自动化到自主智能自动化的四个阶段

工作流自动化的发展历史可以分为四个阶段:人工工作流阶段规则驱动的工作流自动化阶段(传统RPA)AI增强的规则驱动的工作流自动化阶段(AI+RPA)AI Agent驱动的智能工作流自动化阶段(自主智能自动化)

我们可以用以下markdown表格来总结这四个阶段的核心特点、核心技术、适用场景、优缺点:

阶段 时间范围 核心特点 核心技术 适用场景 优点 缺点
人工工作流阶段 古代-2010年左右 完全由人工来执行工作流中的所有任务,工具间的衔接也由人工来协调。 纸张、Excel表格、Word文档、电子邮件、电话。 所有工作流。 灵活性高,可以处理任何复杂的任务。 人力成本高、时间成本长、出错率高、效率低、信息失真率高。
规则驱动的工作流自动化阶段(传统RPA) 2010年左右-2022年左右 使用软件机器人来模拟人类用户的操作,自动执行严格结构化、无歧义的“确定性任务”。 RPA机器人(UiPath、Automation Anywhere、Blue Prism、Playwright、Selenium)、BPM(业务流程管理)系统。 严格结构化、无歧义的“确定性任务”,比如“填写表单”、“复制粘贴数据”、“发送邮件”、“处理发票”。 人力成本低、时间成本短、出错率低、效率高、信息失真率低。 只能处理严格结构化的数据、只能处理无歧义的“确定性任务”、规则维护成本高、跨工具的上下文传递困难、无法自我进化。
AI增强的规则驱动的工作流自动化阶段(AI+RPA) 2022年左右-2023年左右 在传统RPA的基础上,增加了一些AI能力,比如OCR(光学字符识别)、NLP(自然语言处理)、计算机视觉,来处理非结构化或半结构化的数据。 RPA机器人、OCR、NLP、计算机视觉、BPM系统。 包含一些非结构化或半结构化数据的“确定性任务”,比如“处理手写体发票”、“识别身份证信息”、“分析客户反馈的情感”。 可以处理一些非结构化或半结构化的数据,人力成本更低、时间成本更短、出错率更低、效率更高。 仍然只能处理“确定性任务”、规则维护成本仍然高、跨工具的上下文传递仍然困难、无法自我进化。
AI Agent驱动的智能工作流自动化阶段(自主智能自动化) 2023年左右-至今 使用AI Agent来自主地感知环境、理解环境、做出决策、采取行动、反思优化,自动执行“不确定性任务”。 LLM(GPT-4o、Claude 3.5 Sonnet、Qwen 2.5、Llama 3.1)、Agent框架(LangChain、CrewAI、AutoGPT、OpenAI Assistants API)、Vector DB(Chroma、Pinecone、Weaviate)、RAG、Tool Use、Memory、Reflection、RPA机器人、API。 包含非结构化或半结构化数据、模糊指令、复杂多步骤决策、突发异常处理的“不确定性任务”,比如“市场调研→竞品分析→产品周报”、“客户服务全流程自动化”、“研发运维全流程自动化”、“财务报销全流程自动化”。 可以处理非结构化或半结构化的数据、可以处理模糊指令、可以处理复杂多步骤决策、可以处理突发异常处理、规则维护成本低、跨工具的上下文传递容易、可以自我进化、灵活性高、效率高、成本低。 技术门槛相对较高、LLM的成本相对较高、LLM的推理速度相对较慢、LLM的幻觉问题仍然存在、需要大量的私有知识储备。

3.3 核心属性维度对比:传统RPA vs AI+RPA vs AI Agent驱动的智能工作流自动化

为了更清晰地对比这三种工作流自动化技术,我们可以从以下几个核心属性维度进行对比:

核心属性维度 传统RPA AI+RPA AI Agent驱动的智能工作流自动化
决策方式 硬规则(if-else、switch-case) 硬规则+简单AI能力(OCR、NLP、计算机视觉) LLM自主推理决策(Chain of Thought、Tree of Thought、Self-Consistency)
数据处理能力 只能处理严格结构化的数据 可以处理严格结构化+非结构化/半结构化的数据 可以处理任意类型的数据(严格结构化、非结构化、半结构化、图片、视频、音频)
任务处理能力 只能处理无歧义的“确定性任务” 可以处理包含一些非结构化/半结构化数据的“确定性任务” 可以处理“不确定性任务”(模糊指令、复杂多步骤决策、突发异常处理)
规则维护成本 高(业务流程变化时,需要重新编写或修改规则) 较高(业务流程变化时,需要重新编写或修改规则+重新训练AI模型) 低(只需要修改提示词、添加新的工具、添加新的知识储备)
跨工具的上下文传递能力 困难(需要人工协调或者预设复杂的规则) 较困难(需要人工协调或者预设复杂的规则) 容易(通过Memory模块存储和传递上下文信息)
自我进化能力 无(不会根据任务执行结果、用户反馈、历史经验优化) 无(不会根据任务执行结果、用户反馈、历史经验优化,除非重新训练AI模型) 有(通过Reflection模块根据任务执行结果、用户反馈、历史经验优化)
交互方式 预设触发条件(时间触发、事件触发) 预设触发条件(时间触发、事件触发) 自然语言交互(文字、语音、图片、视频)
灵活性 低(只能执行预设的规则) 较低(只能执行预设的规则+简单的AI能力) 高(可以自主地选择、调用、使用任意的工具,完成任意的任务)
效率 高(对于严格结构化、无歧义的“确定性任务”) 很高(对于包含一些非结构化/半结构化数据的“确定性任务”) 极高(对于“不确定性任务”)
成本 中等(RPA机器人的许可费用+规则开发费用+规则
Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐