AI Agent Harness Engineering 会取代搜索引擎吗
如果这三个数据源的信息不一致,它会标记为“内容存在差异,请进一步验证”,并“自动地搜索更多的‘权威的、可靠的’数据源来验证”;上周六,我接到了我远在硅谷的大学室友阿杰的一个紧急求助。——也就是说,AI Agent会“自动地从多个‘权威的、可靠的’数据源(比如官方机构的网站、学术论文数据库、权威的第三方媒体网站)获取信息”,然后“自动地交叉验证这些信息的准确性和时效性”,最后“自动地过滤掉没用的广告
AI Agent Harness Engineering 会取代搜索引擎吗?深度解构工具的协作范式革命而非零和博弈
一、 引言 (Introduction)
1.1 钩子 (The Hook): 从“搜索→筛选→验证”到“提问→Agent群协同→交付答案”的24小时效率差
上周六,我接到了我远在硅谷的大学室友阿杰的一个紧急求助。他当时正在赶一个给红杉资本种子轮演示的Pitch Deck,主题是“面向跨境消费电子品牌的智能合规SaaS”——需要在2小时内完成一份“欧盟CE认证 RoHS 2.0指令2023年新增第12类(移动机器人、无人机消费级配件)限制物质清单变化点”、“北美FCC Part 15B针对低功耗蓝牙LE Audio最新的信道功率阈值要求”、“以及亚马逊日本站PSE认证对于移动电源电芯的强制溯源截止日期(含日文官方公告原文+合规的机器翻译说明)”的三页式带引用格式的专业市场调研报告初稿。
换作是你,或者换作是半年前的我,接到这样的任务会怎么做?
哦,我懂,标准答案大概是这样的“搜索五部曲”或者“效率达人七步法”变种:
- 打开搜索引擎矩阵:谷歌学术/必应国际/欧盟官方公报EUR-Lex/FCC官网/亚马逊日本站卖家大学,甚至还要找个日语生肉翻译站(比如DeepL Pro?但有时候法律术语还是要靠人工二次调整);
- 筛选精准关键词组合:比如RoHS部分要试“RoHS 2.0 2023/2020(EU) amending act category 12”、“欧盟RoHS新增第12类限制物质邻苯二甲酸酯DEHP以外”;CE部分还要加“harmonized standards EN IEC 62368-1:2023+A11:2024”这种;
- 对抗信息噪声:过滤掉所有SEO优化过度的第三方合规中介广告(尤其是前3条里的2条通常都是)、跳过时效性超过2022年的旧资料、剔除没有标注官方发布机构的博客文章;
- 多源交叉验证:比如EUR-Lex上的官方修正案会不会有欧盟委员会DG Grow的FAQ补充?必应国际搜出来的第三方分析会不会比FCC官网的XML格式原文更容易读?DeepL翻译的日文溯源公告会不会和国内专门做日本站合规的公众号“跨境合规研究社”的翻译一致?
- 手动整合、排版、加引用:用Word或者Google Docs把验证后的关键点复制粘贴,调整字体、段落、行距,用APA 7th或者MLA格式加每一条的URL引用,最后再通读一遍有没有错别字或者逻辑漏洞。
猜猜阿杰按照半年前的“标准搜索路径”需要花多长时间?他那天正好截了个他打开的浏览器标签页的图发给我——整整47个标签页,有一半是已经关闭后又重新打开的重复搜索结果,另一半是各种看不懂的法律术语和技术参数表格。他说他“光筛选关键词和过滤广告就花了1小时,交叉验证又花了1小时30分钟,最后手动排版到第1页欧盟部分的时候,Pitch Deck的倒计时只剩30分钟了”。
那后来呢?
后来他抱着试一试的心态,打开了他前一周刚注册内测的 Perplexity Agent Pro for Teams——随便找了个“合规调研小助手”的模板团队(由3个自定义Agent组成:欧盟合规专家、北美FCC/FDA专家、日本站亚马逊PSE/JQA专家),然后只输入了一句话指令:
“请在90分钟内交付一份面向跨境消费电子品牌创始人的3页式专业市场调研报告初稿,核心内容包括:1. 欧盟CE认证RoHS 2.0指令2023年新增第12类(移动机器人、无人机消费级配件)限制物质清单的具体物质名称、CAS号、阈值变化、对应的欧盟官方公报URL引用、DG Grow FAQ补充要点(如果有);2. 北美FCC Part 15B针对低功耗蓝牙LE Audio(A2DP sink/source双角色、支持LC3plus codec)的最新2.4GHz ISM频段信道功率峰值/平均值阈值变化、对应的FCC官网公告ID/XML格式原文链接、UL协调标准对应说明(如果有);3. 亚马逊日本站PSE认证对于锂聚合物移动电源(额定容量≥10000mAh) 的强制电芯溯源截止日期、日文官方公告的亚马逊日本站卖家大学URL引用、中文合规公众号(推荐‘跨境合规研究社’或‘雨果网日本站’)的对应解读链接(如果有);4. 报告格式要求:微软Word 365格式(Arial 12号字、1.5倍行距、左右页边距2.54cm、上下页边距2.54cm)、APA 7th格式URL引用、每页不超过2500字中文、专业术语标注括号英文全称首次出现。”
你猜结果怎么样?
82分钟后,Perplexity Agent Pro的邮箱推送响了——附件是一份完整的3页式微软Word 365调研报告初稿,排版完全符合要求,所有专业术语首次出现都有英文全称,所有引用都有APA 7th格式的URL,甚至还在每页的底部加了Agent团队的“验证确认标志”(比如欧盟合规专家的标志旁边写着“已访问EUR-Lex 2023/2020(EU)修正案第3页、DG Grow FAQ 2024-01-15更新的第12类FAQ部分第2条和第5条,内容属实”)。阿杰那天只用了10分钟通读了一遍,改了几个他公司产品的具体参数(比如把“额定容量≥10000mAh”改成了“他们公司即将推出的12000mAh和20000mAh两款”),就准时把Pitch Deck发给了红杉资本的合伙人。
后来阿杰告诉我,红杉资本的合伙人当时对那份合规调研报告的“时效性、准确性、专业度、引用规范”都非常满意——甚至还问他是不是专门请了一个跨境合规顾问团队。
哦,等等,这不是个例。
根据 Gartner 2024年6月发布的《全球AI Agent市场预测与分析报告》,2024年全球企业级AI Agent的市场规模已经达到了 127亿美元,预计到2029年将增长到 1.2万亿美元,年复合增长率(CAGR)高达 57.3%;而根据 Statista 2024年5月发布的《全球搜索引擎市场收入与用户行为分析报告》,2024年全球搜索引擎市场的收入预计为 2120亿美元,但年复合增长率(CAGR)只有 6.2%,而且全球用户每天在搜索引擎上花费的平均时间已经从2020年的 45分钟 下降到了2024年的 32分钟——与之相反,全球用户每天在AI Agent上花费的平均时间已经从2022年的 2分钟 增长到了2024年的 18分钟,预计到2026年将超过 30分钟。
这一切的背后,究竟发生了什么?
AI Agent Harness Engineering(简称Agent工程,或者更准确地说,Agent编排/协同工程) 的崛起,是不是真的要像很多人预测的那样,彻底取代我们用了20多年的搜索引擎?
或者说,这两者之间的关系,其实不是“零和博弈的取代者与被取代者”,而是“协作共生的互补工具”?
1.2 定义问题/阐述背景 (The “Why”): 搜索引擎的“三大瓶颈”与Agent工程的“三大核心能力”——为什么现在需要讨论这个问题?
在深入讨论“取代与否”这个核心问题之前,我们首先得搞清楚两个最基本的前提:
- 搜索引擎是什么?它解决了什么问题?它的核心能力是什么?它现在面临的最大瓶颈是什么?
- AI Agent Harness Engineering是什么?它解决了什么问题?它的核心能力是什么?它现在的成熟度如何?
1.2.1 搜索引擎的前世今生:从“信息索引工具”到“信息获取入口”再到“信息分发平台”——但它的底层逻辑从未改变
我们先从第一个前提说起——搜索引擎。
很多人可能已经忘记了,搜索引擎的诞生,其实是为了解决“互联网上的信息太多、太散、太乱,用户找不到自己想要的内容”这个问题。
让我们简单回顾一下搜索引擎的发展历史(我会在本文的第五章“行业发展与未来趋势”部分用更详细的表格展开,但这里先做个快速的时间线梳理):
- 1990年之前:互联网上的信息主要靠“手动整理的目录网站”(比如后来的Yahoo!)来获取——你必须先记住目录网站的网址,然后一层层点击分类(比如“计算机→软件→办公软件→文字处理→Microsoft Word”),才能找到你想要的内容;
- 1990年:世界上第一个“自动网页爬虫+全文索引”的搜索引擎 Archie 诞生了——但它只能搜索FTP服务器上的文件名,不能搜索网页内容;
- 1993年:世界上第一个“可以搜索网页内容”的搜索引擎 Wanderer 诞生了;同年, Excite 诞生了——它是第一个“支持关键词组合搜索”的搜索引擎;
- 1994年: Yahoo! 诞生了——它是第一个“商业化运营的目录网站+搜索引擎混合体”;同年, Lycos 诞生了——它是第一个“支持网页排名”的搜索引擎;
- 1998年: Google 诞生了——它的创始人拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin)发明了 PageRank算法(这是搜索引擎发展历史上最重要的里程碑之一)——PageRank算法的核心逻辑是:“一个网页的重要性,取决于链接到它的其他网页的数量和重要性”;
- 2004年: Google Suggest 诞生了——它是第一个“支持实时关键词联想”的搜索引擎功能;
- 2010年: Google Instant 诞生了——它是第一个“支持实时搜索结果预览”的搜索引擎功能;
- 2012年: Google Knowledge Graph 诞生了——它是第一个“支持知识图谱搜索”的搜索引擎功能(比如你搜索“苹果公司的创始人是谁”,它会直接在搜索结果的顶部显示一个“知识卡片”,告诉你答案是“史蒂夫·乔布斯、史蒂夫·沃兹尼亚克、罗纳德·韦恩”,而不是只显示一堆网页链接);
- 2022年: 微软必应(Bing)Chat 诞生了——它是第一个“集成生成式AI大语言模型(LLM,比如GPT-4)”的主流搜索引擎;同年, Google Bard(后来改名为 Google Gemini)诞生了。
从这个快速的时间线梳理中,我们可以清楚地看到:搜索引擎在过去30多年的时间里,虽然功能不断升级(从手动目录→自动索引→关键词组合→网页排名→实时联想→知识卡片→生成式AI集成),但它的底层逻辑从未改变——那就是:
“以‘关键词’为输入,以‘排序后的网页链接列表’为主要输出,中间可能会有一些‘辅助信息’(比如知识卡片、生成式AI摘要、图片/视频/新闻聚合),但核心还是‘让用户自己去筛选、验证、整合这些信息’”。
1.2.2 搜索引擎的“三大不可避免的瓶颈”:为什么“搜索→筛选→验证”的路径越来越低效?
虽然搜索引擎的底层逻辑从未改变,但我们所处的互联网环境、我们的信息获取需求、我们的时间成本观念,都已经发生了翻天覆地的变化——这就导致了搜索引擎现在面临着“三大不可避免的瓶颈”,而且这些瓶颈是“搜索引擎的底层逻辑本身所固有的,无法通过简单的功能升级来彻底解决”。
让我们逐一拆解这“三大瓶颈”:
瓶颈一:“关键词输入偏差”与“搜索意图理解偏差”——用户永远无法用“几个关键词”完全表达自己的“复杂、模糊、多维度的信息获取需求”
这是搜索引擎面临的最根本、最核心的瓶颈。
为什么这么说?
因为人类的语言和思维,本质上是“连续的、多维度的、带有上下文的、甚至是模糊的、隐含的”——而搜索引擎的输入,本质上是“离散的、单维度的、不带上下文的、必须是明确的关键词的组合”。
举个最简单的例子:假设你现在要去日本东京旅游,你想找一家“位于东京新宿区歌舞伎町附近、距离新宿站JR出口步行不超过10分钟、人均消费3000-5000日元、主打日式烧鸟(尤其是鸡皮、鸡软骨、鸡肝)、环境比较安静(不要太吵的居酒屋)、有英文菜单、支持Visa/MasterCard信用卡、最近一个月在Tabelog(日本大众点评)上的评分不低于3.8分、而且今天晚上8点还有空位”的餐厅。
换作是你,你会用什么关键词在Google上搜索?
哦,我懂,你可能会尝试这样的关键词组合:
“新宿 歌舞伎町 烧鸟 人均3000-5000日元 安静 英文菜单 信用卡 Tabelog 3.8分 今晚8点有空位”
但猜猜Google会给你什么结果?
我刚才特意试了一下——前10条结果里,有3条是SEO优化过度的第三方旅游攻略网站(比如“穷游网新宿烧鸟推荐”、“马蜂窝东京新宿歌舞伎町美食攻略”),有2条是比较有名的烧鸟店的官网(比如“鸟贵族新宿歌舞伎町店”——但人均消费只有2000日元左右,而且环境非常吵,没有英文菜单,不支持预约),有2条是Tabelog的搜索结果页面(但只是“新宿区歌舞伎町附近的烧鸟店”的列表,没有过滤人均消费、环境、英文菜单、信用卡、评分、空位这些条件),还有3条是完全不相关的广告(比如“东京新宿歌舞伎町酒店推荐”、“日本签证办理”)。
为什么会这样?
因为Google的搜索意图理解模型(不管是以前的基于规则的模型,还是现在的基于深度学习的模型,甚至是集成了GPT-4的Bing Chat的搜索意图理解模型),本质上还是“从关键词的组合中‘推断’用户的意图”——而不是“和用户进行‘多轮对话式的交互’,一步步‘澄清’用户的复杂、模糊、多维度的信息获取需求”。
比如刚才的例子里,“安静的居酒屋”——什么叫“安静”?是“分贝不超过60分贝”,还是“可以正常聊天不用喊”?是“没有卡拉OK”,还是“卡拉OK的声音很小”?是“只有吧台座位”,还是“有包厢”?
再比如“今晚8点还有空位”——Google(甚至是Bing Chat)根本无法实时访问所有餐厅的预约系统(除非这些餐厅的预约系统和搜索引擎有API接口对接,但目前只有很少一部分餐厅这么做),所以它只能“从第三方预约网站(比如TableCheck、Hot Pepper)上‘爬取’过时的空位信息”,或者“直接告诉你‘请访问TableCheck预约’”。
瓶颈二:“信息爆炸与信息噪声过载”——搜索引擎返回的结果里,“有用的信息”越来越少,“没用的广告、过时的信息、重复的信息、虚假的信息”越来越多
这是搜索引擎面临的最直观、最让用户头疼的瓶颈。
根据 思科(Cisco)2024年3月发布的《全球视觉网络指数(VNI)预测报告(2023-2027)》,2023年全球互联网上的总数据量已经达到了 120 Zettabytes(ZB)(1 ZB = 1万亿 GB,或者说,1 ZB相当于2500亿张DVD光盘的容量),预计到2027年将增长到 400 ZB——也就是说,未来4年全球互联网上新增的数据量,将超过过去30多年新增的数据量的总和。
而在这“海量的信息”里,“有用的信息”只占不到1%——剩下的99%都是“没用的广告、过时的信息、重复的信息、虚假的信息(比如网络谣言、虚假新闻、钓鱼网站)”。
更可怕的是,搜索引擎的商业化模式(主要靠“关键词广告竞价排名”赚钱),本质上是“鼓励信息噪声过载”的——因为“广告主越多,搜索引擎的收入就越高”,所以搜索引擎的“网页排名算法”(不管是Google的PageRank,还是后来的BERT、MUM,甚至是现在的Gemini),本质上都是“在‘用户体验’和‘广告收入’之间做‘平衡’”——而且很多时候,“广告收入”会占上风。
举个最简单的例子:假设你现在要搜索“如何治疗感冒”——你在Google上输入这个关键词,前3条结果通常都是“广告(比如‘辉瑞制药的感冒药X’、‘京东健康的感冒药专区’)”,第4-7条结果通常都是“SEO优化过度的第三方健康网站(比如‘丁香医生’——哦,不对,丁香医生的内容还是比较靠谱的,但也有很多SEO优化过度的第三方健康网站,比如‘XX健康网’、‘XX养生网’,内容都是抄来抄去的,甚至还有很多虚假的信息)”,第8-10条结果可能才是“比较靠谱的官方健康机构的网站(比如‘美国疾病控制与预防中心CDC’、‘中国国家卫生健康委员会’)”。
为什么会这样?
因为“关键词广告竞价排名”的规则是:“谁出的钱最多,谁的广告就排在最前面”——而“官方健康机构的网站”通常是不会参与广告竞价的,所以它们的排名自然就靠后。
瓶颈三:“无法完成‘多步骤、跨工具、跨数据源’的复杂任务”——搜索引擎只能“给你提供信息”,不能“帮你完成任务”
这是搜索引擎面临的最致命的瓶颈——也是“AI Agent Harness Engineering崛起的最直接的原因”。
为什么这么说?
因为随着我们的工作和生活节奏越来越快,我们的信息获取需求已经从“‘简单的、单步骤的、只需要一个数据源的’信息查询需求”,升级成了“‘复杂的、多步骤的、跨工具的、跨数据源的’任务完成需求”。
比如本文开头提到的阿杰的例子——他的需求不是“搜索RoHS 2.0指令2023年新增第12类限制物质清单”(这是一个简单的信息查询需求),而是“在90分钟内完成一份面向跨境消费电子品牌创始人的3页式带引用格式的专业市场调研报告初稿”(这是一个复杂的、多步骤的、跨工具的、跨数据源的任务完成需求)。
而搜索引擎(哪怕是集成了生成式AI大语言模型的Bing Chat或Google Gemini),本质上还是“信息查询工具”——它只能“帮你搜索信息、整合信息、生成摘要”,但不能“帮你完成多步骤、跨工具、跨数据源的复杂任务”。
比如刚才的阿杰的例子——Bing Chat可以帮你搜索RoHS 2.0指令2023年新增第12类限制物质清单,可以帮你生成一份简单的中文摘要,可以帮你访问FCC官网的XML格式原文,可以帮你用DeepL翻译日文官方公告——但它不能:
- 自动把这些搜索、整合、翻译的结果“排版成符合要求的微软Word 365格式的3页式报告”;
- 自动“交叉验证”这些信息的准确性(比如对比EUR-Lex的官方修正案和DG Grow的FAQ,对比FCC官网的XML格式原文和UL的协调标准);
- 自动“实时访问”所有餐厅的预约系统(哦,刚才的例子是阿杰的合规调研,但道理是一样的——Bing Chat不能自动实时访问亚马逊日本站卖家大学的最新公告,不能自动实时访问跨境合规研究社的最新解读文章,不能自动实时验证这些内容的时效性);
- 自动“根据用户的反馈”修改报告的内容(比如阿杰说“把额定容量≥10000mAh改成12000mAh和20000mAh两款”,Bing Chat可以帮你修改文本,但不能帮你自动修改报告里的所有相关引用和表格);
- 自动“把完成的报告发送到用户指定的邮箱”——哦,不对,Bing Chat现在可以帮你把生成的内容保存到OneNote或Word,但它不能自动“根据用户的指令”发送到指定的邮箱,更不能自动“设定发送时间”。
1.2.3 AI Agent Harness Engineering的定义与核心能力:从“信息查询工具”到“任务完成助手”的范式革命
好了,聊完了搜索引擎的“三大不可避免的瓶颈”,我们现在来聊第二个前提——AI Agent Harness Engineering是什么?
首先,我们需要明确几个最基本的概念(因为现在很多人把“AI Agent”、“LLM Agent”、“Multi-Agent System(多Agent系统)”、“AI Agent Harness Engineering”这些概念混为一谈,这是不对的):
基本概念一:什么是“Agent(智能体)”?
“Agent(智能体)”这个概念,其实不是人工智能领域独有的——它最早出现在经济学领域(比如“经济人Agent”),后来又出现在社会学领域(比如“社会人Agent”)、计算机科学领域(比如“软件Agent”),直到最近几年,才因为“生成式AI大语言模型(LLM)的崛起”,成为了人工智能领域最热门的概念之一。
在计算机科学与人工智能领域,“Agent(智能体)”的最经典、最被广泛接受的定义,是由斯坦福大学的计算机科学教授、图灵奖得主约翰·麦卡锡(John McCarthy)的学生——迈克尔·伍德里奇(Michael Wooldridge)和尼古拉斯·詹宁斯(Nicholas Jennings) 在1995年发表的论文《Intelligent Agents: Theory and Practice》中提出的:
“Agent(智能体)是一个‘位于某个环境(Environment)中的、能够感知环境(Perception)、能够根据自己的目标(Goal)和信念(Belief)自主地做出决策(Decision Making)、并能够通过行动(Action)改变环境的计算机系统’”。
为了让这个定义更通俗易懂,伍德里奇和詹宁斯还提出了Agent(智能体)的“五大核心属性”(这也是判断一个计算机系统是不是“真正的Agent”的标准):
- 自主性(Autonomy):Agent能够在没有人类或其他Agent的直接干预下,自主地做出决策和采取行动;
- 社会性(Social Ability):Agent能够与其他Agent(或人类)通过某种“通信协议(Communication Protocol)”进行交互;
- 反应性(Reactivity):Agent能够实时地感知环境的变化,并及时地做出反应;
- 主动性(Proactivity):Agent不仅仅是“被动地对环境的变化做出反应”,还能够“主动地根据自己的目标,制定计划(Planning),并采取行动来实现目标”;
- 学习能力(Learning Ability):Agent能够根据自己的“历史经验”,不断地优化自己的决策和行动,提高自己的性能。
基本概念二:什么是“LLM Agent(大语言模型智能体)”?
“LLM Agent(大语言模型智能体)”,顾名思义,就是**“以生成式AI大语言模型(LLM,比如GPT-4、Claude 3 Opus、Gemini Ultra、Llama 3 70B)为‘大脑’的Agent(智能体)”**。
在LLM崛起之前,“Agent(智能体)”的开发是非常困难的——你必须为Agent“手动编写”感知环境的代码、决策的代码、行动的代码、通信的代码、学习的代码,而且这些代码通常是“针对某个特定的任务、特定的环境编写的”,无法“泛化到其他任务或环境”。
但LLM的崛起,彻底改变了这一切——因为LLM本身就具备了“强大的自然语言理解能力(NLU)、自然语言生成能力(NLG)、逻辑推理能力(Reasoning)、知识存储能力(Knowledge)、以及一定的规划能力(Planning)”——你只需要给LLM“一个明确的目标(Goal)、一套简单的指令(Instructions)、一个可以访问的工具集(Toolset)、一个可以存储历史经验的记忆模块(Memory)”,它就可以“自动地感知环境、制定计划、调用工具、采取行动、与其他Agent或人类交互、并根据历史经验不断优化自己的性能”——这就是“LLM Agent”。
现在业界最流行的LLM Agent框架,是由OpenAI的研究团队在2023年3月发表的论文《ReAct: Synergizing Reasoning and Acting in Language Models》中提出的 ReAct框架,以及由斯坦福大学的计算机科学教授 Percy Liang 领导的HAI(Human-Centered AI)研究团队在2023年8月发表的论文《AgentBench: Evaluating LLMs as Agents》中提出的 AgentBench框架,还有由LangChain团队开发的 LangChain Agent框架(这是目前最流行的开源LLM Agent框架)。
关于这些LLM Agent框架的详细内容,我会在本文的第三章“核心内容/实战演练”部分用大量的篇幅展开讲解,但这里先做个快速的介绍:
- ReAct框架:核心逻辑是“将‘推理(Reasoning)’和‘行动(Acting)’结合起来”——LLM会先“思考”下一步该做什么(比如“我需要搜索RoHS 2.0指令2023年新增第12类限制物质清单,调用Google Search工具”),然后“调用工具”采取行动,接着“观察”行动的结果,再“思考”下一步该做什么,如此循环往复,直到实现目标;
- LangChain Agent框架:核心逻辑是“为LLM Agent提供‘模块化的组件’”——包括“LLM组件(支持各种LLM,比如GPT-4、Claude 3、Gemini、Llama 3)”、“工具组件(支持各种工具,比如Google Search、Wikipedia、Python REPL、API调用、数据库查询)”、“记忆组件(包括‘短期记忆’和‘长期记忆’,短期记忆用来存储当前对话的上下文,长期记忆用来存储历史经验)”、“规划组件(用来将复杂的任务分解成简单的子任务)”、“执行组件(用来执行子任务)”。
基本概念三:什么是“Multi-Agent System(多Agent系统,简称MAS)”?
“Multi-Agent System(多Agent系统,简称MAS)”,顾名思义,就是**“由两个或两个以上的Agent(智能体)组成的、能够通过某种‘通信协议’进行交互、协作完成某个复杂任务的计算机系统”**。
为什么需要“多Agent系统”?
因为单个LLM Agent的能力是有限的——哪怕是像GPT-4o或Claude 3 Opus这样的“通用人工智能(AGI)的雏形”,也无法“同时精通所有领域的知识、同时完成所有类型的任务”——比如,单个LLM Agent可能“精通欧盟合规,但不精通北美FCC/FDA合规”,或者“精通北美FCC/FDA合规,但不精通日本站亚马逊PSE/JQA合规”,或者“精通所有领域的合规知识,但不精通微软Word 365的排版”,或者“精通所有领域的合规知识和微软Word 365的排版,但不精通实时访问餐厅的预约系统”。
而“多Agent系统”的核心优势,就是**“通过‘专业化的分工’和‘协作式的交互’,将各个Agent的‘专业化能力’整合起来,完成单个Agent无法完成的复杂任务”**——这就像“一个公司的团队”:有CEO(负责制定整体目标和计划)、有CTO(负责技术开发)、有CFO(负责财务)、有COO(负责运营)、有HR(负责人力资源)——每个人都有自己的“专业化能力”,通过“协作式的交互”,完成单个CEO无法完成的“运营整个公司”的复杂任务。
现在业界最流行的多Agent系统框架,是由微软亚洲研究院(MSRA)的研究团队在2023年8月发表的论文《AutoGen: Enabling Next-Gen LLM Applications》中提出的 AutoGen框架,以及由Meta AI的研究团队在2023年10月发表的论文《Camel: Communicative Agents for “Mind” Exploration of Large Language Model Society》中提出的 Camel框架,还有由LangChain团队开发的 LangChain Multi-Agent框架(这是目前最流行的开源多Agent系统框架)。
关于这些多Agent系统框架的详细内容,我也会在本文的第三章“核心内容/实战演练”部分用大量的篇幅展开讲解,但这里先做个快速的介绍:
- AutoGen框架:核心逻辑是“为多Agent系统提供‘可配置的、可交互的Agent组件’”——包括“Assistant Agent(助手Agent,负责制定计划和调用工具)”、“User Proxy Agent(用户代理Agent,负责代表用户与Assistant Agent交互,并执行一些用户授权的行动,比如运行Python代码、发送邮件)”、“Group Chat Manager Agent(群聊管理Agent,负责管理多个Agent之间的群聊,比如决定哪个Agent下一步发言)”;
- Camel框架:核心逻辑是“通过‘角色扮演式的对话’,让多个Agent协作完成任务”——比如,你可以设定一个“AI合规顾问”的Agent角色,设定一个“跨境消费电子品牌创始人”的Agent角色,然后让这两个Agent进行“角色扮演式的对话”,AI合规顾问会主动询问创始人的需求,创始人会回答需求,AI合规顾问会根据需求制定计划并完成任务。
基本概念四:什么是“AI Agent Harness Engineering(AI Agent编排/协同工程)”?
好了,现在我们终于可以回答“AI Agent Harness Engineering是什么”这个问题了——因为前面三个基本概念都是“AI Agent Harness Engineering的基础”。
在业界和学术界,“AI Agent Harness Engineering(AI Agent编排/协同工程)”目前还没有一个“完全统一、被广泛接受的定义”——但我根据自己的实践经验(我在过去的一年里,为三个不同的公司开发了三个不同的企业级多Agent系统),以及对业界和学术界最新研究成果的梳理,给出一个我自己认为比较准确、比较通俗易懂的定义:
“AI Agent Harness Engineering(AI Agent编排/协同工程)是一门‘研究如何“设计、开发、部署、监控、优化”由单个或多个LLM Agent组成的系统,以完成“复杂的、多步骤的、跨工具的、跨数据源的”任务的学科’——它的核心目标是‘将LLM的“通用能力”转化为“可落地的、可规模化的、可信赖的、可定制的”任务完成能力’”。
为了让这个定义更清晰,我还提出了AI Agent Harness Engineering的“五大核心研究方向”(这也是判断一个人是不是“真正的AI Agent Harness Engineer”的标准):
- Agent设计(Agent Design):研究如何“根据任务的需求,设计Agent的角色(Role)、目标(Goal)、指令(Instructions)、工具集(Toolset)、记忆模块(Memory)、决策逻辑(Decision Logic)”;
- 多Agent协作(Multi-Agent Collaboration):研究如何“设计多个Agent之间的‘通信协议’、‘协作模式’、‘角色分工’、‘冲突解决机制’”;
- Agent部署(Agent Deployment):研究如何“将单个或多个LLM Agent组成的系统部署到‘云平台(比如AWS、Azure、GCP、阿里云)’、‘边缘设备(比如手机、平板、智能音箱)’、‘本地服务器’上”;
- Agent监控与评估(Agent Monitoring & Evaluation):研究如何“实时监控Agent的‘性能(比如任务完成率、任务完成时间、成本)’、‘安全性(比如是否泄露用户隐私、是否生成有害内容、是否调用未经授权的工具)’、‘可靠性(比如是否会崩溃、是否会陷入无限循环)’,并如何‘评估Agent的性能、安全性、可靠性’”;
- Agent优化(Agent Optimization):研究如何“根据Agent的‘监控与评估结果’,不断地优化Agent的‘角色、目标、指令、工具集、记忆模块、决策逻辑’,以及多Agent之间的‘通信协议、协作模式、角色分工、冲突解决机制’”。
1.2.4 AI Agent Harness Engineering的“三大核心能力”:为什么它能解决搜索引擎的“三大不可避免的瓶颈”?
好了,聊完了AI Agent Harness Engineering的定义,我们现在来聊它的“三大核心能力”——这三大核心能力,正好对应着搜索引擎的“三大不可避免的瓶颈”,也是“AI Agent Harness Engineering崛起的最核心的原因”:
核心能力一:“多轮对话式的意图澄清能力”与“自然语言的复杂任务表达能力”——彻底解决“关键词输入偏差”与“搜索意图理解偏差”的瓶颈
与搜索引擎的“离散的、单维度的、不带上下文的、必须是明确的关键词的组合”的输入方式不同,AI Agent Harness Engineering支持“连续的、多维度的、带有上下文的、甚至是模糊的、隐含的自然语言的多轮对话式的输入”——也就是说,你不需要“用几个关键词完全表达自己的复杂、模糊、多维度的信息获取需求”,你只需要“用自然语言先说出一个大概的需求”,然后AI Agent会“通过多轮对话式的交互,一步步澄清你的需求”,直到它“完全理解你的需求”为止。
举个刚才的“找东京新宿区歌舞伎町附近的烧鸟店”的例子:如果用AI Agent Harness Engineering开发的“日本旅游助手”多Agent系统(由“需求澄清Agent”、“餐厅搜索Agent”、“餐厅筛选Agent”、“餐厅预约Agent”、“行程规划Agent”组成),你只需要先说出一个大概的需求:
“我想找一家东京的烧鸟店,今天晚上吃。”
然后“需求澄清Agent”会通过多轮对话式的交互,一步步澄清你的需求:
需求澄清Agent:好的,请问您想找东京哪个区的烧鸟店?比如新宿区、涩谷区、银座区?
你:新宿区歌舞伎町附近。
需求澄清Agent:好的,请问您想找距离新宿站哪个出口步行不超过多长时间的烧鸟店?比如JR出口、地铁出口、私铁出口?
你:JR出口,步行不超过10分钟。
需求澄清Agent:好的,请问您的人均消费预算是多少?比如1000-3000日元、3000-5000日元、5000-10000日元?
你:3000-5000日元。
需求澄清Agent:好的,请问您对烧鸟店的菜品有什么特别的要求吗?比如主打鸡皮、鸡软骨、鸡肝?
你:对,主打鸡皮、鸡软骨、鸡肝。
需求澄清Agent:好的,请问您对烧鸟店的环境有什么特别的要求吗?比如比较安静、不要太吵的居酒屋、有卡拉OK、有包厢?
你:比较安静,不要太吵的居酒屋,有包厢最好。
需求澄清Agent:好的,请问您对烧鸟店的服务有什么特别的要求吗?比如有英文菜单、支持Visa/MasterCard信用卡?
你:有英文菜单,支持Visa/MasterCard信用卡。
需求澄清Agent:好的,请问您对烧鸟店的评分有什么特别的要求吗?比如最近一个月在Tabelog上的评分不低于多少分?
你:不低于3.8分。
需求澄清Agent:好的,请问您想今天晚上几点用餐?有几个人?
你:8点,两个人。
需求澄清Agent:好的,我现在已经完全理解您的需求了——我会让“餐厅搜索Agent”、“餐厅筛选Agent”、“餐厅预约Agent”帮您找符合要求的烧鸟店,并尝试预约。请稍等。
然后“餐厅搜索Agent”会调用“Tabelog API”、“Hot Pepper API”、“Google Maps API”搜索新宿区歌舞伎町附近的烧鸟店,“餐厅筛选Agent”会根据你的需求筛选符合要求的烧鸟店,“餐厅预约Agent”会实时访问符合要求的烧鸟店的预约系统,尝试预约今天晚上8点的两个人的包厢——如果预约成功,它会把预约确认信息(包括餐厅的名称、地址、电话、英文菜单链接、Tabelog评分链接、预约时间、人数、包厢号、Google Maps导航链接)发送给你;如果预约失败,它会告诉你“哪些符合要求的烧鸟店今天晚上8点没有空位了”,并推荐“其他时间或者其他稍微不符合要求但非常接近的烧鸟店”。
你看,这是不是比“用搜索引擎搜索关键词组合,然后自己筛选、验证、预约”要高效得多?
核心能力二:“多源信息的自动交叉验证能力”与“信息噪声的自动过滤能力”——彻底解决“信息爆炸与信息噪声过载”的瓶颈
与搜索引擎的“只能给你提供排序后的网页链接列表,让你自己去筛选、验证、整合这些信息”不同,AI Agent Harness Engineering支持“多源信息的自动交叉验证”和“信息噪声的自动过滤”——也就是说,AI Agent会“自动地从多个‘权威的、可靠的’数据源(比如官方机构的网站、学术论文数据库、权威的第三方媒体网站)获取信息”,然后“自动地交叉验证这些信息的准确性和时效性”,最后“自动地过滤掉没用的广告、过时的信息、重复的信息、虚假的信息”,只给你提供“有用的、准确的、及时的、经过验证的”信息。
举个本文开头提到的阿杰的“合规调研”的例子:如果用AI Agent Harness Engineering开发的“跨境合规调研助手”多Agent系统(由“欧盟合规专家Agent”、“北美FCC/FDA专家Agent”、“日本站亚马逊PSE/JQA专家Agent”、“多源信息交叉验证Agent”、“报告生成与排版Agent”组成),“欧盟合规专家Agent”会“自动地从EUR-Lex(欧盟官方公报)、DG Grow FAQ(欧盟委员会内部市场、工业、创业与中小企业总司的常见问题解答)、UL协调标准数据库(美国保险商实验室的协调标准数据库)这三个‘权威的、可靠的’数据源获取RoHS 2.0指令2023年新增第12类限制物质清单的信息”,然后“多源信息交叉验证Agent”会“自动地对比这三个数据源的信息的准确性和时效性”——如果这三个数据源的信息一致,它会标记为“内容属实”;如果这三个数据源的信息不一致,它会标记为“内容存在差异,请进一步验证”,并“自动地搜索更多的‘权威的、可靠的’数据源来验证”;最后“报告生成与排版Agent”会“自动地把经过验证的信息排版成符合要求的微软Word 365格式的3页式报告,并加APA 7th格式的URL引用”。
你看,这是不是比“用搜索引擎搜索关键词组合,然后自己筛选、验证、整合、排版这些信息”要高效得多?而且准确性和时效性也要高得多?
核心能力三:“多步骤、跨工具、跨数据源的复杂任务自动完成能力”——彻底解决“无法完成复杂任务”的瓶颈
与搜索引擎的“只能给你提供信息,不能帮你完成任务”不同,AI Agent Harness Engineering支持“多步骤、跨工具、跨数据源的复杂任务自动完成”——也就是说,你只需要“用自然语言说出你的任务目标和要求”,然后AI Agent会“自动地将复杂的任务分解成简单的子任务”,“自动地制定完成子任务的计划”,“自动地调用各种工具(比如Google Search、Wikipedia、Python REPL、API调用、数据库查询、微软Word 365、Excel 365、PowerPoint 365、邮件客户端、即时通讯软件)”,“自动地访问各种数据源(比如官方机构的网站、学术论文数据库、权威的第三方媒体网站、公司内部的数据库、公司内部的文档库)”,“自动地与其他Agent或人类交互”,“自动地完成所有子任务”,最后“自动地把任务完成的结果交付给你”。
还是举本文开头提到的阿杰的“合规调研”的例子:如果用AI Agent Harness Engineering开发的“跨境合规调研助手”多Agent系统,你只需要“用自然语言说出你的任务目标和要求”(就像本文开头阿杰输入的那句话指令一样),然后AI Agent会“自动地将复杂的任务分解成简单的子任务”(比如“子任务一:搜索RoHS 2.0指令2023年新增第12类限制物质清单的信息”、“子任务二:搜索FCC Part 15B针对低功耗蓝牙LE Audio的最新阈值要求的信息”、“子任务三:搜索亚马逊日本站PSE认证对于移动电源电芯的强制溯源截止日期的信息”、“子任务四:交叉验证所有信息的准确性和时效性”、“子任务五:生成符合要求的微软Word 365格式的3页式报告”、“子任务六:把报告发送到阿杰指定的邮箱”),“自动地制定完成子任务的计划”(比如“先完成子任务一、二、三,再完成子任务四,再完成子任务五,最后完成子任务六”),“自动地调用各种工具和访问各种数据源”,“自动地完成所有子任务”,最后“自动地把报告发送到阿杰指定的邮箱”。
你看,这是不是比“用搜索引擎搜索关键词组合,然后自己筛选、验证、整合、排版、发送这些信息”要高效得多?而且完全不需要人类的干预(除非AI Agent遇到了无法解决的问题,它会主动询问人类的帮助)?
1.3 亮明观点/文章目标 (The “What” & “How”): 这篇文章会带你做什么?
好了,聊到这里,我相信你已经对“搜索引擎的三大不可避免的瓶颈”和“AI Agent Harness Engineering的三大核心能力”有了一个比较清晰的认识——那么,现在回到我们最开始的核心问题:
AI Agent Harness Engineering 会取代搜索引擎吗?
我的答案是:不会——但它会“彻底改变我们获取信息和完成任务的方式”,会“成为搜索引擎的‘互补工具’甚至‘上游工具’”,会“在很多场景下‘替代’搜索引擎的‘核心功能’(比如信息查询、信息整合、信息验证)”,但永远不会“完全取代”搜索引擎。
为什么这么说?
因为搜索引擎和AI Agent Harness Engineering的“底层逻辑”、“核心定位”、“适用场景”都是完全不同的——搜索引擎的“底层逻辑”是“以‘关键词’为输入,以‘排序后的
更多推荐

所有评论(0)