【科普篇】LLM、GPT、AIGC、AI Agent、Agentic AI 到底是个啥？

2024 年可谓是AI 大模型腾讯的元宝阿里的通义千问字节的豆包百度的文小言月之暗面的Kimi等等可谓是琳琅满目，好不热闹。付一张全景图：相信很多走在科技前沿的人已经尝试将 AI 融入到自己的生活和工作的方方面面了，比如办公、编码、写作、搜索等都可以通过 AI 工具来提效，可以说一旦体验过 AI 带来的提效，你将再也离不开它，它将成为你工作和生活中的得力助手。

IT_xiao小巫

3302人浏览 · 2024-12-23 09:25:32

IT_xiao小巫 · 2024-12-23 09:25:32 发布

前言

2024 年可谓是AI 大模型全面开花的一年，各大厂纷纷发布了自己的大模型应用产品，比如：

腾讯的元宝
阿里的通义千问
字节的豆包
百度的文小言
月之暗面的Kimi
等等

可谓是琳琅满目，好不热闹。付一张全景图：
在这里插入图片描述

图引自：https://www.cluebenchmarks.com/

相信很多走在科技前沿的人已经尝试将 AI 融入到自己的生活和工作的方方面面了，比如办公、编码、写作、搜索等都可以通过 AI 工具来提效，可以说一旦体验过 AI 带来的提效，你将再也离不开它，它将成为你工作和生活中的得力助手。

但作为互联网从业者，除了学会使用 AI 工具来帮助我们工作提效，笔者也对背后支撑它的技术感兴趣，本篇文章作为科普篇了解下这些 AI 应用背后的技术要点，方便我们理解目前关于 AI 大模型的发展趋势。

LLM

Large Language Model，大型语言模型。可以说 LLM 是目前 AI 应用的基座，没有它就没有这次 AI 的技术革命。

LLM 是一种基于深度学习的人工智能模型，用于处理自然语言的各种任务。它们通常由数十亿到数万亿个参数组成的神经网络构成，通过对大量的文本数据进行训练，来学习语言的语法、语义和上下文信息，从而能够对自然语言文本进行理解和生成。

特点

巨大的规模：LLM 通常具有巨大的参数规模，可以达到数十亿甚至数千亿个参数，这使得它们能够捕捉更多的语言知识和复杂的语法结构。
预训练和微调：LLM 采用了预训练和微调的学习方法。它们首先在大规模文本数据上进行预训练，学会了通用的语言表示和知识，然后通过微调适应特定任务，从而在各种 NLP 任务中表现出色。
上下文感知：LLM 在处理文本时具有强大的上下文感知能力，能够理解和生成依赖于前文的文本内容。
多语言支持：LLM 可以用于多种语言，不仅限于英语。它们的多语言能力使得跨文化和跨语言的应用变得更加容易。
多模态支持：一些 LLM 已经扩展到支持多模态数据，包括文本、图像和语音。这意味着它们可以理解和生成不同媒体类型的内容，实现更多样化的应用。
涌现能力：LLM 表现出令人惊讶的涌现能力，即在大规模模型中出现但在小型模型中不明显的性能提升。

应用前景

LLM 已经被广泛应用于文本生成、自动翻译、信息检索、摘要生成、聊天机器人、虚拟助手等多个领域，对人们的日常生活和工作产生了深远的影响。随着技术的不断发展，大型语言模型将在未来发挥更大的作用。

训练方式

训练语言模型需要向其提供大量的文本数据，模型利用这些数据来学习人类语言的结构、语法和语义。这个过程通常是通过无监督学习完成的，使用一种叫做自我监督学习的技术。在自我监督学习中，模型通过预测序列中的下一个词或标记，为输入的数据生成自己的标签，并给出之前的词。

技术架构

LLM 通常基于深度学习架构，如 Transformer，这有助于它们在各种 NLP 任务上取得令人印象深刻的表现。Transformer 架构由编码器和解码器组成，通过自注意力机制处理数据，发现词元之间的关系。

LLM 作为自然语言处理领域的核心技术，正在不断推动人工智能的发展，其潜力和应用前景非常广阔。

国内外 AI 大模型象限：

在这里插入图片描述

来自https://www.cluebenchmarks.com/superclue_2410

GPT

GPT（Generative Pre-trained Transformer）系列是由 OpenAI 开发的一系列大型语言模型，它们在自然语言处理（NLP）领域取得了显著的进展。以下是 GPT 系列的发展脉络：

在这里插入图片描述

GPT-1（2018 年）：
- GPT-1 是系列中的第一个模型，它基于变换器（Transformer）架构，拥有 1.17 亿个参数。GPT-1 主要依赖于无监督学习，通过预训练和微调相结合的方式，在多种 NLP 任务中展现出了有效性。
GPT-2（2019 年）：
- GPT-2 的参数量增加到了 15 亿，显示出强大的文本生成能力。由于担心潜在的滥用风险，OpenAI 最初并未完全公开该模型，随后在公众压力下逐步开放了访问权限。
GPT-3（2020 年）：
- GPT-3 的参数量达到了 1750 亿，成为当时最大的语言模型。GPT-3 以其出色的文本生成能力和上下文理解能力，迅速引起了广泛的应用和研究热潮。
ChatGPT（2022 年末）：
- 在 2022 年末，OpenAI 推出了 ChatGPT，它基于 GPT-3.5 模型，作为一个免费的研究成果预览向公众开放。ChatGPT 以其对话能力而闻名，能够生成连贯、相关的文本回复。
GPT-4（2023 年 3 月 14 日）：
- OpenAI 在 2023 年 3 月 14 日发布了 GPT-4，这是 GPT 系列中的最新模型。GPT-4 包含了 1.76 万亿个参数，能够同时处理多达 25000 个单词，是 GPT-3 处理能力的 8 倍。GPT-4 在减少幻觉（hallucinations）方面相比之前的版本有所改进，并且能够接受文本和图像提示，允许用户在视觉和语言领域定义任务。
GPT-4o（2024 年 5 月 13 日）：
- GPT-4o（“o” 代表“omni”）能够处理和生成文本、图像和音频，实现了文本、视觉、音频的全面打通，成为一个原生的多模态模型。GPT-4o 支持了实时语音交互，获得更像人类的体验。并且针对文件处理能力、性能和结构化输出有了更多的提升。
GPT-o1（2024 年 09 月 13 日）：
- GPT-o1 模型是由 OpenAI 在 2024 年 9 月 13 日发布的。这一模型标志着人工智能在复杂推理任务上的重大进步，被 OpenAI 称为“新范式的开始”。GPT-o1 的发布展示了其在数理化生、英语法律经济等各个科目上的显著改进，特别是在解决博士水平的物理问题时，其表现远超之前的 GPT-4o 模型。
未来发展
- OpenAI 计划推出 GPT-5, 并致力于提供更好的个性化、更多样化和准确的响应以及增强的创造力。

GPT 系列的发展不仅推动了 AI 在理解和生成人类语言方面的能力，而且还引发了关于这些技术伦理影响和社会影响的讨论。随着模型的迭代，GPT 系列不断刷新着 NLP 领域的基准，并且其应用范围也在不断扩大，从文本完成到故事生成等多个领域。

AIGC

**AIGC（Artificial Intelligence Generated Content，人工智能生成内容）**是一种利用生成式人工智能技术来自动创作文本、图像、视频等内容的新型内容生产方式。

我们前言所说的 AI 应用其实就是 AIGC 的落地场景，AIGC 技术依赖于 LLM 等 AI 技术来生成内容。LLM 通过学习文本数据，能够生成文章、故事、代码等多种形式的内容，是 AIGC 技术核心组成部分。

对比于我们所熟知的 UGC（用户生成内容）和 PGC（专业生成内容），AIGC 的出现将给内容创作带来巨大的变革和进步。

AI Agent

AI Agent，即人工智能代理，是一种能够感知环境、进行自主理解、决策和执行动作的智能实体。它基于大语言模型（LLM），具备自主理解感知、规划、记忆和使用工具的能力，能够自动化执行完成复杂任务的系统。

智能体架构图如下所示：

在这里插入图片描述

引自：https://lilianweng.github.io/posts/2023-06-23-agent/

LLM Agent 几个核心组件：

Planning：使用 LLM 进行任务拆解，将用户的问题分解为多个子问题
Memory：短期记忆和长期记忆，其中短期记忆指 LLM 的上下文，长期记忆指外部向量存储
Tool：各种各样的工具，例如谷歌搜索 API、计算器
Action：行动模块是智能体实际执行决定或响应的部分。面对不同的任务，智能体系统有一个完整的行动策略集，在决策时可以选择需要执行的行动，比如广为熟知的记忆检索、推理、学习、编程等。

一些出色的 AI Agents 概况

在这里插入图片描述

图引自：https://github.com/e2b-dev/awesome-ai-agents

Agentic AI

Agentic AI，代理式人工智能。Agentic AI 强调的是 AI 的自主性和代理性，即 AI 系统能够在没有人类直接干预的情况下，自主地完成任务。AI Agent 是实现 Agentic AI 的关键，而 LLM 为 AI Agent 提供了处理语言和理解环境的能力。

Agentic Workflow 组件：

在这里插入图片描述

图片引自：https://www.vellum.ai/blog/agentic-workflows-emerging-architectures-and-design-patterns

一些关键特征：

自主性（Autonomy）： Agentic AI 系统能够在没有人类直接干预的情况下运作。它们可以独立地识别问题、制定解决方案并执行这些方案。
社会能力（Social Ability）：这些系统能够与其他代理（无论是人类还是其他 AI 系统）进行交互和沟通，以协作完成任务。
反应性（Reactivity）： Agentic AI 能够感知其环境并对环境变化做出快速反应。它们可以根据外部事件和变化调整自己的行为。
主动性（Pro-activeness）：除了对环境变化做出反应外，Agentic AI 还能够主动采取行动以实现其设计目标，甚至在预见到未来的需求或问题时也能主动行动。
推理能力（Reasoning）：这些系统具备逻辑推理能力，能够基于可用信息做出决策，并预测其行动的潜在结果。
学习能力（Learning）： Agentic AI 系统能够从经验中学习，并随着时间的推移改进其性能和效率。
个性化（Personalization）：它们能够根据用户的行为和偏好进行个性化调整，以提供更加定制化的服务。
适应性（Adaptability）： Agentic AI 系统能够适应不断变化的条件和需求，灵活调整策略以保持效能。
透明度（Transparency）：尽管 Agentic AI 系统能够独立运作，但它们通常也设计有透明度，使得人类可以理解和跟踪其决策过程。
伦理和合规性（Ethics and Compliance）： Agentic AI 系统在设计时会考虑伦理和法律框架，确保其行为符合社会规范和法律法规。

Agentic AI 的应用范围非常广泛，从自动化客户服务、智能家居控制、自动驾驶汽车到复杂的业务流程管理等。随着技术的进步，Agentic AI 系统正变得越来越复杂和智能，它们在提高效率、优化决策和增强用户体验方面发挥着越来越重要的作用

总结

LLM 是这些概念中的基础技术，为其他概念提供了理解和生成自然语言的能力。
ChatGPT 是 LLM 的一个具体应用，专注于对话系统。
AIGC 依赖于 LLM 等技术来生成内容。
AI Agent 是 LLM 的高级应用，结合其他技术实现更复杂的任务。
Agentic AI 是目前的发展方向，强调自主性和代理性，AI Agent 是实现这一目标的关键。

写在最后

在整理这篇文章我也在感叹技术发展的变化之快，自从 OpenAI 发布 ChatGPT 以来，基本隔一段时间就有突破我们认知的事情在发生，然而这些事情到底对于我们普通人产生什么影响，这是需要我们躬身入局去体验和思考的地方，未来已来，我们需要以更开放和包容的心态去应对世界所发生的变化，打不过就加入吧。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

如何卸载openclaw

OpenClaw（俗称"龙虾"）是一个本地 AI 智能体平台，用于在电脑上部署自主运行的 AI 代理。

AI Agent技术社区

（已解决）安装openclaw龙虾[特殊字符]npm权限问题EACCES

先安装升级完成node和homebrew后。安装就很快了。但是遇到EACCESS问题！！！发现报错了。问题错误：核心问题是sharp解决（90%人遇到的）安装 macOS 编译工具很多人缺少，导致sharp无法编译。运行：xcode-select --install安装完成后重新执行：sharp编译需要 C++ 编译器和 node-gyp，这些都来自 Xcode CLI。