【AI技术】什么是AI大模型，盘点国内外大模型

那么什么是AI大模型？发展历程是什么？AI大模型的技术架构及其产业应用方向是什么？本文为您一一解答。AI大模型是“大数据+大算力+强算法”结合的产物，凝聚了大数据内在精华的“隐式知识库”。包含了“预训练”和“大模型”两层含义，即模型在大规模数据集上完成了预训练后无需微调，或仅需要少量数据的微调，就能直接支撑各类应用。AI大模型成为人工智能迈向通用智能的里程碑技术。AI大模型的落地应用使得AI的三要

程序员维他命

1983人浏览 · 2024-06-20 11:05:52

程序员维他命 · 2024-06-20 11:05:52 发布

随着ChatGPT迅速破圈，AIGC被看作继PGC、UGC之后新型利用AI技术自动生产内容的方式。而AIGC的快速迭代演变，让AI大模型技术席卷全球，成为人工智能的新宠儿。

01 什么是AI大模型

那么什么是AI大模型？发展历程是什么？AI大模型的技术架构及其产业应用方向是什么？本文为您一一解答。

AI大模型是“大数据+大算力+强算法”结合的产物，凝聚了大数据内在精华的“隐式知识库”。包含了“预训练”和“大模型”两层含义，即模型在大规模数据集上完成了预训练后无需微调，或仅需要少量数据的微调，就能直接支撑各类应用。

AI大模型成为人工智能迈向通用智能的里程碑技术。AI大模型的落地应用使得AI的三要素由“数据、算法、算力”演变为“场景、产品、算力”。基于数据的互联网时代和基于算力的云计算时代之后，我们将进入基于大模型的AI时代。

02 AI大模型发展历程

从参数规模上看，AI大模型先后经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段，每年参数规模至少提升10倍，参数量实现了从亿级到百万亿级的突破。目前千亿级参数规模的大模型成为主流。

►从技术架构上看， Transformer架构是当前大模型领域主流的算法架构基础，由此形成了GPT和BERT两条主要的技术路线，其中BERT最有名的落地项目是谷歌的AlphaGo。在GPT3.0发布后，GPT逐渐成为大模型的主流路线。综合来看，当前几乎所有参数规模超过千亿的大型语言模型都采取GPT模式，如百度文心一言，阿里发布的通义千问等。

► 从模态支持上看，AI大模型可分为自然语言处理大模型，CV大模型、科学计算大模型等。AI大模型支持的模态更加多样，从支持文本、图片、图像、语音单一模态下的单一任务，逐渐发展为支持多种模态下的多种任务。

►从应用领域上看，大模型可分为通用大模型和行业大模型两种。通用大模型是具有强大泛化能力，可在不进行微调或少量微调的情况下完成多场景任务，相当于AI完成了“通识教育”，ChatGPT、华为的盘古都是通用大模型。行业大模型则是利用行业知识对大模型进行微调，让AI完成“专业教育”，以满足在能源、金融、制造、传媒等不同领域的需求，如金融领域的BloombergGPT、航天-百度文心等。

当前，AI大模型的发展正从以不同模态数据为基础过渡到与知识、可解释性、学习理论等方面相结合，呈现出全面发力、多点开花的新格局。

03 AI大模型关键技术

ChatGPT 的三个关键技术为：情景学习、思维链、自然指令学习，接下来将详细介绍一下这三个技术。

►情景学习（In-Context Learning）

改变了之前需要把大模型用到下游任务的范式。对于一些 LLM 没有见过的新任务，只需要设计一些任务的语言描述，并给出几个任务实例，作为模型的输入，即可让模型从给定的情景中学习新任务并给出满意的回答结果。这种训练方式能够有效提升模型小样本学习的能力。

情景学习示例图

可以看到，只需要以自然语言的形式描述两个情感分类任务输入输出的例子，LLM 就能够对新输入数据的情感极性进行判断。例如，做一个电影的评论，给出相应的任务模型，即可输出正面的回答。

►思维链（Chain-of-Thought，CoT）

对于一些逻辑较为复杂的问题，直接向大规模语言模型提问可能会得到不准确的回答，但是如果以提示的方式在输入中给出有逻辑的解题步骤的示例后再提出问题，大模型就能给出正确题解。也就是说将复杂问题拆解为多个子问题解决再从中抽取答案，就可以得到正确的答案。

思维链示意图

►自然指令学习

早期研究人员希望把所有的自然语言处理任务都能够指令化，对每个任务标注数据。这种训练方式就是会在前面添加一个“指令”，该指令能够以自然语言的形式描述任务内容，从而使得大模型根据输入来输出任务期望的答案。该方式将下游任务进一步和自然语言形式对齐，能显著提升模型对未知任务的泛化能力。

自然指令学习示意图

如自然指令学习示意图所示，左边是自然指令的测试场景，人们把 NLP 任务做到 1000 多种，目前最新模型可以做到 2000 多种 NLP 任务，接下来再对 NLP 任务进行分类，比如能力 A、能力 B，大模型指令能力、泛化能力非常强，学到四五十个任务时就可以泛化到上百种任务。

但距离真正的 ChatGPT 还有一步，那就是和真实的人类意图对齐，这就是 OpenAI 做的 GPT。核心逻辑非常简单，一开始时让人写答案，但是成本太高，改成让人来选答案，这样对标注员的能力要求稍微低一点，可以迅速提升迭代和规模。基于打分再训练一个打分器，通过打分器自动评价模型的好坏，然后用强化学习开始迭代，这种方法可以大规模地把数据模型迭代给转起来，这是 OpenAI 做的Instruct GPT 逻辑，强化学习的人类反馈。

Instruct GPT 逻辑示意图

基于 Instruct GPT 技术路线，ChatGPT 从技术上并没有特别好的创新，但它最伟大之处是赋予了大型语言模型对话的能力，这是个产品化创新，这个创新非常棒！

04 AI大模型挑战及未来

第一，评估验证：当前针对大模型的评估数据集往往是更像“玩具”的学术数据集，但是这些学术数据集无法完全反应现实世界中形形色色的问题与挑战，因此亟需实际的数据集在多样化、复杂的现实问题上对模型进行评估，确保模型可以应对现实世界的挑战；

第二，伦理道德：模型应该与人类的价值观相符，确保模型行为符合预期，作为一个高级的复杂系统，如果不认真处理这种道德问题，有可能会为人类酝酿一场灾难；

第三，安全隐患：需要更多的做好模型的可解释性、监督管理工作，安全问题应该是模型开发的重要组成部分，而非锦上添花可有可无的装饰；

第四，发展趋势：模型的性能还会随着模型规模的增加而增长吗？这个问题估计 OpenAI 也难以回答，我们针对大模型的神奇现象的了解仍然十分有限，针对大模型原理性的见解仍然十分珍贵。

国内大模型盘点

国外大模型盘点

如何学习AI大模型？

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

如何卸载openclaw

OpenClaw（俗称"龙虾"）是一个本地 AI 智能体平台，用于在电脑上部署自主运行的 AI 代理。

AI Agent技术社区

（已解决）安装openclaw龙虾[特殊字符]npm权限问题EACCES

先安装升级完成node和homebrew后。安装就很快了。但是遇到EACCESS问题！！！发现报错了。问题错误：核心问题是sharp解决（90%人遇到的）安装 macOS 编译工具很多人缺少，导致sharp无法编译。运行：xcode-select --install安装完成后重新执行：sharp编译需要 C++ 编译器和 node-gyp，这些都来自 Xcode CLI。