大模型研发全揭秘：带你掌握训练后模型的最佳存储方案

在神经网络中，模型参数通常指的是权重（weights）和偏置（biases）。权重决定了输入数据如何影响输出结果，而偏置则是为了进一步调整输出，确保模型的灵活性。这些参数通过训练数据反复优化和调整，最终得到了最佳的模型表现。

大模型玩家

1416人浏览 · 2024-09-19 09:25:27

大模型玩家 · 2024-09-19 09:25:27 发布

在大模型项目的研发中，模型保存是每个AI从业者都必须掌握的重要技能。保存模型不仅能让我们在未来进行推理和预测，还能帮助我们继续优化和调整模型。因此，掌握如何高效保存模型显得尤为重要。本文将通过详细的技术细节和清晰的步骤，带你从模型保存的格式选择到参数保存，一步步学会如何正确保存模型，无论你是AI领域的新人，还是有一定经验的从业者，都会有所收获。

一、选择保存格式

在模型保存过程中，格式的选择是第一步。我们通常会接触到两种常见的格式：pkl 和 pth。这两种格式各有优缺点，具体使用哪种格式，取决于你的需求。

1. pkl 格式

pkl 是 Python 提供的标准序列化格式。序列化是将对象转换为二进制数据的过程，这样你就可以将对象保存到文件中，以便后续加载使用。它非常适合在Python环境中保存和加载模型。

pkl 格式的特点：

保存完整的模型：pkl 可以保存模型的结构（即模型的架构）和模型的参数（即权重和偏置）。这意味着当你保存模型后，再次加载时，模型的整个状态都能恢复，甚至不需要手动定义模型架构。
文件较大：由于它会保存整个模型的架构和参数，文件体积通常会比较大，占用更多的磁盘空间。
仅限 Python 环境：pkl 格式是 Python 特有的序列化格式，如果你希望将模型迁移到其他非Python环境中，比如 Java 或 C++，那么这个格式就不太适合。

示例：

import torch``   ``# 假设你有一个已经训练好的模型``model = ...``   ``# 使用pkl格式保存模型``with open('model.pkl', 'wb') as f:`    `torch.save(model, f)``   ``# 加载模型``with open('model.pkl', 'rb') as f:`    `model = torch.load(f)

2. pth 格式

pth 是 PyTorch 专门用来保存和加载模型的格式。与 pkl 不同，pth 格式只会保存模型的参数（即权重和偏置），不会保存模型的结构。

pth 格式的特点：

保存模型参数：pth 只保存模型的权重和偏置，因此文件体积较小，便于存储和传输。
需要手动定义模型结构：在加载参数时，你需要手动定义模型的架构，然后再加载参数。这意味着保存和加载模型的灵活性更大，但也需要对模型结构有清晰的了解。
跨版本兼容性好：pth 文件的格式设计更加灵活，适用于不同环境和版本之间的参数迁移。

示例：

import torch``   ``# 假设你有一个已经训练好的模型``model = ...``   ``# 保存模型参数``torch.save(model.state_dict(), 'model_weights.pth')``   ``# 加载模型时，需要先定义模型结构``model = ...  # 定义模型结构``model.load_state_dict(torch.load('model_weights.pth'))``

二、保存模型参数

保存模型参数是模型保存的核心任务，特别是在神经网络中，模型的学习能力主要依赖于这些通过训练学习到的参数。

1. 什么是模型参数？

2. 如何保存和加载模型参数？

保存模型参数的过程非常简单，PyTorch 提供了方便的 state_dict() 函数来获取模型的参数，并使用 torch.save() 函数进行保存。加载时则使用 load_state_dict()。

保存模型参数：

# 假设你的模型是一个简单的神经网络``model = ...``   ``# 保存模型的参数到文件``torch.save(model.state_dict(), 'model_weights.pth')

加载模型参数：

# 首先需要定义模型结构``model = ...``   ``# 加载之前保存的参数``model.load_state_dict(torch.load('model_weights.pth'))``   ``# 模型现在可以进行推理或继续训练``

提示：在加载参数前，确保定义的模型结构与保存参数时的结构一致，否则加载时会出现错误。

三、常见问题及解决方案

在保存和加载模型的过程中，我们可能会遇到一些常见的问题。以下是一些常见问题的解决方案：

1. 模型文件过大，加载速度慢

问题：保存的模型文件过大，导致加载时间过长，影响模型的使用效率。

解决方案：

模型压缩：可以通过模型量化（quantization）或剪枝（pruning）来减少模型的参数数量，从而降低模型文件的体积。
只保存模型参数：使用 pth 格式，只保存模型的权重和偏置，这样可以大幅度减少文件体积。

2. 加载模型时参数不匹配

问题：在加载模型参数时，出现 KeyError，提示模型的某些参数无法匹配。

解决方案：

确保在保存和加载模型时，模型的架构保持一致。如果你对模型的结构做了修改，需要保存新的模型结构。
如果只想加载部分参数，可以使用 strict=False 来忽略不匹配的部分：

model.load_state_dict(torch.load('model_weights.pth'), strict=False)``

3. 模型加载后性能下降

问题：保存并加载模型后，模型的预测效果变差，性能下降。

解决方案：

确保在保存时，除了模型参数，还保存了训练过程中的优化器状态。如果你希望继续训练模型，必须同时保存优化器状态：

torch.save({`    `'model_state_dict': model.state_dict(),`    `'optimizer_state_dict': optimizer.state_dict(),``}, 'checkpoint.pth')``   ``# 加载时``checkpoint = torch.load('checkpoint.pth')``model.load_state_dict(checkpoint['model_state_dict'])``optimizer.load_state_dict(checkpoint['optimizer_state_dict'])``

4. 文件保存失败或报错

问题：在保存模型时，出现报错或文件保存失败。

解决方案：

检查路径是否正确，确保指定的路径存在并且有写权限。
如果是由于文件太大，可以尝试使用分块保存或压缩保存：

torch.save(model.state_dict(), 'model_weights.pth', _use_new_zipfile_serialization=False)``

四、总结

模型保存是深度学习项目中至关重要的一环，掌握好如何选择保存格式、保存参数以及解决常见问题，能够确保你的模型在未来可以被复现、推理或进一步训练。无论你是新手还是有经验的AI从业者，理解这些保存技巧都能提升你的工作效率，并确保模型在各个环境中的稳定运行。在本系列的后续文章中，我们将进一步探讨模型优化与测试的技术细节，帮助你完成整个大模型的研发流程。

零基础如何学习大模型 AI

领取方式在文末

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型典型应用场景

①AI+教育：智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据，提供量身定制的学习方案，提高学习效果。
②AI+医疗：智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像，辅助医生进行早期诊断，同时根据患者数据制定个性化治疗方案。
③AI+金融：智能投顾和风险管理系统帮助投资者做出更明智的决策，并实时监控金融市场，识别潜在风险。
④AI+制造：智能制造和自动化工厂提高了生产效率和质量。通过AI技术，工厂可以实现设备预测性维护，减少停机时间。

⑤AI+零售：智能推荐系统和库存管理优化了用户体验和运营成本。AI可以分析用户行为，提供个性化商品推荐，同时优化库存，减少浪费。

⑥AI+交通：自动驾驶和智能交通管理提升了交通安全和效率。AI技术可以实现车辆自动驾驶，并优化交通信号控制，减少拥堵。

…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。

学习资料领取

如果你对大模型感兴趣，可以看看我整合并且整理成了一份AI大模型资料包，需要的小伙伴文末免费领取哦，无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

部分资料展示

一、 AI大模型学习路线图

整个学习分为7个阶段
在这里插入图片描述

二、AI大模型实战案例

涵盖AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，皆可用。
在这里插入图片描述

三、视频和书籍PDF合集

从入门到进阶这里都有，跟着老师学习事半功倍。
在这里插入图片描述

在这里插入图片描述

四、LLM面试题

在这里插入图片描述

如果二维码失效，可以点击下方链接，一样的哦
【CSDN大礼包】最新AI大模型资源包，这里全都有！无偿分享！！！

😝朋友们如果有需要的话，可以V扫描下方二维码联系领取~
在这里插入图片描述

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

如何卸载openclaw

OpenClaw（俗称"龙虾"）是一个本地 AI 智能体平台，用于在电脑上部署自主运行的 AI 代理。

AI Agent技术社区

（已解决）安装openclaw龙虾[特殊字符]npm权限问题EACCES

先安装升级完成node和homebrew后。安装就很快了。但是遇到EACCESS问题！！！发现报错了。问题错误：核心问题是sharp解决（90%人遇到的）安装 macOS 编译工具很多人缺少，导致sharp无法编译。运行：xcode-select --install安装完成后重新执行：sharp编译需要 C++ 编译器和 node-gyp，这些都来自 Xcode CLI。