【书生·浦语】大模型实战营——LMDeploy 大模型量化部署实战

量化可以大大降低显存，同时提升推理速度。LLM 是典型的访存密集型任务。

打盹少年

587人浏览 · 2024-01-15 11:51:05

打盹少年 · 2024-01-15 11:51:05 发布

大模型部署背景

大模型部署是指将训练好的模型在特定的软硬件环境中启动的过程，使模型能够接收输入并返回预测结果。大模型的内存开销巨大，7B模型仅权重需要14G内存。另外大模型是自回归生成，需要缓存Attention的 k/v。

LMDeploy 简介

推理性能

核心功能-量化

量化可以大大降低显存，同时提升推理速度。LLM 是典型的访存密集型任务

Weight Only 量化：

核心功能——推理引擎 TurboMind

主要包括四个部分：1. 持续批处理；2. 有状态的推理； 3. Blocked k/v cache； 4. 高性能 cuda kernel。

1. 持续批处理

2. 有状态的推理

3. Blocked K/V Cache

4. Cuda Kernel （算子融合可以有效减少访存次数）

核心功能-推理服务 api server

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

如何卸载openclaw

OpenClaw（俗称"龙虾"）是一个本地 AI 智能体平台，用于在电脑上部署自主运行的 AI 代理。

AI Agent技术社区

（已解决）安装openclaw龙虾[特殊字符]npm权限问题EACCES

先安装升级完成node和homebrew后。安装就很快了。但是遇到EACCESS问题！！！发现报错了。问题错误：核心问题是sharp解决（90%人遇到的）安装 macOS 编译工具很多人缺少，导致sharp无法编译。运行：xcode-select --install安装完成后重新执行：sharp编译需要 C++ 编译器和 node-gyp，这些都来自 Xcode CLI。

AI Agent技术社区

cover

【工具类】kali linux 安装 OpenClaw + 配置大模型 + 接入飞书 + 提示词注入实验

AI Agent技术社区

所有评论(0)

查看更多评论

打盹少年

@wudongliang971012

已为社区贡献2条内容