国产芯+开源框架vllm构建大模型生态

华为910系列支持vllm 是开源大模型推理引擎的一个非常重要的项目这个PPT 是最近vllm 这个开源组织在北京刚刚组织的一次技术的交流会议它的整个一个PPT主要是分成三部分，第一部分主要是介绍了vllm插件的系统，第二个介绍了vllm ascend 项目，如何让华为的 Ascend NPU也能够支持开源的这样一个大模型的推理框架。第三部分这个项目未来的计划首先先介绍一下vllm为什么需要插件系

AGI大模型老王

996人浏览 · 2025-04-10 15:08:22

AGI大模型老王 · 2025-04-10 15:08:22 发布

华为910系列支持vllm 是开源大模型推理引擎的一个非常重要的项目

这个PPT 是最近vllm 这个开源组织在北京刚刚组织的一次技术的交流会议

它的整个一个PPT主要是分成三部分，

第一部分主要是介绍了vllm插件的系统，

第二个介绍了vllm ascend 项目，如何让华为的 Ascend NPU也能够支持开源的这样一个大模型的推理框架。

第三部分这个项目未来的计划

首先先介绍一下vllm为什么需要插件系统？

vLLM插件系统：应对多样化挑战的架构设计

开源生态的机遇与挑战

作为当前最活跃的开源大模型推理框架，vLLM展现了惊人的技术包容性：

支持100+主流大模型架构

集成23种量化压缩算法

兼容8种硬件加速平台

包含100+自定义高性能算子

实现12种注意力机制优化方案

这种技术多样性在推动社区繁荣的同时，也带来了维护复杂度指数级增长的问题。传统单体架构面临硬件适配冲突、算子版本兼容、调度策略碰撞等诸多挑战。

vLLM创新的双轨插件体系有效解决了这一困境：

这个插件系统的主要实现是通过一个叫setup tools和在vlllm里面去注册这样的一个入口的方式，让这个插件能够支持更多的这种类似的新模型，新的量化的算法，包括一些新的算子和硬件，插件分为两种类型

一种是通用插件系统：

# 插件注册示例

entry_points={

'vllm.generic': [

'custom_model=my_plugin:ModelBuilder',

'new_quant=my_plugin:QuantMethod'

]

}

支持模型架构、量化方法等业务层的灵活扩展

一种是平台级插件框架：

通过Python entry_points机制实现硬件平台抽象层

# NPU插件注册

def register():

from vllm_ascend.platform import NPUPlatform

return NPUPlatform()

# setup.py配置

entry_points={'vllm.platform_plugins': ['ascend_plugin=my_plugin:register']}

该设计将硬件差异封装在平台插件内部，实现核心框架与硬件解耦。

和vllm 集成是非常简单的，vllm-ascend 是vllm 社区官方项目通过pip install就可以安装，对使用vllm引擎来说是没有代码改动的，是无需感知的。这一点很重要。也是vllm插件设计的主要目的。

系统架构图如下

关于平台注册注册，算子注册，Attention等实现注册机制如下图所示。

源代码主要是通过plugin 机制，实现一些函数就可以了。函数它里面包括具体的 GPU怎么调用的，GPU的怎么通讯的，注意力机制是怎么算的，如何自定义优化的算子，到底是怎么来做，那么它都是要通过一些函数去实现对910B的操作，这种基于抽象接口的插件架构本质上采用了面向对象编程中的策略模式(Strategy Pattern)和模板方法模式(Template Method Pattern)。

目前支持的特性和模型

910B的系统去支持开源的系统，它的工作量还是非常大的，PPT介绍了release 的策略，如何选在vllm 的主版本和vllm-ascend 这样一个辅版本，他们之间的这个版本它基本跟主版本是一致的，比如vllm v0.7.3，那么你可以用v.0.7.3rc1，plugin这里面也用了一个华为一个比较重要的类似于CUDA这一层的SDK华为叫做CANN8.0版本.

结语

vLLM与Ascend的深度整合标志着国产AI硬件在开源生态建设上的重要突破。通过插件化架构和持续的技术优化，我们正在构建一个更开放、更高效的大模型推理生态系统。期待与全球开发者共同推动这一技术前沿的发展

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。