基于Mlc-llm端侧部署大模型
Mlc-llm是高性能的模型部署框架,支持在电脑、手机上运行大模型,使用这个平台可以轻松将主流的qwen、llama、phi等大模型部署到手机上。
·
基于Mlc-llm端侧部署大模型
Mlc-llm是高性能的模型部署框架,支持在电脑、手机上运行大模型,使用这个平台可以轻松将主流的qwen、llama、phi等大模型部署到手机上。
配置环境
我的需求是在安卓上运行大模型,因此需要配置SDK、NDK等东西,需要有一定的基础:
这个框架其实还是比较麻烦配置的,这里强烈推荐按照官方文档走:Android SDK — mlc-llm 0.1.0 documentation
我实在Windows环境下配置的,如果有Linux系统需求,推荐MLC-LLM框架的安卓应用部署实战_mlc llm-CSDN博客。
Mlc-llm框架运行流程
1、下载模型;
2、编译需要的模型,将模型按层进行切割并生成运算单元;
3、交叉编译成apk文件;
4、加载模型文件做推理。
Mlc-llm在端侧运行性能
我使用的是2019年的安卓手机,运行效率如下:
| 模型 | prrfill | decode |
|---|---|---|
| Qwen2-0.5B | 15 | 19 |
| Qwen2-1.5B | 4 | 6 |
| Llama3-8B | 1 | 2 |
| Phi3-3.8B | 2 | 4 |
总结
笔者的手机性能较差,测试结果可能不太好,有过有高性能的手机可以测试看看效果,欢迎在评论区反馈一下。
更多推荐



所有评论(0)