在这里插入图片描述

“把复杂留给机器,把创造留给你。”
—— Genesis-LLM 项目理念

为了帮助大家学习大模型,互帮互助,有任何问题欢迎随时私信我,交流讨论关于大模型的问题,包括项目里面的所有内容,希望与大家共同进步。大家记得点赞关注收藏,并且star我的仓库哦!

随着大模型的爆发,越来越多人开始想要训练自己的大语言模型(LLM)
想要更懂中文?更懂某个领域?更能按照你的业务需求生成内容?

问题是:
预处理、训练、微调、对齐、部署、量化……
整套流程又长又复杂,踩坑无数。

于是,Genesis-LLM 出现了。


为什么需要这个项目?

  • 避免重复造轮子 - 数据处理、模型训练、推理部署的脚本已经写好,修改配置即可使用
  • 降低入门门槛 - 项目对 LLM 训练全流程进行清晰拆解,配合详细注释,帮助新手快速理解每个环节的原理
  • 最佳实践沉淀 - 集成了 LoRA/QLoRA、DPO、vLLM 等主流技术,避免踩坑

适合谁?

  • LLM 初学者:通过完整的训练流程示例,快速了解数据处理 → 词表扩充 → CPT → SFT → RLHF → 部署的全链路
  • 算法工程师:开箱即用的脚本和配置模板,专注于数据和模型调优,而非工程细节
  • 研究人员:灵活的配置系统,方便快速实验不同的训练策略

核心特性

  • 数据处理管线 - HuggingFace 数据集采集、清洗、去重、质量筛选
  • 词表扩充 - 中文/领域词表训练与合并,Embedding 扩展
  • 高效微调 - 支持 LoRA/QLoRA 参数高效微调,显存占用低
  • RLHF 对齐 - 支持 DPO、PPO、GRPO 等对齐算法
  • 配置驱动 - 所有参数通过 YAML 配置管理,易于复现
  • 实验追踪 - 集成 WandB / SwanLab 实时监控
  • 推理部署 - vLLM 高性能推理、llama.cpp 边缘部署、AWQ/GPTQ 量化

GitHub 项目地址 👉 https://github.com/likebeans/Genesis-LLM


🌱 什么是 Genesis-LLM?

在这里插入图片描述

Genesis-LLM 是一个从零开始构建 LLM 的工程级项目,它帮助你完成从:

  • 数据收集与处理
  • tokenizer 词表扩展
  • 模型预训练 & 微调
  • RLHF 对齐
  • 推理与部署(vLLM / llama.cpp / 量化)
  • 实验管理与可复现配置

全部流程,一站式搞定。

它的理念是:

让你能专注在“模型能力”,而不是反复造工程轮子。

这个项目尤其适合:

  • 想入门 LLM 却找不到入口的人
  • 想提升工程能力的算法工程师
  • 想做专业领域模型(医学 / 法律 / 金融 / 教育)的研究者
  • 想快速尝试各种训练策略的实验者

✨ 核心亮点

🧹 1. 完整数据处理流水线

支持数据:

  • 收集 → 清洗
  • 去重 → 数据格式化
  • 质量筛选 → 统一生成训练集

你可以一键从 HuggingFace Hub 获取语料,并轻松构建你的自定义训练数据集。


🔡 2. tokenizer 词表扩展

对中文 / 专业词汇支持更友好,能减少 OOV(未登陆词)问题,提升模型理解准确度。

常用于:

  • 中文专用 tokenizer 扩展
  • 领域术语新增(医学名词、法律规范、金融缩写等)

🧠 3. 全套模型训练流程

支持主流训练策略:

  • CPT(继续预训练)
  • SFT(监督微调)
  • DPO / PPO / GRPO(RLHF 对齐)
  • 支持分布式加速、混合精度训练

你只需改 YAML 配置即可跑通全流程。


⚡ 4. LoRA / QLoRA 高效微调

显存不够?预算不够?

不用怕。

Genesis-LLM 内置 LoRA / QLoRA,你只需要:

  • 一张 4090
  • 或少量租赁 GPU

就能微调自己的模型。


🚀 5. 多种推理 & 部署方式

支持:

  • vLLM(高性能推理)
  • llama.cpp(本地 CPU / 手机 / 边缘设备)
  • AWQ / GPTQ 量化(压缩模型)

不论你是想部署在服务器、个人电脑,还是移动端,都能找到合适方案。


📊 6. 实验管理 & 可复现性

项目完全配置驱动,并支持:

  • Weights & Biases(W&B)
  • SwanLab

非常适合:

  • 多实验对比
  • 论文复现
  • 参数调优
  • 团队协作

🌟 一个真实的例子:训练你的行业专属 LLM

假设你正在做一个 金融领域中文 LLM

  1. 从 HF 下载金融语料
  2. 用数据处理模块清洗 + 去重
  3. 扩展 tokenizer,将专业词汇加入词表
  4. 使用 QLoRA 微调一个开源基座模型
  5. 用 DPO 让模型更“懂人话”
  6. 用 vLLM 部署到服务器
  7. 用 AWQ 量化一个模型在笔电上运行

只需几个配置文件 & 一些命令,你就能从 0 → 1 做出一个行业模型。


📦 如何开始?

git clone https://github.com/likebeans/Genesis-LLM
cd Genesis-LLM

然后根据 README 设置环境,选择你想跑的数据处理 / 微调 / 推理模块即可。


🔮 项目的愿景

  • 让 LLM 不再成为“大公司专属”
  • 让更多中文开发者能轻松训练适合自己的模型
  • 让领域模型建设更简单、更高效
  • 建立一个开放、工程友好、可复现的大模型社区

随着越来越多人加入,这个项目将越来越成熟。


⭐ 一起开源,一起成长

Genesis-LLM 欢迎:

  • Star ⭐
  • Fork
  • Issue
  • Pull Request

无论你是初学者还是专家,都可以参与,一起建设属于中文社区的 LLM 训练 & 工程生态。

GitHub 项目地址:
👉 https://github.com/likebeans/Genesis-LLM

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐