它不是神棍,是 40 条推理规则驱动的 Agent。

上周在 GitHub 上看到一个项目,名字叫 MingLiSkill

简介只有一句话:“命理学(八字/紫微斗数)推理 Skill,为 LLM Agent 提供命理分析工具和系统化推理框架。”

我点进去看了两个小时。看完只有一个感受——这可能是目前最严谨的开源命理推理系统。不是那种"输入生日告诉你今天运势"的玩具,而是一个给大模型 Agent 用的系统化推理引擎

它把八字、紫微斗数、六爻、梅花易数、奇门遁甲、大六壬、面相、风水——八套术数体系——全部封装成了 Python 工具包,然后让 DeepSeek 等 LLM 按照 40 条推理规则自主推理出答案。

最新的 Benchmark 测试:随机 15 题,对了 14 题,准确率 93.3%


一、这项目到底是干什么的?

简单说:让 AI 能做命理推断,而且做得比很多"大师"靠谱。

传统的命理推断靠人——师傅根据你的出生年月日时,排出八字(四柱)和紫微斗数十二宫,然后结合经验判断你的性格、事业、婚姻、财运等。

MingLiSkill 把这个过程完全自动化了:

from tools import HybridMingliToolkit
import json

htk = HybridMingliToolkit()

result = htk.analyze_question(
    year=1990, month=6, day=15, hour=12, gender='男',
    category='事业',
    question='此命最适合从事什么行业?',
    options_json=json.dumps([
        {"letter": "A", "text": "公务员"},
        {"letter": "B", "text": "自己做生意"},
        {"letter": "C", "text": "技术工程师"},
        {"letter": "D", "text": "教师"}
    ])
)
data = json.loads(result)

这一步返回的是完整的排盘数据——八字四柱、五行力量分布、十神关系、紫微十二宫主星、大运流年——全部计算完毕,以结构化的 JSON 形式返回。

然后 LLM Agent 拿到这些数据,按照 SKILL.md 中写好的推理规则,自己判断答案。

关键:AI 不是"猜"的,是在一个规则系统里"推"的。

但这只是工程层面的解读。真正让这个项目区别于其他"AI算命"项目的,是接下来的东西——40条推理规则。


二、更关键的东西:40 条推理规则

如果只是调个工具排个盘,那和普通算命软件没什么区别。

MingLiSkill 的核心价值在于它的 SKILL.md——一份长达数千行的推理规则文档。里面写了 40 条 Agent 必须遵守的推理纪律,我挑几条最有意思的说:

规则 2:地支 > 天干

天干 = 外在表现、别人看到的。地支 = 内在真实、潜意识。
当天干和地支信号冲突时,地支为真,天干为表。

这条规则直接决定了性格判断的准确度。一个人天干正印(表面知书达理)+ 地支双七杀(内在恐惧压抑)→ 内在恐惧是核心性格,正印只是外包装。没有这条规则,AI 会误判成一个"温和有教养的人"。

规则 3:制化改写十神

十神不是孤立存在的。有制化的十神,性格表现被改写。
七杀被食神所制 → 不暴戾,反而"聪明有才、化压力为动力"。

这相当于命理学里的"化学反应方程"——两个十神相互作用,产出的不是 A+B,而是 C。不做制化检查,会误判一个人的核心性格。

规则 5:多信号交叉验证

任何选项判断必须至少有 2 个独立信号源支撑。单一信号作出的判断,置信度低。

八字信号是一个维度,紫微斗数是一个维度,流年数据是第三个维度。这三个维度的信号要互相印证,取"净正向最多的选项"。这和量化交易里的多因子模型逻辑一模一样。

规则 7:十神力量权重原则

所有涉及数量的判断不得仅数"出现次数",必须同时乘以对应五行力量。
力量值 < 1.0 的十神即使出现多次,实际影响力极弱。

这条规则来自 Benchmark 测试中反复踩坑后的修正。AI 天然喜欢"数数"——看到印星出现了 3 次,就判高学历。但加权后印星力量只有 0.5,实际连大专都勉强。不加权的判断是灾难性的。


这 40 条规则不是凭空设计的。每一条都来自 Benchmark 错题的回溯修正。

那这些规则到底准不准?数据最能说明问题。


三、93% 的准确率是怎么测出来的?

MingLiSkill 的所有推理规则都在一个统一的 Benchmark 数据集上测试——MingLi-Bench,包含 160 道命理选择题,覆盖 11 个类别(事业、婚姻、财运、健康、子女、学业、家庭、性格、官非、灾劫、外貌)。

三种推理模式的对比:

推理模式 准确率 速度 全球排名
Agent + Skill(LLM自主推理) 93.3% 分钟级
混合路由(LLM+规则引擎) 41.77% 秒级 第 2 名
纯规则引擎 v3 33.75% 0.02 秒/题 第 8 名

三个数据点很有意思:

纯规则引擎只有 33.75%。 说明命理推断不是一个"穷举规则"就能解决的问题,规则引擎能覆盖模式清晰的部分(比如灾劫 100%、健康 53%),但对需要"综合判断"的题目,规则是死的。

LLM Agent 能达到 93.3%。 因为 Agent 用规则作为约束框架,但在框架内做了自主推理——相当于一个"受过系统训练的命理师",而不是一个"按手册操作的机器"。

最让我惊讶的是各分类的准确率:

类别 正确 题数 准确率
事业 5 5 100%
健康 3 3 100%
家庭 4 4 100%
婚姻 1 1 100%
性格 1 1 100%
学业 2 3 67%

事业、健康、家庭、婚姻、性格——五个类别全对。学业错了 1 题,可能是因为"印星加权"的规则在部分边界 case 上还需要调优。


到这里你可能会问:这东西到底有什么用?


总结:一个开源项目的野心

MingLiSkill 不是那种"输入生日看桃花运"的娱乐产品。

它是一个严肃的推理框架实验——把千年传承的命理体系,用现代 AI Agent 的方式重新表达。规则是约束,不是教条;Agent 是推理者,不是执行器。

对我来说,这个项目最有价值的地方不是它"会算命",而是它展示了 LLM Agent 在一个高度结构化的领域里,如何在规则约束下做出超越规则的推断。

我没有提这个项目的不足。不是因为它没有——是因为它的 Benchmark 仍在持续迭代,每周都有规则更新和准确率提升。下一次测试的成绩,可能就不是 93% 了。

项目地址:github.com/dfytensor/MingLiSkill

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐