Agent论文分享~02：MALR法律应用相关论文

大型语言模型（LLMs）在完全理解法律理论和执行复杂法律推理任务时可能会遇到困难。在这项研究中，我们引入了一项具有挑战性的任务（混淆指控预测），以更好地评估LLMs对法律理论的理解和推理能力。我们还提出了一种新的框架：用于提升复杂法律推理能力的多智能体框架（MALR）。MALR采用非参数学习，鼓励LLMs自动分解复杂的法律任务，并模仿人类学习过程从法律规则中提取见解，帮助LLMs更好地理解法律理

蟹堡王不卖汉堡

1074人浏览 · 2025-02-15 21:59:13

蟹堡王不卖汉堡 · 2025-02-15 21:59:13 发布

MALR论文阅读记录

在这里插入图片描述
论文：Can Large Language Models Grasp Legal Theories? Enhance Legal Reasoning with Insights from Multi-Agent Collaboration - ACL Anthology
论文发表年份：2024
期刊/会议：Emnlp
Code：yuanwk99/MALR: The source-code of “Can Large Language Models Grasp Legal Theories? Enhance Legal Reasoning with Insights from Multi-Agent Collaboration” (EMNLP2024)
本文内容介绍： 本篇博客记录了我阅读这篇论文的一些心得体会，以及一些疑问，如果有不对理解不对的地方还请大佬指正。从事agent方向的小伙伴可以一起交流学习。
推荐指数：三颗星
文章类型：agent在法律方向的应用

摘要

论文的贡献

这篇论文的主要贡献可以总结为以下几个方面：

1.提出了一个新的挑战任务：混淆指控预测（Confusing Charge Prediction）

论文通过引入“混淆指控预测”任务，提供了一个全新的角度来评估LLM（大语言模型）在法律推理中的表现。通过这一任务，研究者能够更准确地测试模型在处理法律推理时的细节辨别能力，特别是在面对相似或混淆的法律概念时。
在实际法律环境中，很多案件可能会面临相似但不同的罪名，而模型需要能够精确区分这些细微差别。这一任务设计的目的就是检验模型在这一方面的能力。

2.提出了MALR框架：多代理框架（Multi-Agent Legal Reasoning Framework）

MALR框架是论文的核心贡献之一。该框架通过非参数学习（Non-Parametric Learning）帮助LLM自动分解复杂的法律推理任务，并模拟人类学习的过程，逐步从法律规则中提取见解，从而增强LLM对法律理论的理解和推理能力。
该框架的一个关键特点是，无需人工干预，LLM可以在框架中通过自动计划和规则分解等步骤，自主完成法律推理任务。

3.通过任务分解和外部知识反馈来提升LLM的法律推理能力

论文提出的MALR框架通过任务分解将复杂的法律推理任务拆解成若干子任务，并使用外部法律知识（如刑法条文等）来提供反馈和见解。任务分解帮助LLM更清晰地理解问题，并逐步推导出正确的结论。
这种任务分解与外部知识的结合，能够显著提升LLM在复杂法律推理任务中的表现，尤其是在应对不同罪名的混淆时。

4.改进了LLM在法律推理中的推理步骤：通过试错与经验积累提升推理质量

论文设计了经验积累和错误纠正的训练模块，让LLM在推理过程中不断通过试错、成功经验和错误经验来优化推理能力。通过这种方式，LLM能够从历史推理过程中汲取经验，逐步改进自身的推理质量。
这种方法强调了学习的过程和反馈机制，有助于提升LLM的法律推理能力。

5.在不同的LLM模型上展示了框架的有效性

论文不仅在标准的大型LLM（如GPT-3.5和GPT-4）上测试了MALR框架，还在不同大小的开源LLM（如Qwen-2系列）上进行了实验，证明了该框架在各种模型上的适用性，尤其是在小型模型上，MALR框架能够带来更显著的性能提升。

这篇论文的主要贡献在于提出了一个新的评估任务（混淆指控预测），并基于此任务设计了一个创新的法律推理框架（MALR）。该框架通过任务分解、外部知识反馈、经验积累等多种方法，显著提高了LLM在法律推理中的表现，尤其是在处理复杂且易混淆的法律案件时。论文还验证了该框架在不同模型上的有效性，证明了其在实践中的广泛适用性和重要性。

数据集

论文中的所谓的混淆数据集，其实就是在CAIL-2018以及其他俩个，标注完整的数据中，抽取数据，并添加易混淆的判定案例，来构建了一个新的数据集。

CAIL-2018

数据集是来自于中国法研杯比赛，来自“中国裁判文书网”公开的刑事法律文书，其中每份数据由法律文书中的案情描述和事实部分组成，同时也包括每个案件所涉及的法条、被告人被判的罪名和刑期长短等要素。数据集共包括268万刑法法律文书，共涉及202条罪名，183条法条，刑期长短包括0-25年、无期、死刑。

# 部分数据展示
{
    # 犯罪事实
    "fact": "西宁市城.......",
    # 相关判决
    "meta": {
        "punish_of_money": 100000,  # 罚款
        "accusation": [
            "诈骗"   #  罪名  
        ],
        "relevant_articles": [
            "266"  # 相关法条编号列表
        ],`在这里插入代码片`
        "criminals": [
            "黄1某"  # 犯罪嫌疑人
        ],
        "term_of_imprisonment": {  # 刑期 
            "death_penalty": false,  # 是否死刑
            "imprisonment": 132,   # 刑期
            "life_imprisonment": false   # 是否是无期
        }
    }
}

思考

问题1

论文中的方法是人工标注混淆指控，那其实最好的方法不应该是先由llm来生成罪名，再人工判断，哪些案例容易被llm混淆，这样即保证了真实性，又能显示出llm哪方面存在缺陷？

工具回答+人工总结

这种方法让LLM自己生成可能的混淆指控的确能够更真实地反映出其推理缺陷，并能揭示模型在特定法律推理上的不足。但是本篇论文的主要工作方向引入“混淆指控预测”任务。来测试模型在处理法律推理时的细节辨别能力，特别是在面对相似或混淆的法律概念时。

问题2：

在我看来这种引入新任务的方式，好像没有必要吧，你引入了混淆指控，相当于人为的给任务添加了难度，对于解决现实问题好像没有帮住？是否有无病呻吟的嫌疑呢？

工具回答+人工总结

如果单纯从“是否有必要”的角度来看，设计一个人为的评估任务可能有些“无病呻吟”，尤其是如果模型能够在更多实际的、真实的法律案件中得到检验。然而，在模型的研究和发展过程中，设计一些人工任务来系统化地评估模型能力是一个常见的做法。通过特定的任务，可以更好地识别模型的弱点，从而针对性地进行改进。
总的来说，是否“无病呻吟”取决于你如何看待人工设计任务在研究中的作用。如果你认为通过实际案件来测试模型能力更加符合实际需求，那么这种设计可能显得有些多余；但从学术研究的角度来看，这种任务设定有助于精细化评估和提升模型的推理能力。