TReB：评估大语言模型表格推理能力的综合基准

本文提出了一种全面评估大语言模型（LLMs）表格推理能力的基准TReB，包含26个子任务，覆盖6大核心技能（自然语言理解、表格理解、表格基本操作、表格计算操作、数据分析和高级数据分析）。针对现有基准在数据质量、推理模式和评估指标方面的不足，TReB构建了高质量数据集（含人工验证的5,000+表格问答对），支持三种推理模式（TCoT、PoT、ICoT），并设计了多维度评估指标。实验测试了20+先进L

Paper易论

1325人浏览 · 2025-06-30 21:39:40

Paper易论 · 2025-06-30 21:39:40 发布

Ce Li $}^{1 \dagger}$ Xiaofan Liu $}^{1 \dagger}$ Zhiyan Song $}^{1 \dagger}$ Ce Chi $}^{1 \dagger}$ Chen Zhao $}^{1 \dagger}$ Jingjing Yang $}^{1 \dagger}$ Zhendong Wang $}^{1 \dagger}$
Kexin Yang $}^{1 \dagger}$ Boshen Shi $}^{1 \dagger}$ Xing Wang $}^{1 \dagger *}$ Chao Deng ${ }^{1}$ Junlan Feng ${ }^{1 *}$
${ }^{1}$ 九天团队，中国移动研究院，北京，中国
{lice, liuxiaofan, songzhiyan, chice, zhaochen, yangjingjing, wangzhendongai, yangkexin, shiboshen, wangxing, dengchao, fengjunlan}@ chinamobile.com

摘要

企业和行业中的大多数数据存储在表格、数据库和数据仓库中。由于表格结构数据隐藏的语义、固有的复杂性和结构性，对大语言模型（LLMs）来说，在表格推理方面提出了重大挑战。其中一个挑战是缺乏一个有效的评估基准，以公平地反映LLMs在广泛的表格推理能力上的表现。本文填补了这一空白，提出了一个全面的表格推理演进基准TReB，它测量浅层表格理解能力和深层表格推理能力，总共26个子任务。我们通过迭代的数据处理程序构建了一个高质量的数据集。我们创建了一个评估框架，通过三种不同的推理模式——TCoT、PoT和ICoT——稳健地衡量表格推理能力。此外，我们使用此框架对超过20种最先进的LLMs进行了基准测试，并证明了其有效性。实验结果表明，现有的LLMs在解决复杂和现实世界的表格相关任务方面仍有显著的改进空间。数据集和评估框架都是公开的，数据集托管在[HuggingFace]上，框架托管在[GitHub]上。

1. 引言

表格推理是指模型通过逻辑操作解释、操作和推导表格数据的核心能力（Zhang等，2025）。它在自然语言处理领域（Lu等，2025）中具有突出地位，并在现实世界的应用中具有巨大潜力

例如商业智能和医疗保健（Cheng等，2025）。传统方法主要集中在通过结构嵌入和注意力机制编码表格的语义，使预训练模型更好地理解表格内容（Kim等，2025；Su等，2024；Zhu等，2023）。近年来，大型语言模型（LLMs）如GPT-3.5和GPT4（Brown等，2020；Achiam等，2023）的出现重新定义了表格推理的方法论范式。LLMs不再仅依赖于表格语义嵌入，而是利用提示工程、外部工具如SQL和Python（Wang等，2023；Chai等，2024），以及复杂的推理技术如思维链（CoT）（Wei等，2022）来理解和分析表格数据。这些发展展示了LLMs在执行表格相关数据分析方面的显著推理能力，即使没有特定任务的修改。

由于LLMs在表格分析中的日益增长的潜力，已经开发了几项基准，如TableBench（Wu等，2025b）和RealTableBench（Su等，2024），以评估它们的推理能力。这些基准从多个维度评估LLMs，包括信息检索、结构理解、数值计算等。尽管有这些进展，但由于数据&任务质量、推理范式和评估指标等因素，完全评估LLMs的表格推理能力仍然具有挑战性。这些关键因素尚未被以前的工作充分考虑。

首先，当前数据集的质量和实用性仍然存在问题。许多基准是使用自动化脚本或LLMs本身生成的，这可能引入噪声数据，如格式错误的表格或错误的答案。此外，现有数据集通常包含小而过于简化的表格，无法反映现实世界表格结构的复杂性。此外，大多数现有基准集中在有限的任务类别上，如表格事实验证或简单的数值计算，未能捕捉到现实世界表格分析的多面性。这种狭窄的范围限制了它们在更复杂和真实场景中评估模型的能力。

其次，当前的基准缺乏推理范式的多样性，并且未充分利用现代LLMs的高级功能。大多数基准依赖于提示工程来引导模型生成文本答案。然而，现实中的表格推理任务通常需要模型调用工具、执行代码或进行自我反思以得出准确结论。例如，通过自由形式的文本计算一列的标准差容易出错，而允许代码执行可以确保准确性。此外，单轮交互不足以应对需要迭代解决问题和推理的复杂、多步骤任务。为了更好地与现实应用保持一致，基准应该支持更多样化的推理模式，能够使用工具、执行代码和自我反思。

最后，流行的评估指标在评估LLM在表格推理任务中的性能时往往存在偏差。虽然数据检索和计算任务通常需要简洁精确的答案，但LLMs经常提供详细的推理过程和最终结果。传统的自然语言相似度指标，如BLEU（Papineni等，2002）和ROUGE（Lin，2004），往往会因为推理结构或冗长程度的不同而惩罚模型，即使最终答案正确。这种不一致性突显了需要任务特定的指标，以公平评估最终答案的准确性和中间推理的质量。

为了解决评估LLMs表格推理能力的关键挑战，我们在本文中提出了一项基准TReB，该基准提供了全面、客观和多维的评估系统。通过关注高质量数据集、全面任务设置、多样推理模式和稳健评估方法，TReB更好地反映了现实场景并全面评估模型能力：

高质量数据集：我们提供了一个精选数据集，结合了公共清理数据、现实网络表格和之前不可用的专有表格问答（TableQA）数据。所有问答对均手动构建以符合实际应用，每个表格和问答对都经过严格清洗和验证，以消除格式错误、噪声数据和不准确性。

全面任务设置：为了评估广泛范围的表格推理能力，我们确定了6项核心技能并开发了26个相应子任务，能够在表格数据分析的各个方面进行细粒度和多维评估模型性能。

多样推理模式：我们介绍了多种推理模式以评估LLMs的真实能力。

LLMs。该基准支持文本思维链（TCoT）（Wei等，2022），用于生成文本答案的任务，如表格摘要和标题生成。它还包括程序思维（PoT）（Chen等，2022），其中模型编写和执行代码以处理数据检索和数值计算，确保准确和客观的结果。对于复杂的多步骤任务，交错思维链（ICoT）（Yao等，2023）结合了文本和代码推理，实现动态代码执行、中间结果总结和自我反思，从而在更具挑战性的问题上提高性能。

稳健评估方法：为了确保可靠的评估，我们设计了几个针对表格推理任务特征的评估指标。对于表格摘要等文本生成任务，我们使用BLEU和ROUGE作为评估指标。对于数据检索、计算和更复杂的任务，我们依靠判别LLM来根据地面真值评估答案的语义相似性和正确性。对于固定输出格式的任务，我们采用提示工程和自定义规则来精确计算准确性。

总之，我们的工作为LLM和表格挖掘社区做出了三项重要贡献：（1）一个开源的、高质量的数据集和全面的任务设置；（2）一个整合多样化推理模式的稳健评估框架；（3）最新的LLMs详细基准测试结果。通过开放源代码和数据集及评估框架，我们旨在建立一个全面和可重复研究的新标准，表格推理。我们相信这个统一的基准不仅将促进不同架构和训练策略的模型之间的公平比较，还将鼓励开发更加稳健、通用和可执行的表格推理系统。

2. 数据集

在本节中，我们首先介绍基于我们的评估框架构建的数据，然后详细介绍数据构建过程，包括数据收集、数据生成和增强、数据清洗和数据集总结。

2.1. 数据集概述

现有的大语言模型（LLMs）在表格推理、理解和处理方面的评估方法主要是基于单一任务的数据集（见表6详情）。尽管存在一些多任务基准，但它们的范围仍然有限，未能全面评估LLMs在表格数据上的总体推理能力。

https://huggingface.com/XXXX
    https://github.com/XXXX
    表1：数据集概览

核心技能	子任务	任务描述	数据量
NLU	理解	评估LLMs的语义理解能力	500
	指令遵循	评估LLMs遵循指令的能力	90
	幻觉评估	测量LLMs产生虚假信息的倾向	500
	鲁棒性评估	测试LLMs在不同输入下的稳定性	500
	代码生成	评估LLMs生成功能性代码的能力	500
	数学推理	评估数值推理能力	500
TU	表格检索	测试表格数据的信息检索（带/不带提示）	500
	表格摘要	评估从表格生成描述性文本的能力	500
	表格列名命名	评估从数据中推断列名的能力	500
	表格标题命名	评估生成简洁表格标题的能力	500
	表格事实核查	测试表格理解和逻辑推理	500
	表格可信度验证	使用先验知识评估表格内容的有效性	15
TBO	表格查询	评估表格数据的精确和模糊查询能力	500
	表格选择	测试表格推理过滤（精确和基于语义的）	500
TCO	表格基本操作	评估表格的基本统计计算能力	500
	表格领域特定操作	评估领域特定公式的应用	239
DA	表格异常检测	测试识别异常数据点的能力	43
	表格相关性分析	评估列间关系分析能力	63
	表格假设检验	评估统计检验能力	42
	表格分布检验	评估概率分布分析能力	500
ADA	多步骤检索	测试多步骤计算和信息检索	49
	多步骤事实核查	评估多步骤事实验证	61
	多步骤操作	评估复杂的基于表格的计算	61
	多步骤相关性分析	测试高级相关性分析	49
	多步骤假设检验	评估复杂的假设检验	61
	多步骤条件计算	评估基于衍生表格的条件计算	17

为了解决这一差距，我们提出了一种多层次、层次化的评估框架，用于系统、客观和全面地评估LLMs在表格推理处理和分析中的表现。如表1所示，该框架涵盖了从基础语言理解到高级数据分析的完整能力谱系，包括6个核心技能和26个子任务：

自然语言理解（NLU）：该类别通过六个关键子任务评估大型模型的基础自然语言处理能力，包括理解、指令跟随和代码生成。它专注于精确的语言解析、准确的指令执行、连贯的文本生成和逻辑一致性。

表格理解（TU）：该类别评估大型模型解析表格结构并在表格推理场景中理解完整或部分表格内容的能力，涵盖六个主要子任务，如表格检索、表格摘要、表格标题/列名命名和表格事实检查。它侧重于结构识别，以及从表格内容中提取、汇总和解释信息。

表格基本操作（TBO）：该类别评估大型模型将自然语言意图精确转换为基本表格操作的能力，包括两个主要子任务：表格查询和表格选择。它专注于理解表格查询意图，识别相关字段，并解析条件，从而使自动表格操作成为可能。

表格计算操作（TCO）：该类别通过两个关键子任务评估大型模型在表格推理场景中执行复杂计算过程的能力，即表格一般操作和表格领域特定操作。它考察模型理解数学表达式、选择和应用适当函数以及执行涉及领域特定知识的计算的能力。这种能力构成了自动表格推理、决策制定和垂直行业应用的关键基础。

数据分析（DA）：该类别专注于大型模型在表格推理场景中执行基本统计分析和模式识别的能力，通过四个子任务，如表格异常检测和表格相关性分析。它评估模型在数据分析、变量关系建模和结果解释方面的表现，突出了其在数据驱动洞察力方面的基础能力。

高级数据分析（ADA）：该类别聚焦于LLMs执行高复杂度、多步骤（≥3步）数据分析任务的能力，通过六个子任务，包括多步骤检索、多步骤事实检查和多步骤操作。该评估目标是模型在多阶段信息整合、逻辑路径规划和跨任务推理方面的竞争力。

总之，这个分层评估框架量化了LLMs在表格推理场景中的个体和协同竞争力，提供了对其现实效用的全面评估。

2.2. 数据收集

为了克服现有表格推理基准的局限性，如任务多样性不足和数据集碎片化集成，我们采用了一种多源异构数据收集策略。收集的数据分为三大类：（1）自然语言数据，（2）基于表格的问答（QA）数据，（3）非QA表格数据。

2.2.1. 自然语言数据的收集

对于自然语言数据，我们使用基于关键词的检索方法从OpenCompass、Google Scholar和GitHub等来源收集了总计59,901条数据。检索过程利用了“语义理解”、“指令遵循”、“幻觉”、“鲁棒性”、“代码生成”和“数学推理”等关键词。在此过程中，我们选择了十个代表性数据集：MMLU (Wang et al., 2024)、Winogrande (Sakaguchi et al., 2021)、MATH (Hendrycks et al., 2021)、GSM8K (Cobbe et al., 2021)、MathBench (Liu et al., 2024)、BigCodeBench (Zhuo et al., 2024)、DS-1000 (Lai et al., 2023)、UHGEval (Liang et al., 2023)、FollowEval (Jing et al., 2023) 和 AdvGLUE (Wang et al., 2021)。数据收集阶段后，我们应用统一的后期处理流程，包括去重、格式标准化和双语翻译（中英文），以确保最终数据集的多样性和非冗余性。

2.2.2. 基于表格的问答数据的收集

为了构建一个全面的基于表格的问答数据集，我们通过结合基于关键词的检索和人工整理的混合策略收集了总计200万条数据。具体而言，我们在Web of Science和Google Scholar等主要学术平台上，过去二十年内进行广泛的文献搜索，使用“表格摘要”、“表格理解”、“表格问答”、“单元级表格问答”、“表格事实检查”、“表格结构识别”和“表格关系抽取”等关键词。候选数据集根据代表性、近期性、冗余性和与标准化文本格式（Markdown、HTML、CSV）的兼容性进行筛选。最后，我们选择了29个代表性数据集，如AIT-QA (Katsis et al., 2022)、ToTTo (Parikh et al., 2020)、HybridQA (Chen et al., 2020) 和 TableBench (Wu et al., 2025b)。这些数据集来自维基百科、新闻报道、金融文件和学术出版物等多种来源。

2.2.3. 非QA表格数据的收集

鉴于现有TableQA数据集在来源多样性和规模方面的局限性，我们进一步整理了包含205,224个条目的非QA表格数据集。通过使用“表格分类”、“时间序列预测”和“异常检测”等关键词在Web of Science、PubMed、Google Scholar和GitHub等平台进行系统搜索，我们获得了涵盖电信、气象、学术、制造、金融、教育和医疗等300个不同领域的综合性表格数据集。

2.3. 数据生成与增强

现有的基于表格的问答数据集并未完全覆盖我们评估框架中的全部26个子任务。为填补这一空白，我们引入了三种互补的数据增强策略：（1）基于规则的数据生成，（2）端到端的LLM生成，（3）对抗性的LLM多轮生成。

基于规则的数据生成：该方法基于一组通用规则从现有表格中自动生成约100万个问答对。它旨在支持四个子任务：表格查询、表格选择、表格一般操作和表格分布测试。该过程包括：（1）选择具有数字列的表格，排除缺失值或汇总行/列（如标记为“总”或“平均”）的表格；（2）使用常见的数据操作和预定义字段组合设计基于规则的模板，自动生成问答对。这些操作包括统计计算、单元或列级别的值查询以及单条件或多条件过滤等操作。

端到端的LLM生成：该方法生成12,010个问答对，主要针对表格一般操作和表格摘要子任务。生成过程采用两种模式：基于表格的生成和零样本生成。工作流程包括（1）设计特定子任务的提示以指导LLM输出；（2）使用两个独立的判别模型根据样本准确性、语义相关性和子任务覆盖情况评估生成的问答对。只有获得两个判别器全分的实例才会保留下来。这种双重验证机制确保了数据集的多样性和可靠性，最终形成一个高质量的表格推理任务基准。

多轮对抗生成：为了构建适用于表格推理设置中多步骤分析的高质量问题集，我们提出了一种新颖的生成-判别流水线。该流水线从现实世界表格中构建多轮问答对，涵盖6个子任务和846个整理样本：多步检索、事实检查、操作、相关性分析、假设检验和条件计算。通过模拟COT推理和典型分析师工作流，这种方法显著提高了生成样本的逻辑复杂性和实际相关性，从而增加其评估挑战性。该过程包括：

构建复杂推理链：基于标准数据分析范式，每个子任务分解为一系列原子级分析操作，如字段过滤、聚合和逻辑判断。这些推理链通过平衡任务多样性和程序连贯性与可执行性的随机组合生成，密切模拟现实世界分析思考过程。
生成多轮反向问题：我们采用分级框架进行问题生成，从构造的推理链和源表中生成成对的长形式和短形式问题。长形式问题模拟专家分析师工作流，强调多步推理和规划。短形式问题模仿非专家用户的问题模式，表现出更大的语言变化和简洁性。涉及两个LLM：一个用于生成，另一个作为判别器，评估语义合理性、逻辑一致性和可回答性。只有通过判别器对两种格式标准的样本才保留在最终数据集中。
回答生成：对于每个表格及其关联的问题对，使用LLM生成多个候选答案。这些候选答案随后经过人工审查，以确保最终接受答案的准确性和可靠性。

2.4. 数据清洗

为了确保评估数据的质量和可靠性，我们设计了一个严格的多级过滤和处理机制的数据清洗流水线，以提高数据纯度和一致性。工作流程包括三个关键步骤：（1）表格清洗，（2）问答对清洗，（3）问题分类。

表格清洗。为了满足实验对规模和质量的要求，我们基于以下标准系统地清洗原始表格数据：

将总单元格内容限制在30,000字符以内，以提高大型模型处理效率。
空单元格的比例不超过70%，以确保数据的可用性和完整性。
删除具有多级嵌套或复杂、非标准标题的表格，以简化结构并确保清晰的语义。

问答对清洗。为了确保任务特定问答数据的准确性和可靠性，我们实施了一个结合LLM投票和人工审查的多阶段质量控制框架。该过程包括：

候选模型推理。使用三个候选LLM生成问答对（不包括基于规则的数据）的推理，得到三组候选答案。
判定模型投票及综合评分。引入一个判定模型来评估这些候选答案与真实答案的一致性，使用以下评分规则：如果所有三个候选答案一致并且与真实答案匹配，则保留原始答案。如果所有三个候选答案一致但与真实答案不同，则用他们的共识替换原始答案。如果有两个答案一致并且与真实答案一致，则保留原始答案。在所有其他情况下（包括部分一致或完全不一致），保留原始答案。
人工审查干预。对于得分低于完全一致的问答对，抽样一部分进行专家审查。领域专家重新标注这些案例以确保答案准确性。

最终的问答数据，无论是收集还是生成的，都被分为高质量和低质量两类。由基于规则生成、人工注释或全体LLM一致验证的数据被标记为高质量，而所有其他数据被视为低质量。通过多阶段质量控制过程，我们最终确定了275万高质量数据，显著增强了数据集的完整性，为可靠评估奠定了坚实基础。

问题分类。在整合开源数据集的过程中，我们观察到一些问答项对应于评估系统中的多个下游任务。为了保持任务独立性，我们明确界定了评估标准和任务边界。我们利用LLM的语义理解能力自动分类高质量数据，确保精确的任务对齐并消除子任务间的重叠。

2.5. 数据集摘要

我们的最终评估数据集包含7,790个高质量样本，涵盖6个核心能力中的每一个子任务。样本来自经过彻底清洗的语料库，基于两个严格标准：（1）只有被归类为高质量的问答对才有资格入选；（2）仅包含单行标题的表格，以避免解析错误。每个实例都经过人工标注和双重质量控制过程，以确保最大精度。

3. 评估框架

3.1. 概述

我们的评估框架旨在系统地评估LLMs在表格任务上的表现。如图1所示，该框架从包含表格数据、用户问题、真实答案和可选附加信息的组织化数据库开始。这种结构化数据作为生成提示和评估模型输出的基础。

然后，该框架结合了三种不同的推理模式：文本思维链（TCoT）、程序思维链（PoT）和交错思维链（ICoT）。每种模式都采用独特设计的混合提示，约束模型的推理过程，确保它按照适当的路径生成答案。在TCoT模式下，模型进行文本推理，生成纯文本答案。在PoT模式下，模型被提示生成可执行代码，通过基本表格信息和系统指令进行提示。在ICoT模式下，允许进行高级推理，通过交错文本和程序步骤。这种模式使模型能够进行计划、逐步推理和自我反思。

完成推理过程后，框架通过将模型生成的输出（称为学生答案）与真实答案进行比较来评估模型生成的输出。评估过程采用多种可靠指标，全面评估模型响应的质量。不同于可能会因产生有效但风格不同的输出而惩罚模型的传统自然语言相似度指标，这种严谨的方法确保了框架能够捕捉到模型输出的正确性和上下文相关性，提供其表现的全面视图。

3.2. 问题公式化

对于一个具体的表格推理任务，有两种输入，即表格数据 $T$ 和问题 $Q$ 。模型 $M\mathcal{M}$ 被要求根据 $T$ 和 $Q$ 生成相应的答案 $A$ ，其中真实答案表示为 $G$ 。给定 $N$ 个任务，目标是计算标量指标以评估模型预测 ${Ai∣i=1,2,…,N}\left\{A_{i} \mid i=1,2, \ldots, N\right\}$ 与真实答案 ${Gi∣i=1,2,…,N}\left\{G_{i} \mid i=1,2, \ldots, N\right\}$ 之间的差异。

3.3. 推理模式

该框架支持三种不同的推理模式，以全面评估LLMs在各种表格分析场景中的表现：TCoT、PoT和ICoT。

3.3.1. 文本思维链（TCoT）

TCoT（Wei等人，2022年）是一种推理模式，LLMs通过纯文本推理逐步解决数据分析问题。最终答案仅以文本形式输出。这种模式严重依赖模型内在的逻辑和顺序文本推理能力，而无需外部计算支持。形式上，TCoT推理模式可以表示如下：

$\mathcal{M}(T, Q) \rightarrow\{C, A\}$

其中 $C$ 表示模型 $M\mathcal{M}$ 派生的思维链。

TCoT非常适合文本生成任务，如表格摘要或描述性分析，重点在于解释和说明表格数据。然而，由于仅依赖文本推理，TCoT在需要复杂计算或程序执行的任务中效果较差，因为它缺乏利用外部工具验证或优化LLM输出的能力。

3.3.2. 思维程序（PoT）

PoT 是一种推理模式，LLMs通过生成可执行代码来解决数据分析问题。在这种模式下，模型将文本推理与程序输出相结合，最终生成代码块作为最终答案。该代码块在代码沙盒环境中执行，该环境充当安全运行时以验证生成代码的功能和正确性。执行结果返回作为最终答案，确保解决方案在逻辑上合理且计算准确。形式上，PoT推理模式可以表示如下：

$\mathcal{M}(T, Q) \rightarrow\{C, P\} \xrightarrow{\mathcal{E}(P)} A$

其中 $P$ 表示模型 $M\mathcal{M}$ 生成的程序代码块， $E\mathcal{E}$ 是代码执行器。

与TCoT模式相比，PoT在需要精确计算或复杂数据操作的任务中具有显著优势。通过利用程序推理，PoT允许模型将计算任务卸载到代码解释器，从而降低手动计算错误的风险。然而，PoT的一个关键限制是其依赖于模型生成语法正确且可执行代码的能力，如果模型缺乏足够的编程熟练度或误解任务，可能会失败。尽管如此，PoT在需要准确性和计算精度的任务中非常有效，使其成为解决更高级数据分析挑战的强大工具。

3.3.3. 交错思维链（ICoT）

ICoT模式使模型能够通过结合文本解释和程序输出进行多步骤推理。这种高级模式集成了规划、逐步执行和自我反思，允许模型根据中间结果动态调整其推理。模型与代码执行环境之间的反馈循环有助于纠正错误、完善计划和提高整体问题解决准确性，有效地模拟了现实世界中的试错过程。

形式上，ICoT推理模式可以表示如下：

$\begin{aligned} \mathcal{M}(T, Q) & \xrightarrow{\text{Plan}}\{S_1, S_2, \dots, S_n\} \\ & \xrightarrow{\text{Execute}}\begin{cases} (C_1, P_1) & \xrightarrow{\mathcal{E}(P_1)} R_1 & \xrightarrow{\text{Feedback}} \mathcal{M} \to (C_2, P_2) \\ (C_2, P_2) & \xrightarrow{\mathcal{E}(P_2)} R_2 & \xrightarrow{\text{Feedback}} \mathcal{M} \to (C_3, P_3) \\ \vdots & \\ (C_n, P_n) & \xrightarrow{\mathcal{E}(P_n)} R_n & \xrightarrow{\text{Feedback}} \mathcal{M} \end{cases} \end{aligned}$

其中 $S_k$ 表示计划的第 $k$ 步， $R_k$ 表示第 $k$ 次代码执行结果。

ICoT的一个关键特性是能够根据中间结果动态调整。每次代码块执行后，产生的结果都会反馈回推理过程，使模型能够纠正错误、完善方法或调整计划。这种推理与执行之间的迭代交互对于处理复杂、多步骤任务特别有效，例如需要多轮推理和计算的数据分析问题。然而，与ToT和PoT相比，ICoT由于其迭代性质和增加的系统复杂性，需要更多的计算资源，这可能限制其在资源受限场景中的效率。

3.4. 评估方法

为了确保对LLMs在表格推理任务中表现的可靠和全面评估，我们的框架支持多种评估指标，以满足各项任务的多样化需求。这些指标经过精心挑选和整合，以提供均衡的评估，兼顾客观性、灵活性和任务特定考量。

3.4.1. 自然语言指标

自然语言指标包括BLEU（Papineni等人，2002）和ROUGE（Lin，2004），可用于面向文本的任务，如生成表格摘要或解释性答案。这些指标主要通过n-gram文本序列的精确度来衡量模型生成文本与真实文本之间的重叠。

虽然这些指标在NLP任务中广泛应用，但在表格推理评估中存在局限性。具体而言，它们可能忽略深层语义正确性，并惩罚使用替代措辞的有效答案。尽管存在这些缺点，自然语言指标仍然是评估以文本输出为主的任务中文本流畅性、可读性和与真实文本表面一致性的重要工具。

3.4.2. LLM-as-a-judge

虽然人工评估是评估学生答案的黄金标准，但它异常缓慢且成本高昂。为了自动化评估，我们探索使用最先进的LLMs作为人类的替代品。由于这些模型通常是通过人类反馈强化学习（RLHF）（Dong等人，2024）进行训练的，因此它们已经表现出强大的人类对齐性。这种方法被称为"LLM-as-a-judge"（Gu等人，2024；Zheng等人，2023），已在各个领域进行了测试，以取代人类劳动作为决策模型（Dubois等人，2023；Chiang和Lee，2023）。

这种方法解决了表格推理评估中的几个固有问题。LLMs在表格推理中允许细致的推理和开放式的输出。使用LLM-as-a-Judge减少了惩罚语义正确但表述不同的输出的风险，确保更客观的评估。此外，判断仅关注最终答案的正确性，避免由于中间推理步骤或格式错误而导致的不当惩罚，除非它们直接影响最终响应。

3.4.3. 精确匹配准确率

准确率用于LLMs需要按预定义格式生成输出的任务，以便与真实结果进行直接且无歧义的比较。例如，在涉及数值计算、表格单元格检索或结构化输出的任务中，准确率衡量生成响应与预期结果的精确匹配。

4. 实验

在本节中，我们在我们的基准测试中对超过20个最先进LLMs进行全面评估，提供对它们在各种表格推理任务中表现的深入分析。

4.1. 实验设置

4.1.1. LLMs

我们评估了26个LLMs，涵盖为不同目的设计的各种模型。这些模型包括通用LLMs、代码优化LLMs、深度思考LLMs、数学和结构化数据分析优化LLMs，以及专门微调用于表格推理任务的LLMs。评估的模型参数规模从7B到72B不等，确保在模型规模和专业化方面进行综合比较。

通用LLMs：代表语言模型在表格推理中的基线性能的通用LLMs包括Llama-3.1-8B/70B-Instruct (Grattafiori等人，2024)，Qwen2.5-7B/72B-Instruct (Yang等人，2024c)，以及Mistral-7B-Instruct-v0.3 (Jiang等人，2023)。这些模型设计用于广泛的自然语言理解和生成任务。

代码优化LLMs：训练专注于代码生成的代码优化LLMs，用于探索它们在处理表格推理任务中的潜力。这组包括Qwen2.5-Coder-7B-Instruct (Hui等人，2024)，Deepseek-Coder-7B-Instruct-v1.5，Deepseek-Coder-33BInstruct (Guo等人，2024)，Seed-Coder-8B-Instruct和Yi-Coder-9B-Chat (Young等人，2024)。

深度思考LLMs：我们还纳入了一组深度思考LLMs，这些模型设计用于复杂问题分析和自我反思推理。这组包括Qwen-7B/14B/32B和Llama-8B/70B (DeepSeek-AI, 2025)的Deepseek-distilled变体，以及QwQ-32B (Team, 2025)和最新模型Qwen38B/14B/32B (Yang等人，2025a)。这些模型适合涉及多步骤推理和复杂查询处理的任务。

数学优化LLMs：我们评估了专精于数学推理的LLMs，这些模型特别适合涉及数值计算的任务。这类模型包括Kimina-Prover-Preview-Distill-7B (Wang等人，2025)，Qwen2.5-Math-7B/72B-Instruct (Yang等人，2024b)，以及Deepseek-Math-7b-Instruct (Shao等人，2024)。

表格推理优化LLMs：我们纳入了三个特定的LLMs，TableGPT2-7B (Su等人，2024)和Table-R1-SFT/Zero-7B (Yang等人，2025b)，这些模型专门针对表格推理进行了微调。这些模型在与TableQA要求紧密对齐的数据集和任务上进行训练，使其专精于这个基准。

4.1.2. 实现细节

推理模式：推理模式根据任务要求配置，因为并非所有任务都适合PoT或ICoT推理。具体而言，某些任务仅使用TCoT模式，包括自然语言理解能力下的所有任务，以及表格摘要、表格列名命名和表格可信度验证。这些任务侧重于文本生成和表格内容理解，使得基于代码的推理没有必要且不太合适。对于所有其他任务，我们使用三种推理模式TCoT、PoT和ICoT评估模型。在TCoT中，模型接收Markdown/HTML格式的表格内容并直接生成答案。相比之下，PoT和ICoT不提供模型明文表格内容。相反，模型编写代码读取表格，提取所需信息，并最终回答问题。显然，PoT和ICoT对模型的基础编码能力要求更高，因为模型必须编写代码来提取和处理表格中的信息。然而，这些能力对于处理更大表格和解决更复杂任务至关重要。

评估指标：在接下来的实验中，我们主要使用ROUGE-L (Lin, 2004)和LLM-as-ajudge (Zheng et al., 2023)来评估模型性能
表2：使用ROUGE-L的整体实验结果

模型名称	NLU	TU			TBO			TCO			DA			ADA			总体
	TCoT	TCoT	PoT	ICoT	TCoT	PoT	ICoT	TCoT	PoT	ICoT	TCoT	PoT	ICoT	TCoT	PoT	ICoT


Llama-3.1-8B-Instruct	20.73	23.72	23.41	12.37	15.60	18.04	11.91	13.24	20.06	9.30	16.70	23.33	10.97	9.26	8.84	7.77	15.33
Llama-3.1-70B-Instruct	22.06	39.70	42.90	6.88	19.90	23.94	9.70	32.77	25.61	10.51	23.39	26.31	11.56	20.68	17.92	7.39	21.33
Qwen2.5-7B-Instruct	19.88	36.87	41.58	57.43	15.09	26.16	27.15	29.76	21.78	36.94	27.05	20.43	23.73	22.09	17.79	35.89	28.73
Qwen2.5-72B-Instruct	25.13	43.79	45.08	73.51	25.98	26.00	29.36	37.24	26.74	43.21	29.98	23.00	30.94	23.09	18.63	41.76	33.96
Mistral-7B-Instruct-v0.3	19.37	21.12	21.92	26.04	12.82	20.05	18.39	16.05	17.34	12.88	20.09	15.75	13.74	4.03	5.70	8.20	15.84

Qwen2.5-Coder-7B-Instruct	34.61	36.61	38.10	51.60	14.76	22.06	29.36	25.57	21.76	31.59	23.08	26.86	32.13	23.09	14.35	36.80	28.89
Deepseek-Coder-7B-Instruct-v1.5	4.11	6.86	10.39	8.74	2.79	12.40	6.81	2.46	9.50	5.16	3.05	7.33	6.16	0.36	1.77	8.93	6.05
Deepseek-Coder-33B-Instruct	9.82	14.14	33.75	28.37	14.78	19.98	25.50	8.11	14.08	15.40	8.47	25.74	16.61	1.68	11.19	10.88	16.15
Seed-Coder-8B-Instruct	23.39	25.94	37.95	36.54	15.77	26.53	31.61	19.63	22.30	28.13	24.27	27.63	26.03	9.72	17.75	29.26	25.15
Yi-Coder-9B-Chat	18.02	10.66	32.24	26.02	9.00	21.83	24.83	7.86	19.04	20.60	9.08	26.85	20.42	5.16	12.67	14.19	17.40

深度思考LLMs
Deepseek-R1-Distill-Qwen-7B	16.55	30.05	19.58	37.14	20.61	17.98	21.67	22.99	13.19	23.27	29.65	15.94	28.97	11.79	6.02	29.60	21.56
Deepseek-R1-Distill-Qwen-14B	22.66	37.20	41.31	68.88	20.46	21.22	29.38	31.57	18.72	38.16	37.21	16.99	29.95	14.26	14.38	38.48	30.05
Deepseek-R1-Distill-Qwen-32B	19.13	41.64	47.25	73.25	29.35	28.07	28.85	38.84	24.07	46.30	38.33	26.91	21.69	21.05	21.90	43.19	34.36
Deepseek-R1-Distill-Llama-8B	20.51	26.74	18.51	40.09	20.52	13.02	17.77	20.64	13.04	18.91	32.07	9.50	18.87	3.80	3.86	19.28	18.69
Deepseek-R1-Distill-Llama-70B	20.97	40.49	36.28	71.37	24.05	23.86	30.71	36.71	25.80	43.91	34.12	24.70	27.73	21.02	15.34	45.13	32.63
QwQ-32B	20.44	42.91	57.89	75.37	32.75	31.85	30.06	42.39	39.93	48.27	24.69	29.29	16.91	28.21	31.35	50.42	37.67
Qwen3-8B	20.05	30.83	57.32	70.10	33.84	30.14	30.34	36.22	35.14	45.27	23.82	21.33	23.25	21.19	28.75	41.67	34.33
Qwen3-14B	25.49	39.63	44.64	69.84	33.07	30.45	32.77	38.59	26.21	42.34	26.62	27.10	28.61	33.71	27.96	41.85	35.55
Qwen3-32B	21.72	38.19	53.47	75.06	33.37	30.72	32.38	36.81	32.52	47.04	27.40	26.67	23.63	31.65	30.88	46.97	36.78

Kimina-Prover-Preview-Distill-7B	9.66	3.56	0.09	3.10	4.85	0.24	5.87	3.04	0.19	5.28	5.47	0.18	6.45	1.94	0.00	4.72	3.41
Qwen2.5-Math-7B-Instruct	15.07	6.70	7.48	29.28	8.15	13.07	19.64	4.65	10.44	22.32	5.19	10.80	12.14	0.56	2.09	18.42	11.62
Qwen2.5-Math-72B-Instruct	18.29	15.59	30.04	50.93	13.77	21.41	26.64	12.66	23.47	39.46	7.39	16.40	15.24	1.48	14.19	27.42	20.90
Deepseek-Math-7B-Instruct	13.49	9.19	6.65	16.18	6.50	1.96	5.40	5.22	3.28	5.54	8.18	4.55	10.11	2.90	0.82	5.69	6.60

表格推理优化LLMs
TableGPT2-7B	21.44	33.14	48.09	38.15	17.73	26.31	35.85	28.56	23.10	29.34	22.33	17.96	16.75	12.55	18.27	26.99	26.03
Table-R1-SFT-7B	21.51	30.21	41.57	7.52	16.38	27.41	2.19	17.81	24.39	6.64	18.61	15.62	7.16	10.31	15.28	2.54	16.57
Table-R1-Zero-7B	19.24	34.99	31.07	62.42	17.70	18.69	27.61	28.13	14.13	35.85	23.95	19.89	27.23	9.59	20.06	35.40	26.62

表3：使用LLM-as-a-judge的整体实验结果

| 模型名称 | NLU | TU | | | TBO | | | TCO | | | DA | | | ADA | | | 总评 |
| — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — |
| | TCoT | TCoT | PoT | ICoT | TCoT | PoT | ICoT | TCoT | PoT | ICoT | TCoT | PoT | ICoT | TCoT | PoT | ICoT | |
| | | | | | | | | | | | | | | | | | | |
| | | | | | | | | | | | | | | | | | | | |
| Llama-3.1-8B-Instruct | 61.46 | 49.53 | 45.04 | 47.06 | 39.22 | 50.11 | 55.76 | 41.51 | 55.12 | 50.20 | 39.68 | 51.97 | 50.89 | 31.36 | 24.01 | 13.62 | 44.16 |
| Llama-3.1-70B-Instruct | 70.75 | 64.38 | 66.47 | 57.93 | 57.74 | 72.20 | 48.04 | 65.75 | 77.69 | 61.46 | 48.58 | 61.80 | 51.91 | 40.29 | 42.48 | 27.50 | 57.18 |
| Qwen2.5-7B-Instruct | 64.66 | 58.79 | 57.98 | 68.26 | 41.46 | 56.99 | 61.23 | 51.61 | 62.71 | 73.63 | 44.88 | 52.17 | 61.84 | 37.13 | 28.08 | 44.63 | 54.13 |
| Qwen2.5-72B-Instruct | 75.87 | 72.39 | 64.46 | 87.07 | 66.56 | 71.05 | 72.06 | 73.18 | 80.93 | 85.25 | 54.05 | 59.69 | 70.97 | 42.14 | 46.49 | 61.25 | 67.71 |
| Mistral-7B-Instruct-v0.3 | 47.47 | 40.22 | 37.33 | 25.14 | 32.57 | 50.09 | 37.18 | 35.28 | 45.46 | 35.61 | 37.20 | 23.96 | 27.09 | 18.89 | 15.14 | 16.05 | 32.79 |
| | | | | | | | | | | | | | | | | | | | |
| 深度思考LLMs | | | | | | | | | | | | | | | | | | |
| Deepseek-R1-Distill-Qwen-7B | 51.28 | 49.28 | 33.86 | 54.58 | 56.33 | 48.24 | 52.49 | 62.01 | 43.28 | 56.50 | 49.19 | 41.19 | 57.34 | 22.86 | 18.02 | 36.89 | 45.83 |
| Deepseek-R1-Distill-Qwen-14B | 61.78 | 62.29 | 66.71 | 81.18 | 73.07 | 65.02 | 68.66 | 67.10 | 51.27 | 79.11 | 53.87 | 46.51 | 61.98 | 34.81 | 31.34 | 51.26 | 59.75 |
| Deepseek-R1-Distill-Qwen-32B | 63.04 | 69.19 | 65.33 | 86.18 | 78.23 | 71.92 | 70.51 | 68.34 | 62.82 | 69.76 | 56.36 | 67.90 | 61.33 | 32.14 | 43.22 | 52.51 | 63.67 |
| Deepseek-R1-Distill-Llama-8B | 53.17 | 56.13 | 34.86 | 54.48 | 55.23 | 39.07 | 49.60 | 57.29 | 36.86 | 52.17 | 49.24 | 13.14 | 40.90 | 20.32 | 6.40 | 25.19 | 40.25 |
| Deepseek-R1-Distill-Llama-70B | 65.21 | 67.88 | 67.51 | 86.98 | 74.65 | 69.16 | 69.23 | 80.07 | 76.14 | 86.08 | 59.35 | 66.64 | 73.03 | 37.27 | 44.68 | 54.04 | 67.37 |
| QwQ-32B | 71.39 | 71.51 | 72.62 | 91.02 | 80.57 | 78.23 | 74.00 | 74.47 | 73.31 | 75.36 | 51.79 | 72.54 | 60.68 | 45.06 | 54.79 | 64.88 | 69.51 |
| Qwen3-8B | 62.60 | 67.27 | 70.68 | 82.93 | 80.87 | 69.06 | 70.51 | 71.25 | 66.31 | 71.58 | 58.16 | 55.51 | 61.14 | 52.76 | 44.34 | 57.41 | 65.15 |
| Qwen3-14B | 68.07 | 68.80 | 64.08 | 87.33 | 79.26 | 76.16 | 77.51 | 73.03 | 69.27 | 73.63 | 58.00 | 66.49 | 66.18 | 48.28 | 50.55 | 56.90 | 67.72 |
| Qwen3-32B | 67.72 | 67.84 | 71.16 | 90.89 | 81.19 | 75.83 | 77.56 | 73.32 | 70.91 | 75.07 | 62.23 | 68.63 | 67.55 | 49.63 | 57.34 | 62.70 | 69.97 |
| | | | | | | | | | | | | | | | | | | | | |
| Kimina-Prover-Preview-Distill-7B | 22.69 | 11.53 | 0.15 | 9.85 | 19.50 | 0.40 | 16.58 | 24.94 | 0.70 | 16.31 | 12.67 | 0.05 | 11.43 | 8.04 | 0.00 | 8.66 | 10.22 |
| Qwen2.5-Math-7B-Instruct | 40.17 | 22.35 | 13.48 | 41.38 | 34.68 | 26.22 | 38.29 | 37.61 | 31.01 | 51.51 | 18.68 | 20.04 | 39.08 | 12.09 | 2.25 | 19.57 | 28.03 |
| Qwen2.5-Math-72B-Instruct | 56.98 | 53.56 | 46.57 | 76.98 | 58.35 | 48.73 | 59.40 | 61.20 | 58.62 | 79.27 | 35.23 | 35.51 | 58.50 | 17.74 | 23.70 | 39.31 | 50.60 |
| Deepseek-Math-7B-Instruct | 28.85 | 21.02 | 7.77 | 28.98 | 15.91 | 4.25 | 8.41 | 20.61 | 10.91 | 11.45 | 20.34 | 9.50 | 18.02 | 12.63 | 1.30 | 11.02 | 14.43 |
| | | | | | | | | | | | | | | | | | | | | |
| 表格推理优化LLMs | | | | | | | | | | | | | | | | | | | | |
| TableGPT2-7B | 60.83 | 58.97 | 64.61 | 73.82 | 48.38 | 59.79 | 65.43 | 57.05 | 71.94 | 75.58 | 44.14 | 51.24 | 66.80 | 32.06 | 33.21 | 50.68 | 57.16 | |
| Table-R1-SFT-7B | 71.58 | 62.04 | 53.52 | 25.10 | 68.21 | 54.49 | 15.70 | 71.25 | 59.87 | 13.57 | 37.08 | 41.26 | 33.75 | 35.64 | 25.95 | 19.95 | 43.06 | |
| Table-R1-Zero-7B | 66.18 | 64.36 | 48.99 | 77.99 | 54.56 | 36.01 | 58.57 | 62.06 | 50.28 | 76.16 | 50.32 | 48.95 | 63.79 | 28.21 | 32.32 | 45.36 | 54.01 | |
跨任务评估模型性能。 ROUGE-L评估学生答案与真实答案之间的文本相似性，而LLM-as-a-judge评估语义相似性和答案准确性。对于LLM-as-a-judge，我们使用Qwen2-72BInstruct（Yang等人，2024a）模型，该模型经过RLHF训练以与人类偏好对齐。为确保评估的公正性，该模型未列入被评估模型中。此外，对于答案包含单个数值的任务，我们计算准确率作为单独的评估指标，以确保评估的绝对精度。值得注意的是，由于PoT生成代码作为输出，我们使用代码执行结果作为学生答案。这意味着，如果代码执行失败，测试样本会自动得分为零。

实验环境：我们设计标准化提示模板以实现不同的推理方法，确保评估过程的公平性。此外，我们对LLMs的输出施加严格的格式约束，并提取最终答案，以防止任何无关信息影响结果。所有模型的评估均使用Transformers库和 $vLL M$ 框架进行，利用多块NVIDIA A800-80GB GPU进行加速计算。总的来说，我们总结了26个LLMs在3种推理模式下26个任务的实验结果，共1,794个实验组，以平均性能作为最终结果。

4.2. 实验结果

4.2.1. 总性能分析

我们总结了所有模型在所有任务中的平均性能（见表2和表3）。表2报告了基于ROUGE-L的评估结果，而表3则呈现了使用LLM-as-a-judge的结果。在所有模型中，QwQ-32B取得了最高的总体分数，显示出在所有六种表格推理能力和推理模式上的卓越表现。

从结果中可以观察到两个趋势：（1）在NLU和TU上得分较高的模型在其他四种能力上表现也较好。这是因为在表格推理中，TU关注的是从表格中检索和理解内容的能力，而NLU反映了模型对问题的理解能力。两者都是更高级能力的基础。（2）高级数据分析（ADA）数据集是表格基础/计算操作（TBO/TCO）和数据分析（DA）的更复杂版本。因此，由于表格和问题的复杂性，ADA的分数普遍低于其他任务。

4.2.2. 不同评估指标的性能分析

我们分析了不同评估指标下的模型性能。总体上，ROUGE-L和LLM-as-a-judge在评估中表现出高度一致性。尽管两种指标的绝对分数不同，但每种指标内的模型排名高度相似。例如，QwQ-32B和Qwen332B在两种指标下都取得了相对较高的分数，表明它们在不同评估方法下表现出色。此外，可以观察到，ROUGE-L的分数普遍较低，平均仅为23.16，而LLM-as-a-judge的平均分为48.62。这种差异源于ROUGE主要关注表面词汇重叠，可能无法捕捉到深层语义正确性，常常惩罚使用替代词或同义词的有效答案。相比之下，LLM-as-a-judge依赖于对语义对齐的更全面评估，使其能够更好地识别不同但有效的答案表达的正确性。这一发现通过后续的案例研究（第4.2.6节）得到了进一步验证。

4.2.3. 按模型类型分析性能

我们将第4.1.1节中介绍的五类LLMs的性能进行了比较。总体上，在同一模型系列中，较大的模型优于较小的模型。例如，Llama-70B模型的表现优于Lama-7B模型，Qwen-72B模型的表现优于Qwen-7B模型。表4显示了五类LLMs在六个表格推理能力上的平均得分，使用LLM-as-a-judge指标进行评估。结果显示，深度思考LLMs总体表现最佳。它们在复杂问题上的高级推理能力和自我反思能力使它们在表格推理任务中始终取得领先成绩。紧随其后的是通用LLMs和表格推理优化LLMs，它们整体表现良好，但在需要更多表格操作和数据分析能力的ADA任务中与深度思考LLMs存在明显差距。

代码优化LLMs虽然擅长生成代码，但在表格推理任务中的表现不佳，这可能是由于通用代码生成与表格推理相关代码生成的具体要求之间存在差距。此外，数学优化LLMs在所有任务中表现都很差，特别是在需要代码生成的任务中。这可能是由于解决数学问题或结构化数据任务与处理表格特定任务的优化目标冲突，导致此类模型在表格推理中表现欠佳。

需要注意的是，上述分析基于实验设置的初步观察结果
表4：不同类型模型的性能

模型类型	NLU	TU			TBO			TCO			DA			ADA			总评
	TCoT	TCoT	PoT	ICoT	TCoT	PoT	ICoT	TCoT	PoT	ICoT	TCoT	PoT	ICoT	TCoT	PoT	ICoT
通用LLMs	64.04	57.06	54.26	57.09	47.51	60.09	54.85	53.46	64.38	61.23	44.88	49.92	52.54	33.96	31.24	32.61	51.19
代码优化LLMs	38.78	39.16	46.83	40.07	37.05	55.51	52.76	34.36	52.79	48.54	28.23	47.23	45.58	22.84	26.26	28.35	40.27
数学优化LLMs	37.17	27.11	16.99	39.30	32.11	19.90	30.67	36.09	25.31	39.63	21.73	16.27	31.76	12.62	6.81	19.64	25.82
表格推理优化LLMs	66.20	61.79	55.71	58.97	57.05	50.10	46.57	63.45	60.69	55.10	43.85	47.15	54.78	31.97	30.49	38.66	51.41

图2：不同推理模式下表格推理能力的比较。

在本研究中，实际上，每个模型的性能受多种因素影响，包括参数大小、训练策略和评估配置等。值得注意的是，深度思考LLMs于2025年推出，代表了一类使用比前代更先进的方法训练的新模型。这种先进的训练方法促使其在表格推理中表现出色。

4.2.4. 按推理模式分析性能

我们分析了三种推理模式（TCoT、PoT和ICoT）下的模型性能。如图2左侧面板所示，结果是对每种表格推理技能下所有子任务的结果进行平均，并按三种推理模式分组。总体而言，采用ICoT模式的模型表现更好，尤其是在DA和ADA任务上，优于传统的TCoT方法。这表明了ICoT范式在处理表格推理任务中的潜力。事实上，TCoT和ICoT模式在处理表格内容上有根本区别：TCoT直接以Markdown或HTML格式输入表格，而ICoT使模型能够通过迭代交互主动探索表格内容。这一区别在处理大表格时变得至关重要。由于上下文窗口限制，TCoT难以处理整个表格内容，而ICoT不依赖上下文大小，不受表格大小影响，可以动态查询表格以检索相关信息。

图2右侧面板重点分析了需要精确计算的任务性能评估。一个显著趋势是：TCoT在计算密集型任务中表现不佳。这是因为TCoT从根本上依赖基于标记的预测，缺乏执行精确计算的能力。相比之下，PoT和ICoT通过利用其在沙盒环境中编写和执行代码的能力，在此类任务中表现出色，允许计算精确结果。值得注意的是，ICoT模式支持迭代代码生成，使模型能够自我反思和纠正错误。这种迭代编码和执行机制使ICoT在处理复杂数值运算和基于计算的表格推理任务方面表现出色。

4.2.5. 精确匹配准确率分析

在本小节中，我们为答案是单个数值的任务计算了精确匹配准确率。具体来说，对于每个问题，只有当模型预测与参考数值完全匹配（包括格式和表示无差异）时才视为正确。例如，如果真实值是42.0，像42或42.00这样的预测将被视为正确，因为它们在数值上等价，但像42.1或forty-two这样的预测将被视为错误。此指标实现了对模型性能的直接、无歧义和精确评估。这类仅涉及数字的任务通常要求模型执行准确的单元格检索或数值运算。

实验结果如表5所示。对于仅涉及数字的任务，深度思考LLMs的平均得分始终高于50，优于其他类型的模型。还观察到某些非深度思考
表5：仅含数字答案任务的精确匹配准确率

| 模型名称 | TU | | | TBO | | | TCO | | | DA | | | ADA | | | 总体 |
| :–: | :–: | :–: | :–: | :–: | :–: | :–: | :–: | :–: | :–: | :–: | :–: | :–: | :–: | :–: | :–: |
| | TCoT | PoT | ICoT | TCoT | PoT | ICoT | TCoT | PoT | ICoT | TCoT | PoT | ICoT | TCoT | PoT | ICoT | |
| 通用LLMs | | | | | | | | | | | | | | | | |
| Llama-3.1-8B-Instruct | 22.37 | 33.46 | 40.00 | 60.66 | 66.93 | 81.55 | 76.94 | 81.61 | 84.24 | 25.00 | 15.00 | 25.00 | 56.67 | 58.43 | 53.67 | 52.10 |
| Llama-3.1-70B-Instruct | 31.47 | 45.00 | 44.62 | 68.02 | 85.44 | 82.54 | 79.50 | 91.30 | 94.17 | 20.00 | 25.00 | 25.00 | 27.03 | 65.11 | 71.07 | 57.02 |
| Qwen2.5-7B-Instruct | 22.76 | 37.31 | 40.77 | 46.17 | 70.91 | 67.59 | 69.31 | 84.83 | 85.32 | 22.50 | 15.00 | 5.00 | 50.10 | 64.96 | 52.93 | 49.03 |
| Qwen2.5-72B-Instruct | 31.86 | 45.39 | 46.54 | 58.15 | 85.63 | 83.32 | 82.87 | 94.20 | 92.85 | 22.00 | 25.00 | 15.00 | 64.94 | 71.33 | 65.58 | 59.18 |
| Mistral-7B-Instruct-v0.5 | 28.78 | 33.08 | 21.93 | 46.66 | 71.22 | 39.50 | 69.89 | 75.93 | 56.46 | 22.50 | 20.00 | 20.00 | 46.20 | 62.26 | 52.83 | 44.48 |
| 代码优化LLMs | | | | | | | | | | | | | | | | |
| Qwen2.5-Coder-7B-Instruct | 29.94 | 36.16 | 36.93 | 52.84 | 71.01 | 66.92 | 71.04 | 87.29 | 83.48 | 22.50 | 25.00 | 5.00 | 44.99 | 68.15 | 64.58 | 51.05 |
| Deepseek-Coder-7B-Instruct-v1.5 | 9.49 | 19.62 | 14.62 | 64.84 | 43.24 | 34.95 | 64.12 | 44.48 | 42.68 | 20.00 | 5.00 | 5.00 | 63.64 | 20.19 | 62.43 | 34.28 |
| Deepseek-Coder-33B-Instruct | 19.68 | 34.23 | 21.16 | 51.37 | 68.81 | 52.96 | 62.64 | 79.79 | 57.40 | 17.50 | 15.00 | 20.00 | 52.05 | 61.46 | 40.56 | 43.64 |
| Seed-Coder-8B-Instruct | 28.85 | 38.85 | 38.08 | 54.79 | 79.50 | 71.95 | 66.58 | 88.14 | 84.39 | 17.50 | 25.00 | 15.00 | 63.41 | 63.26 | 53.33 | 52.57 |
| Yi-Coder-9B-Chat | 29.87 | 34.62 | 35.00 | 73.55 | 75.33 | 55.72 | 74.52 | 83.84 | 67.65 | 22.50 | 20.00 | 5.00 | 63.59 | 54.65 | 50.00 | 49.72 |
| 深度思考LLMs | | | | | | | | | | | | | | | | | |
| Deepseek-R1-Distill-Qwen-7B | 30.06 | 27.31 | 35.77 | 60.91 | 67.76 | 54.79 | 80.66 | 75.71 | 79.82 | 22.50 | 20.00 | 20.00 | 63.21 | 59.46 | 53.32 | 50.08 |
| Deepseek-R1-Distill-Qwen-14B | 31.41 | 41.16 | 42.69 | 57.14 | 75.02 | 70.30 | 82.30 | 80.87 | 88.71 | 17.50 | 20.00 | 10.00 | 44.27 | 60.13 | 65.96 | 52.50 |
| Deepseek-R1-Distill-Qwen-32B | 31.99 | 43.85 | 44.23 | 68.81 | 75.61 | 78.76 | 82.69 | 83.81 | 77.54 | 17.50 | 25.00 | 15.00 | 49.17 | 64.37 | 67.50 | 55.05 |
| Deepseek-R1-Distill-Llama-8B | 30.77 | 32.69 | 35.39 | 57.93 | 61.55 | 60.46 | 79.54 | 68.73 | 76.56 | 25.00 | 20.00 | 25.00 | 61.32 | 54.56 | 66.17 | 50.38 |
| Deepseek-R1-Distill-Llama-70B | 31.60 | 44.23 | 44.62 | 66.48 | 85.56 | 75.84 | 84.82 | 89.23 | 93.31 | 15.00 | 20.00 | 15.00 | 47.28 | 62.59 | 62.46 | 55.87 |
| QwQ-32B | 32.37 | 46.16 | 46.54 | 84.16 | 85.32 | 81.08 | 92.15 | 87.39 | 83.53 | 20.00 | 25.00 | 15.00 | 57.25 | 67.43 | 71.61 | 59.66 |
| Qwen3-8B | 31.47 | 42.69 | 43.85 | 65.08 | 70.87 | 68.06 | 90.41 | 83.49 | 80.53 | 25.00 | 25.00 | 15.00 | 72.09 | 70.26 | 65.50 | 56.62 |
| Qwen3-14B | 31.22 | 43.46 | 45.00 | 69.87 | 72.48 | 74.07 | 90.07 | 91.93 | 83.43 | 25.00 | 25.00 | 10.00 | 51.36 | 64.98 | 70.74 | 56.57 |
| Qwen3-32B | 31.86 | 45.77 | 46.54 | 70.33 | 77.80 | 80.73 | 89.93 | 87.84 | 84.98 | 25.00 | 25.00 | 15.00 | 52.49 | 72.00 | 72.33 | 58.51 |
| 数学优化LLMs | | | | | | | | | | | | | | | | | |
| Kimina-Power-Preview-Distill-7B | 30.90 | 1.54 | 36.54 | 91.13 | 0.58 | 75.67 | 88.10 | 3.94 | 76.08 | 25.00 | 0.00 | 20.00 | 73.25 | 4.17 | 72.80 | 39.98 |
| Qwen2.5-Math-7B-Instruct | 32.50 | 17.69 | 34.23 | 92.01 | 43.72 | 50.51 | 94.17 | 55.98 | 78.99 | 25.00 | 20.00 | 10.00 | 80.32 | 39.28 | 62.24 | 49.11 |
| Qwen2.5-Math-72B-Instruct | 32.05 | 33.46 | 41.54 | 88.93 | 56.47 | 71.81 | 93.17 | 73.42 | 89.07 | 25.00 | 20.00 | 10.00 | 77.96 | 57.74 | 63.72 | 55.62 |
| Deepseek-Math-7B-Instruct | 8.21 | 3.08 | 13.08 | 48.58 | 5.85 | 26.99 | 67.13 | 15.42 | 32.10 | 20.00 | 0.00 | 5.00 | 48.51 | 1.93 | 52.65 | 23.23 |
| 表格推理优化LLMs | | | | | | | | | | | | | | | | | |
| TableGPT2-7B | 31.28 | 42.31 | 44.62 | 54.64 | 72.63 | 70.31 | 76.02 | 87.36 | 91.33 | 25.00 | 25.00 | 20.00 | 56.75 | 60.41 | 73.85 | 55.43 |
| Table-R1-SFT-7B | 31.67 | 35.39 | 12.31 | 63.95 | 61.43 | 16.90 | 89.01 | 84.15 | 26.42 | 20.00 | 10.00 | 5.00 | 69.59 | 40.80 | 51.26 | 41.19 |
| Table-R1-Zero-7B | 31.92 | 31.16 | 44.23 | 61.14 | 50.37 | 65.39 | 80.61 | 70.50 | 88.09 | 20.00 | 15.00 | 15.00 | 72.09 | 65.22 | 65.17 | 51.72 |

模型，如Qwen2.5-72B-Instruct和TableGPT2-7B，在数值任务中也表现出色。值得注意的是，精确匹配准确率代表了一种客观的评估方法，因为它通过严格评估预测值是否与真实值匹配来消除评分中的随机性。尽管进行了严格的评估，最佳模型的最大得分仅为59.66，这表明LLMs在表格推理能力方面仍有很大的提升空间。这凸显了LLMs在表格推理中面临的重大挑战，特别是在精确数值理解和准确数据检索方面。

4.2.6. 案例研究

在本节中，我们展示了两个详细的案例研究，分析现有评估指标——特别是ROUGE-L的局限性，并演示所提出的ICoT推理模式的必要性和有效性。

首先，我们彻底检查并分析了各种LLMs在不同任务上的表现，特别强调手动验证低分案例。如图3所示，两个代表性场景暴露了ROUGE-L的基本局限性：

数值精度任务：Python计算的相关系数（0.947 vs 地面真值0.95）获得了ROUGE-L=28.5但LLM-as-a-judge=100。
- 上下文检索任务：一个信息更优的表格检索结果获得了ROUGE-L=28.5 vs LLM-as-a-judge=100。
  这些案例揭示了ROUGE-L的几个基本局限性：由于僵硬的词汇匹配无法识别数值精度，无法承认语义等价但用词不同的情况，以及系统性地惩罚上下文丰富的响应。LLM-as-a-judge通过其语义理解能力、上下文感知评估和任务自适应评估协议解决了这些局限性。这种对比分析证实了将LLM-as-a-judge与传统指标结合以建立综合评估框架的必要性。混合方法能够实现多维评估（语法-语义平衡），涵盖技术准确性和上下文适当性。

此外，为了突出所提出ICoT的必要性和有效性，我们展示案例2，该案例围绕名为Multi_Step_Operation的高级分析任务展开。在该案例中，被评估的模型是QwQ。图4显示了输入问题、输入表格（因空间限制省略）和三种推理模式（PoT、TCoT和ICoT）下的主要推理过程。

图3：两个具有代表性的案例，突出了不同评估指标之间的差异。

图4：一个具有代表性的案例，展示了不同推理模式之间的差异。
在这个案例中，任务涉及多个基于代码的操作。在PoT和TCoT两种模式下，QwQ-32B都产生了错误的答案，而在ICoT模式下，该模型得出了正确的解决方案。这种现象突显了ICoT在处理复杂推理任务中的独特优势。此外，我们仔细审查了推理过程，这可能揭示了ICoT的必要性。当通过PoT进行推理时，模型由于错误定义统计阈值而生成错误的代码，导致预测与地面真值不符。相比之下，在TCoT模式下，模型试图通过逐步文本推理过程解决问题。除此之外，TCoT可能不适合计算密集型任务。首先，有限的token预算限制了可处理的表格大小，使得TCoT对大规模表格数据无效。其次，表格上的复杂操作往往导致算术运算的推理错误，进一步限制了TCoT在此类任务中的适用性。相比之下，ICoT方法通过其迭代改进能力显示出稳健性。虽然模型最初生成了错误的代码，但在接收到错误代码反馈（即NameError: name ‘np’ is not defined）后，它能够修改初始代码，修正错误，并最终产生正确的答案。

因此，这个案例的对比分析表明，ICoT方法对中间错误更具容忍度，并为模型提供了自我反思和自我修正的机会，这更类似于LLMs的实际应用。

5. 相关工作

表格作为一种高度结构化且紧凑的数据表示形式，广泛应用于政府、金融、商业和科学研究等领域。它们作为数据分析的关键载体。随着LLMs的快速发展，表格数据越来越多地整合到语言理解和推理框架中，极大地扩展了模型表达和操作结构化信息的能力。因此，研究人员提出了基准测试来评估模型在信息提取、逻辑推理和结构化数据整合方面的表格推理能力，其中任务通常组织成问答形式。

早期的基准测试主要侧重于测量结构理解能力和显式事实验证能力。代表性的工作如WTQ (Pasupat & Liang, 2015)、SQA (Iyyer et al., 2017) 和TabFact (Chen et al., 2023) 通常是基于维基百科HTML表格构建的，要求模型直接从各个单元格中提取答案，从而评估其基础对齐和结构识别能力。然而，这些基准相对浅显，主要依赖表面信息，未能评估模型执行多步骤推理、跨表格整合或复杂情境理解的能力。

为克服浅层任务的局限性，后续研究逐渐引入了更具挑战性的任务维度。例如，ToTTo (Parikh et al., 2020) 和FeTaQA (Nan et al., 2022) 强调多源信息融合和自然语言生成，突出了模型的整合和生成能力。FinQA (Chen et al., 2021) 和AIT-QA (Katsis et al., 2022) 聚焦金融领域的数值推理，评估模型在结构化环境中的条件逻辑和精确计算能力。HybridQA (Chen et al., 2020) 进一步结合了结构感知和复杂推理，建立了更层次化的评估框架。尽管这些基准显著拓宽了表格推理评估的范围，但在推理链完整性、数据集多样性和现实复杂任务的真实性方面仍面临局限。

随着表格推理任务对可执行性和可解释性的需求增长，最近的研究探索了结合自然语言理解和代码生成的混合建模方法。这些方法通常从问题生成可执行程序，然后通过解释器或数据库引擎执行以产生答案(Luo et al., 2024; Wei et al., 2024)。其中一类方法聚焦于将查询翻译成SQL，催生了诸如Spider(Yu et al., 2018) 和BIRD(Li et al., 2023) 等基准。另一类研究旨在模拟类似人类的分析流程(Hu et al., 2024)，包括结构感知、条件推理、脚本执行和答案生成等阶段。这一范式使可转移和泛化推理流水线的发展成为可能。代表性基准包括iDS-1000(Lai et al., 2023) 和InfiAgentDABench(Hu et al., 2024)，它们将范围扩展到了多种数据模态和任务复杂性。

大型语言模型（LLMs）在理解自然语言查询和与表格数据交互方面日益增强的能力，促使大量研究探索其在表格推理任务中的潜力。近期研究在基准数据集中引入了更真实和全面的评估设置，以更好地反映实际挑战。例如，TableBench（Wu等人，2025b）整合了六个子数据集，涵盖了事实验证、数值推理、数据分析和可视化等任务。SUC（Sui等人，2024）提出了七个子任务，系统地评估结构理解。RealTableBench（Su等人，2024）从真实商业智能（BI）系统中构建测试用例，反映真实使用场景。TableQAKit（Lei等人，2023）整理了来自多样来源的问答对，并提供统一接口和多任务评估工作流程。

表6：表格推理能力的代表性基准。DP是直接提示的缩写，Markup表示包含html、xml和markdown在内的格式。

	基准	表格推理能力					数据来源	新的问答对	推理模式	表格格式
		TU	TBO	TCO	DA	ADA
$□\square$	WTQ	$✓\checkmark$	$×\times$	$×\times$	$×\times$	$×\times$	维基百科			JSON
	TabFact	$✓\checkmark$	$×\times$	$×\times$	$×\times$	$×\times$	维基百科			JSON
	FeTaQA	$✓\checkmark$	$×\times$	$×\times$	$×\times$	$×\times$	维基百科			JSON
	SQA	$✓\checkmark$	$×\times$	$×\times$	$×\times$	$×\times$	维基百科			JSON
	HybridQA	$✓\checkmark$	$×\times$	$×\times$	$×\times$	$✓\checkmark$	维基百科			JSON
	ToTTo	$✓\checkmark$	$×\times$	$×\times$	$×\times$	$×\times$	维基百科			JSON
	FinQA	$✓\checkmark$	$×\times$	$✓\checkmark$	$×\times$	$×\times$	FinTabNet			JSON
	AIT-QA	$✓\checkmark$	$×\times$	$✓\checkmark$	$×\times$	$×\times$	航空公司			JSON
	Spider	$×\times$	$✓\checkmark$	$✓\checkmark$	$×\times$	$×\times$	众包			JSON
	BIRD	$×\times$	$✓\checkmark$	$✓\checkmark$	$×\times$	$×\times$	Kaggle			JSON
	TableBench	$✓\checkmark$	$✓\checkmark$	$✓\checkmark$	$✓\checkmark$	$✓\checkmark$	6个来源	$✓\checkmark$	DP/TCoT/PoT/SCoT	JSON
	SUC	$✓\checkmark$	$×\times$	$×\times$	$×\times$	$×\times$	5个来源	$✓\checkmark$	DP	NL/JSON/Markup
	RealTableBench	$✓\checkmark$	$✓\checkmark$	$×\times$	$×\times$	$✓\checkmark$	BI数据	$✓\checkmark$	DP	NL/JSON/Markup
	TableQAKit	$×\times$	$×\times$	$✓\checkmark$	$×\times$	$✓\checkmark$	7个来源	$×\times$	DP/TCoT/PoT	NL/Markup
	TQA-Bench	$×\times$	$✓\checkmark$	$✓\checkmark$	$×\times$	$✓\checkmark$	3个来源	$✓\checkmark$	DP	CSV/Markup
	MMQA	$✓\checkmark$	$✓\checkmark$	$✓\checkmark$	$×\times$	$✓\checkmark$	Spider	$✓\checkmark$	DP	NL
	表格作为文本或图像	$✓\checkmark$	$✓\checkmark$	$✓\checkmark$	$×\times$	$×\times$	6个来源	$×\times$	DP/TCoT	NL/JSON/Image
	TableVQA-Bench	$✓\checkmark$	$✓\checkmark$	$×\times$	$×\times$	$×\times$	3个来源	$✓\checkmark$	DP	Image

评估工作流。除这些努力外，其他基准已将表格推理的范围扩展到多表格推理、多步骤执行和视觉表格理解(Wu et al., 2025a; Qiu et al., 2024; Kim et al., 2024; Deng et al., 2024)。尽管有这些进展，现有基准仍然缺乏端到端评估流水线，覆盖从感知和推理到执行和验证的完整表格理解范围。

总之，表格推理已经从基础结构理解演进到多维整合，方法论从静态检索转向动态、可执行的推理。这一趋势反映了任务复杂性、方法多样性及细粒度评估设计的整体发展。然而，当前的基准仍然受到碎片化能力维度、不完整的推理链条和受限的数据结构的限制——阻碍了其在真实世界表格环境中全面评估通用模型的能力。为了弥补这一差距，迫切需要一个更加开放、现实和复杂的评估框架，以系统评估异构、多源表格数据下的模型性能。

6. 局限性与未来工作

6.1. 局限性

我们采用了严格的设计过程来开发这个基准，旨在全面和客观地评估多种表格推理能力。然而，与所有基准框架一样，固有的局限性依然存在，以下部分将对其进行批判性分析。

我们的框架的一个局限性在于它依赖LLM-as-a-judge，这可能会无意中引入偏见。这些偏见源于LLMs倾向于偏好某种推理风格或答案格式，可能会影响评估的公平性和普适性。我们采取了多项措施，通过精心设计和优化系统提示来减轻这些偏见，以确保评分的中立性和一致性。然而，尽管付出了这些努力，一些残余偏见可能仍然存在。尽管如此，广泛的实验分析表明，在绝大多数情况下，LLM-as-a-judge相比其他评估方法取得了更客观的结果。目前，LLM-as-a-judge仍然是评估LLMs在各种表格推理任务中表现最全面和相对公平的方法。

此外，我们当前的评估仅限于文本和表格数据，排除了图像表格表示或多模态输入等其他模态。这一局限性限制了框架在现实场景中的适用性，因为在这些场景中数据常常以多种格式存在，如扫描文档、图表或混合表示。将框架扩展到容纳这些模态将提高其多功能性，并能对模型在多样表格推理任务中的能力进行全面评估。

6.2. 未来工作

有几个有前景的方向可以进一步扩大这个基准的范围和实用性：

基于图像的表格评估：一个重要改进领域是将基准扩展到包括嵌入在图像中的表格生成、解释或推理任务。这将解决表格数据常以扫描文档、截图或其他基于图像的格式呈现的现实场景。开发评估模型在这些任务上的性能的方法将显著扩大基准的应用范围和相关性。

复杂Excel表格和多表格场景：另一个重要方向是纳入更复杂的数据集，包括复杂Excel表格和多表格推理任务。这些增加将使模型处理表间关系的能力评估成为可能，执行多个数据集上的高级操作，并回答更高复杂性的问题。通过模拟现实世界的挑战，这项扩展将允许对模型在实际表格挖掘应用中的能力进行全面评估。

增强工具集成：未来的工作还可以集中在扩展框架上，以评估模型与外部工具（如数据库、API或高级计算系统）集成的能力。这将使基准能够评估模型利用外部资源解决超出独立推理范围的高度复杂或特定领域任务的有效性。

发布新LLMs：为确保公平性，我们在本文中未包含对我们自己模型的评估。未来，我们计划训练并发布具有表格推理能力的LLMs。此外，我们将探索基准如何指导模型训练并有助于性能提升。

7. 结论

在这项工作中，我们提出了一个综合基准TReB来评估LLMs的表格推理能力。它整合了多样化的数据集、6个核心能力及26个子任务，提供了对模型性能的全面和多维评估。它还包含了多种推理模式（TCoT、PoT、ICoT）并采用多种评估指标以确保基准测试的客观性和可靠性。该框架提供了对现有LLMs强弱点的有意义见解，特别是在应对现实世界表格数据挑战方面。通过公开发布数据集和评估框架，我们旨在推进表格推理和复杂数据分析的研究，促进创新并为开发更有能力和鲁棒的模型提供坚实基础。

参考文献

Achiam, J., Adler, S., Bavarian, M., Chen, M., Jun, H., Kaiser, L., Plappert, M., Tworek, J., Hilton, J., Nakano, R., et al. Gpt-4技术报告。arXiv预印本 arXiv:2303.08774, 2023.

Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., et al. 语言模型是少样本学习者。神经信息处理系统的进展, 33: 1877-1901, 2020.

Chai, L., Liu, S., Yang, J., Yin, Y., Jin, K., Liu, J., Sun, T., Zhang, G., Ren, C., Guo, H., et al. Mac-sql: 用于文本到sql的多代理协作框架。arXiv预印本 arXiv:2312.11242, 2023.

Chen, W., Zha, H., Chen, Z., Xiong, W., Wang, H., and Wang, W. Y. Hybridqa: 多跳问题解答数据集，包含表格和文本数据。在计算语言学协会发现: EMNLP 2020年会议论文集，第1026-1036页，2020年。

Chen, W., Ma, X., Wang, X., and Cohen, W. W. 程

参考论文：https://arxiv.org/pdf/2506.18421

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

从Anthropic官方文档看Claude的安全机制：隔离、模型与外部内容的三层防御体系

十二个月前，如果有人提议让Claude拥有足以搞垮Anthropic内部服务的权限，我们一定会断然拒绝。而今天，这种访问级别已经成为常态，Anthropic内部的开发者们正因为这种部署而大幅提升了生产力。这是我读完Anthropic官方工程博客《How we contain Claude across products》（2026年5月25日发布）后的第一感受。当AI Agent的能力越强大，它的