DeepMath-Creative：评估大语言模型数学创造力的基准

Paper易论

1277人浏览 · 2025-05-15 07:07:40

Paper易论 · 2025-05-15 07:07:40 发布

由DeepMath团队发起的开源项目 $}^{+}$
完整的贡献者名单见附录

摘要

为了提升大语言模型（LLMs）的数学能力，DeepMath团队启动了一项开源计划，旨在开发开放数学LLM并系统评估其数学创造力。本文代表了这一计划的初步贡献。尽管近年来数学LLM的发展主要强调推理技能，这在基础到本科水平的数学任务基准中得到了证明，但这些模型的创造能力却较少受到关注，且评估数据集仍然稀缺。为弥补这一差距，我们提出了数学创造力的评估标准，并引入了DeepMath-Creative，这是一个全新的高质量基准，涵盖代数、几何、分析等领域的构造性问题。我们使用该数据集对主流LLM的创造性解题能力进行了系统评估。实验结果表明，即使在宽松的评分标准下——强调核心解决方案组件，忽略小逻辑漏洞、不完整论证或冗长解释等次要错误——表现最佳的模型O3 Mini在基本本科水平的构造性任务上仅达到70%的准确率。在更复杂的问题上，性能急剧下降，模型无法为开放性问题提供实质性策略。这些发现表明，虽然当前LLM在熟悉和较低难度的问题上表现出一定的构造能力，这种表现可能更多归因于记忆模式的重组，而非真正的创造性洞察或新颖综合。

1 引言

近年来，以GPT [9] 和DeepSeek [4]为代表的大型语言模型（LLMs）在数学问题解决方面展现了令人印象深刻的推理能力。实证研究表明，LLMs在基本算术和多步逻辑推理方面表现出色。例如，Multi-LogiEval基准报告称，LLMs在多步逻辑推理任务中的平均准确率为68%，在深度为5的推理任务中保持约43%的性能水平[10]。此外，LLMs在中学数学辅导助手的三项关键任务中显示出相当大的潜力：提示生成、全面解决方案提供和练习创建[12]。值得注意的是，AlphaGeometry系统成功解决了30道国际数学奥林匹克（IMO）几何题中的25道，接近普通IMO金牌得主的水平[13]。然而，当前的数据集主要侧重于基本或竞赛风格的问题，对前沿、创造性和探索性的数学挑战关注有限。因此，这些数据集未能充分反映大型语言模型所展现的真实数学创造力。

*DeepMath团队创始人：陈晓阳、高宇婷、姜翔、李相南。隶属机构：同济大学数学科学学院。GitHub: https://github.com/DeepMathLLM/DeepMath
一个根本性的问题随之而来：如何有效评估数学创造力？为解决这一问题，我们基于三个关键维度提出了一种框架。第一个也是最深刻的一个维度是新概念的生成。新概念和思想的引入标志着数学理解的质的飞跃。例如，黎曼度量的出现为现代微分几何和广义相对论奠定了基础；可微流形的概念使得局部线性化技术在时空数学和物理模型中得以广泛应用；群论的诞生彻底改变了代数中的结构思维；拓扑空间的概念超越了传统距离框架的限制。这些基础概念一直是推动现代数学发展的持久催化剂。第二个维度在于新方法的发明。新方法提供了强大的工具和路径来解决复杂问题。例如，广义函数理论使人们能够脱离经典函数框架，从而在量子力学等领域取得突破。变分法成为几何优化研究的关键工具，而Bochner技术则标志着几何分析的重要里程碑。第三个维度涉及新例子的创造。反例的构建在数学探究中起着至关重要的作用，它用于测试命题的普遍性并界定理论建构的边界，从而推动新理论的发展和完善现有理论。例如，米尔诺对奇异球体的发现[8]推翻了人们对高维球体结构的传统理解，开创了奇异流形理论和微分拓扑的新时代。维尔斯特拉斯构造了一个处处连续但处处不可导的函数[14]，直接推动了实分析的发展。这类例子的存在不仅不断强化理论框架的严谨性，而且作为数学创造力的重要体现。因此，创造新的反例具有重大的理论意义，是数学进步不可或缺的动力。
人类创造新数学概念和方法的历史过程通常是无序和偶然的。因此，通过大规模标准化数据集重建数学家的认知轨迹和探索过程极其困难，相关系统化过程数据极为稀缺。此外，尽管大型语言模型可以生成看似新颖的数学概念和方法，但由于当前评估机制的局限性，判断这种“新颖性”是真正的原创还是仅仅是对已有知识的重组或变体是一项重大挑战。值得注意的是，证明或反驳数学命题的过程通常需要构建新的数学例子。与抽象概念和理论相比，这些具体的、可构造的例子更容易验证，因此为评估大型语言模型的创造力提供了一个有价值的切入点。
为应对目前缺乏专门用于评估大型语言模型数学创造力的数据集的问题，我们构建了DeepMath-Creative，这是一个高质量基准，涵盖了包括代数、拓扑、几何和分析在内的几个重要数学分支。这个基准包含了一系列具有挑战性的创新问题，分为两类基于探究的问题：(1) 需要形式证明的问题，要求模型构建一个数学对象以验证给定命题；(2) 需要反例的问题，要求模型构建一个反例以无效化给定命题。这两种问题类型共同提供了一个全面的框架来评估模型的数学创造力。随后，我们采用严格的实验程序和明确的评估标准，系统地评估了几种主流的大语言模型，包括GPT和DeepSeek系列。我们的实验结果表明，当面对创造性的数学问题时，现有模型仍存在诸如构建方向错误、推理有误、解决方案过于冗长以及缺乏收敛至正确答案等问题。在未来的工作中，我们打算探索强化学习进行训练，并发布DeepMath-Creative模型，以持续提升大型语言模型的创造性数学能力。
同时，我们还开发了一个包含170个基础问题的评估集，涵盖数学分析、高等代数、概率论、数理统计、组合学、复分析、数论、偏微分方程和运筹学等关键分支。从该集合获得的评估结果显示，大型语言模型在解决本科水平数学问题方面表现出稳健的推理能力，总体准确率约为85%。这一水平的表现表明当前模型在基本推理任务方面已达到显著熟练程度。然而，现有的基础问题集不足以评估创造性能力，凸显了设计更具创新性和开放性的问题集以全面评估模型创造性构造能力的紧迫需求。

此外，我们还编制了一套开放性问题。初步评估结果显示，当前模型尚未为高级数学研究提供具有实质性参考价值的信息。将大型语言模型应用于前沿数学研究需要进一步探索显著提升其数学创造力的策略。

实验结果表明，当前的大语言模型在数学创造性任务中仍面临诸多挑战，包括误判解决方案策略、逻辑推理薄弱、推导过于冗长和不集中等问题。尽管采用了非常宽松的评估标准——仅评估关键解决方案组件并忽略次要错误——表现最佳的模型O3 Mini准确率仅为约70%。值得注意的是，大部分基准问题处于本科水平，主要测试基本的构造性思维。然而，模型在更难的问题上的表现显著下降，在面对开放性问题时无法提供有效的策略。这些观察表明，虽然当前模型在已知、低难度问题上表现出一定的构造能力，但其表现可能更多依赖于记忆知识的重组而非真正的创造力。这突显了现有模型在实现真正数学创造力方面的持续局限性。

2 相关工作

数学推理领域的众多研究专注于构建高质量数据集，以促进算法优化并提升大型语言模型的能力。该领域的代表性工作包括：

GSM8K [2] 是一个主要由基础算术和文字问题组成的数据库，专为小学和中学水平设计。它旨在评估模型的多步推理和语言理解能力。

MATH [6] 包括从中学到国际数学奥林匹克（IMO）水平的问题。它评估模型在复杂数学推理和综合问题解决任务中的表现。
AIME2024 [7] 来自美国邀请数学考试（AIME）的实际问题。它强调代数、几何和数论中的严格推理和演绎技巧，专注于整数解。
MMLU（数学）[5] 是大规模多任务语言理解（MMLU）基准的数学子集。它包括四个层次：抽象代数、大学数学、高中数学和小学数学，所有问题均以选择题形式呈现。
FrontierMath [3] 针对研究生及以上水平的高级数学问题，涵盖现代数学领域如数论、代数几何和范畴论。它评估模型在抽象概念理解、结构化推理和原创问题解决方面的能力。
尽管这些数据集在推动语言模型的数学推理能力方面做出了重要贡献，但它们也存在一些共同的局限性。首先，它们的问题格式相对传统，强调计算准确性和逻辑完整性，而在模型创造力、反例构建和原创推理方面的评估较为有限。其次，数学领域主要集中于基础教育或竞赛风格的内容，缺乏高度抽象和创新驱动的专业主题。此外，许多最先进的模型在这类基准上已经达到接近饱和的性能，削弱了它们在区分模型能力方面的有效性。为解决这些问题，我们引入了一个强调专业数学领域创造力的高质量基准。使用此基准，我们系统地评估和比较了当代大型语言模型的创造性解决问题的表现。

3 基准的构建

3.1 设计原则

为了准确评估大型语言模型的数学创造力，基准设计遵循了创新建设性的基本原则。开发的数据集重点放在代数、拓扑、实分析和几何等核心数学分支上，代表了数学研究中的重要方向和固有挑战。所选问题强调创造性构建，旨在评估模型是否能超越单纯的记忆，独立进行问题探索并生成创新解决方案。通过这种设计，我们希望评估模型在面对未见过的问题时展现出的独立思考和创造力。

正如庞加莱[Poincaré] [11] 所著名阐述的那样：“什么是数学创造？它并不在于用已知的数学实体制造新的组合。任何人都能做到这一点，但这样制造出的组合将是无限多的，其中大多数绝对没有兴趣。创造恰恰在于不制造无用的组合，而只制造那些有用的、少数的组合。发明就是辨别，选择。” 在本科和硕士水平的数学背景下，我们认为创造力经常表现为建设性——具体来说，通过构建满足特定性质的数学对象、函数或结构来证明或反驳给定命题。例如，来自实分析的一个问题 [1]：设 ${gn}\left\{g_{n}\right\}$ 是一个一致有界的可测函数序列，且 $p > 1$ 。假设对于任何具有可积 $f|^{p}$ 的可测函数 $f$ ，以下成立：

$\lim _{n \rightarrow \infty} \int_{a}^{b} f g_{n} d x=\int_{a}^{b} f g d x$

是否必然得出 ${gn}\left\{g_{n}\right\}$ 按测度收敛到 $g$ ？如果命题成立，请提供证明；如果不成立，请构建反例。该问题的结论是否定的，其解决方案需要构建一个特定的序列 ${gn}\left\{g_{n}\right\}$ 来展示不按测度收敛到 $g$ 的情况。仅通过已知结论的组合和演绎得出的数学结果并不能反映数学创造力。数学工作超越了任意组合的机械和重复练习；相反，创作者必须谨慎选择和连接少量有用的组合，进行刻意努力，从而使潜意识创造力得以蓬勃发展。那么，什么样的数学问题是具有创造性的呢？我们认为，如果一个问题的解决方案取决于构建一个例子来证明或反驳命题，并且要求模型独立理解问题并探索潜在解决方案而不依赖预设的解决方案路径，则该问题具有显著的创造性特征。通过对模型在这种建设性任务中的能力进行深入评估，可以实现对模型创造力的评估，这与前面提到的数学创造力的第三个维度相吻合。
对于创新数据集中的问题，我们引入了一种新颖且具有挑战性的问题表述。设计采用统一结构适用于所有问题，格式为：“问题描述 + 如果命题成立，请证明；如果命题不成立，请提供反例。” 这种格式不仅清晰明了，还摆脱了传统的单向提问格式，后者仅引出确定性答案。它鼓励模型在回答之前积极进行全面的逻辑分析和多维度思考，从而实现对模型创造力的更真实评估。总体而言，这种双向探究式格式极大地扩展了模型的认知边界，允许更全面地反映其在高层次任务中的表现，并为数学创造力的定量评估提供有力支持。图1展示了我们为模型评估过程设计的一个创新且开放结构的数学问题。
是否存在欧几里得空间中的可测集 $E$ 和一个可测函数 $\in L^{p}(E)$ （其中 $\ldots, \infty$ ），使得

$\lim _{p \rightarrow+\infty}\|f\|_{L^{p}(E)} \neq\|f\|_{L^{\infty}(E)} ?$

如果存在这样的例子，请提供并证明断言；如果不存在，请解释原因。

图1：为模型评估过程设计的创新数学问题结构示例。

3.2 数据收集

为确保基准的高质量和原创性，本研究中使用的所有数学问题均由数学领域的专家精心设计和注释。数据收集和设计团队由数学系的教授和研究生组成。他们利用自己的研究专长和专业知识，参照成熟的数学教科书，创造性地制定了问题并设计了独特的题目格式。设计和收集过程遵循多轮专家讨论和审查方法，严格确保问题来源的高标准。这一过程保证了问题在逻辑严谨性、数学正确性和问题描述准确性方面达到极高标准，从而确保了数据集的整体质量和可信度。

通过这一严格的过程，我们构建了一个包含179个问题的评估集。创新数据集分布在以下数学领域：约50%在代数，15%在拓扑，35%在分析。关于难度水平，大约60%的问题对应于本科水平的数学，而约40%对应于硕士水平的数学。此外，数据集包含两类问题：需要正式证明的问题（约占数据集的40%）和需要反例的问题（约占60%）。这些分别用于评估语言模型在原创推理和批判性思维方面的能力。

3.3 评估指标和程序

为了全面评估语言模型在数学创造力任务中的表现，我们设计了一个结合定量和定性指标的系统评估框架。对于定量评估，创新数据集采用两个指标：“方向准确性”和“过程准确性”，分别评估答案整体方向的正确性和解决方案过程的准确性，提供对模型表现的客观量化。对于定性评估，所有输出由一组数学专家通过人工评分进行评估，重点关注模型解决方案的逻辑严谨性、数学表达的清晰度和原创性，从而捕捉模型在创造性问题上的细微表现差异。

该创新数据集包含需要正式证明的问题和需要反例的问题。这两类问题的详细评分标准见表1。对于需要正式证明的问题：如果模型错误地将命题视为假并试图通过构建反例来反驳它——从而选择了错误的问题解决方向——则得分为0。如果模型选择证明命题，但推理过程中存在重大缺陷或遗漏关键步骤，导致证明不完整，则得分为0.5。如果模型提供了一个完整且严谨的证明，逻辑清晰且无重大遗漏，则得分为1。对于需要反例的问题：如果模型错误地试图证明命题为真——从而选择了错误的问题解决方向——则得分为0。如果模型认识到命题为假并试图构建反例，但反例存在逻辑缺陷或不满足问题条件，则得分为0.5。如果模型成功识别命题为假并构建了一个逻辑合理的反例，满足所有条件，则得分为1（如果模型提供了多个例子，只要至少给出一个正确的反例即可得1分）。该评分系统侧重于评估模型在选择正确问题解决方向和构建有效例子方面的能力。它评估模型对命题的判断及其数学创造力。这种方法不仅有助于区分模型在任务理解和创造性构建方面的能力，还为后续结果分析提供了定量依据。
表1：数学问题评分标准

问题类型	模型响应	评估标准	得分
需要正式证明的问题	构建反例	错误的构建方向	0
	尝试有缺陷的证明	部分逻辑，缺失或错误的步骤	0.5
	提供完整的正确证明	逻辑严谨且完整的证明	1
需要反例的问题	尝试证明命题	错误的构建方向	0
	构建有缺陷的反例	合理尝试，但违反某些条件	0.5
	构建有效的反例	完全正确，满足所有条件	1

评估实验严格按照标准化程序进行。所有参与的语言模型都通过API接口统一集成到评估系统中。每个模型根据标准化提示格式自主生成响应。生成的响应随后根据既定评分指南进行人工审核和评分，确保评估过程的客观性、公平性和准确性。最终，评估结果清楚地划分了模型在创造性数学任务中的表现差异，并为后续模型优化和发展提供了可靠依据。

4 实验结果与分析

本章基于前文构建的DeepMath-Creative基准，对主流模型进行系统分析。实验重点评估模型在两个关键维度上的表现：问题解决方向和创造性构建能力。总共选择了五个当前主流模型进行对比评估，具体为：GPT o3-mini（2025-01-31版本）、Claude-3-7-Sonnet（2025-02-19版本）、Gemini-2.0-Flash、DeepSeek R1和Qwen QwQ-32B。这些模型的选择反映了不同模型规模、预训练策略和架构设计之间的平衡，捕捉了当前语言建模技术的多样性。这种多样性确保了实验结论具有广泛的适用性和重要的学术参考价值。所有模型都在统一的测试环境中进行评估，输入格式一致，确保实验的公平性和可重复性。

4.1 实验结果概述

本节提供对实验中模型输出的整体分析。根据评估标准，问题按照模型得分进行分类，并总结和分析观察到的模式。

4.1.1 模型输出分析

对于不同模型生成的输出，我们获得了以下具体观察和结论：

GPT O3-mini：该模型的输出常常表现出结构和表达模糊的特点，特别是在复杂或高度开放的问题上，逻辑清晰度和结论确定性不足。
1. Claude-3-7-Sonnet：该模型表现出明显的两极分化特征。对于处理得当的问题，其答案通常简洁、准确且逻辑严谨；然而，对于未掌握的问题，其答案往往包含重大错误或逻辑缺陷。
1. Gemini 2.0 Flash：整体表现中等，部分细节显示合理严谨且输出格式清晰。然而，许多问题的最终答案部分经常出现显著遗漏。
1. DeepSeek R1：尽管整体表现稳定，但部分响应表现出虚假证明行为，即模型通过错误的中间步骤得出正确结论。该模型的另一个明显倾向是，对于掌握的问题，答案通常简洁明了；而对于输出冗长且涉及重复推理的问题，最终答案通常错误。
1. Qwen QwQ-32B：该模型倾向于提供过于详细的推理和构建过程，但过于冗长的输出经常超出文本框限制。在许多情况下，模型未能提供明确的最终结论，而是陷入持续和重复的推理循环，从而影响评估的有效性。

4.1.2 按问题得分特征分析

为了对模型在数学创造性构建能力方面进行详细分析，我们根据评估标准分析了模型输出的主要特征和不足。如表2所示，对于评分为0到0.5的问题，模型输出通常表现出以下典型缺陷：问题解决方向错误、构建过程存在明显缺陷和虚假证明现象、输出冗长且缺乏明确的最终结论。相比之下，对于评分为1的问题，模型输出通常表现出以下特征：简洁严谨的构建过程、准确使用关键术语和方法、推理过程中有明确的停止点。

表2：不同模型的表现和常见特征

分数类别	不同模型的问题数量					共同特征
	GPT	Claude	Gemini	DeepSeek	Qwen
$0 - 0.5$ 分数	46	80	65	51	86	方向错误，推理过程虚假，无明确结论
1 分数	133	99	114	128	93	简洁严谨过程，方法应用准确，推理有明确停止点

我们的实验结果进一步表明，尽管采用了宽松的评分标准——仅关注关键解决方案元素而忽略次要错误——表现最佳的模型O3 Mini准确率仅为70%。值得注意的是，这种表现主要是在需要基本构造推理的本科水平问题上取得的。随着任务难度增加，模型的准确率显著下降，并且始终未能为开放性问题提出有意义的策略。这些发现表明，尽管当前模型在熟悉且相对简单的任务上表现出一定的构造能力，但这种能力很可能根植于记忆模式的重组，而非真正的创造力。

4.2 代表性案例分析

基于前一节的整体分析，本小节通过纳入代表性案例进行更深入的检查，揭示了模型中存在的几个常见模式和问题。

错误方向。在明确要求直接证明的问题中，某些模型错误地将命题解读为假，并试图构建反例。相反，在需要提供反例或反驳给定陈述的任务中，某些模型错误地进行了直接证明。这种方向偏差反映了模型准确解读预期问题要求的能力存在显著弱点。例如，图2展示了一个案例，其中正确解决方案涉及构建反例，但Claude错误地试图证明命题。

问题：

如果 $H$ 是 $G$ 的无限子群且 $\in G$ ，那么 $g^{-1} \subseteq H$ 是否意味着并且被 $g H g^{-1}=H$ 所蕴含？如果命题成立，请提供证明；如果不成立，请提供反例。

答案：

# 命题分析： $g^{-1} \subseteq H$ 当且仅当 $g H g^{-1}=H$
我将证明这个命题成立。
# 证明
首先，注意 $g H g^{-1}$ 和 $H$ 具有相同的基数，因为共轭建立了从 $H$ 到 $g H g^{-1}$ 的双射。
现在假设 $g^{-1} \subseteq H$ 。我们需要证明 $\subseteq g H g^{-1}$ ，这等价于证明 $g−1Hg⊆Hg^{-1} H g \subseteq H$ 。
对于任何 $\in H$ ，令 $h′=g−1hgh^{\prime}=g^{-1} h g$ 。我们需要证明 $h′∈Hh^{\prime} \in H$ ，也就是说 $g−1hg∈Hg^{-1} h g \in H$ 。
观察以下内容：

$g−1∈Gg^{-1} \in G$
- $H$ 是 $G$ 的子群
- 根据假设， $g^{-1} \subseteq H$
  我们有： $g(g−1hg)g−1=h∈Hg\left(g^{-1} h g\right) g^{-1}=h \in H$
  这意味着 $g−1hg∈g−1Hgg^{-1} h g \in g^{-1} H g$ ，所以 $g−1hg∈Hg^{-1} h g \in H$ ，因为

$g^{-1} H g=g^{-1}\left(g H g^{-1}\right) g \subseteq g^{-1} H g$

因此，我们已经证明了 $g−1Hg⊆Hg^{-1} H g \subseteq H$ ，这等价于 $\subseteq g H g^{-1}$ 。结合初始假设 $g^{-1} \subseteq H$ ，我们得到 $g H g^{-1}=H$ 。
# 结论
命题成立：如果 $H$ 是 $G$ 的子群且 $\in G$ ，那么 $g^{-1} \subseteq H$ 当且仅当 $g H g^{-1}=H$ 。

图2：Claude的响应：在反例任务中尝试证明

缺陷问题解决过程。尽管模型一般遵循正确方向，但其问题解决过程仍表现出显著的不足。例如，在需要构建反例的任务中，模型能够从正确角度接近问题，但往往生成含有事实错误的反例。如图3所示，DeepSeek生成的反例错误地声称“ $\times X$ 和 $\times Y$ 是等距的。” 此外，当模型生成过长且重复的内容，包含循环和不集中的信息时，通常表明问题超出了模型的知识库或认知能力。因此，这类响应往往无法产生完整且正确的解决方案。图4展示了Qwen的一个例子，其中响应冗长且多余，最终未能提供明确答案，图中仅显示了部分信息。

问题：

是否存在两个度量空间 $X$ 和 $Y$ ，使得 $\times X$ 和 $\times Y$ 是等距的，但 $X$ 和 $Y$ 本身不是等距的？如果这样的空间存在，请提供一个例子和证明；如果不存在，请解释原因。

答案：

存在度量空间 $X$ 和 $Y$ ，使得 $\times X$ 和 $\times Y$ 是等距的，而 $X$ 和 $Y$ 本身不是等距的。
设 $X=\{a, b\}$ 是一个两点空间，其度量为 $d_{X}(a, b)=1$ 。设 $Y =$ ${c, d, e\}$ 是一个三点空间，形成边长为 $2\sqrt{2}$ 的等边三角形，即

$d_{Y}(c, d)=d_{Y}(d, e)=d_{Y}(e, c)=\sqrt{2}$

乘积空间 $\times X$ 包含四个点。在欧几里得乘积度量下，可能的距离为：

沿一个坐标轴的距离为1，例如 $(a, a)$ 和 $(b, a)$ 之间；
- 对角线距离 $12+12=2\sqrt{1^{2}+1^{2}}=\sqrt{2}$ ，例如 $(a, a)$ 和 $(b, b)$ 之间。
  空间 $\times Y$ 包含九个点。最小非零距离为

$\sqrt{(\sqrt{2})^{2}+0^{2}}=\sqrt{2}$

例如 $(c, c)$ 和 $(d, c)$ 之间。其他距离包括

$\sqrt{(\sqrt{2})^{2}+(\sqrt{2})^{2}}=2$

例如 $(c, c)$ 和 $(d, d)$ 之间。

我们可以定义从 $\times X$ 的四个点到 $\times Y$ 中四个点的映射，例如：

$\mapsto(c, c), \quad(b, a) \mapsto(d, c), \quad(a, b) \mapsto(c, d), \quad(b, b) \mapsto(d, d)$

使得：

$\times X$ 中的距离1对应于 $\times Y$ 中的 $2\sqrt{2}$ （沿一个坐标方向移动）；
- $\times X$ 中的距离 $2\sqrt{2}$ 对应于 $\times Y$ 中的2（沿对角线移动）。
  然而， $X$ 只有两个点，而 $Y$ 有三个点。由于它们的基数不同，两者之间不可能存在双射。因此， $X$ 和 $Y$ 不是等距的。
  该构造表明，在欧几里得乘积度量下， $\times X$ 和 $\times Y$ 是等距的，但 $X$ 和 $Y$ 本身不是等距的。

图3：DeepSeek的响应：错误的反例

问题：

是否存在一个函数，它恰好在五个不同的点处可导？如果这样的函数存在，请提供一个例子并证明；如果不存在，请解释原因。

答案：

嗯，这个问题问的是是否存在一个函数，它恰好在五个不同的点处可导，而在其他地方不可导。如果这样的函数存在，我们需要提供一个例子并证明；如果不存在，我们需要解释原因。我认为这个问题与函数在特定点处的可导性和不可导性有关。让我先回忆一下可导性的条件以及如何构造这样的函数。
首先，我知道一个常见的例子是绝对值函数 $\ldots$
我的初步反应是这样的函数可能不存在，因为可导性通常是一个“局部”属性或表现出某种连续性；也就是说，可导点周围往往有一些“扩散”。然而，也许在某些特殊构造下是可能的。让我更仔细地思考。首先，是否可能有一个函数仅在有限个点处可导？
例如，可以尝试构造一个分段函数，其端点除五个特定点外都是不可导的。但这可能会相当困难…
或者，能否构造一个函数，在区间的每个端点处不可导，但在某个内部点处可导？例如，考虑定义在区间 $[ai,bi]\left[a_{i}, b_{i}\right]$ 上的函数，它在 $b_{i}$ 处不可导，但在某个内部点 $x_{i}$ 处可导。也许可以组合这样的区间？
这可能需要更仔细的设计。
或者，能否利用可导性的必要条件，强制函数仅在几个孤立点处满足这些条件…

图4：Qwen的响应：冗长但不完整的解决方案

总之，本节提供的分析详细说明了模型在测试过程中表现出的特性和不足之处，这可以为未来改进和优化此类模型提供参考。

5 讨论

目前，大型语言模型在解决基础数学问题方面已达到相对较高的熟练程度，展现出提供准确且结构良好的推理能力。然而，基于DeepMath-Creative基准的系统评估表明，当面对创造性数学问题时，现有模型仍表现出构建方向错误、理由不充分以及过于冗长、不收敛的响应等问题。值得注意的是，DeepMath-Creative基准内的所有数学问题都有标准答案。然而，大型语言模型的创造性与构建能力尚未达到理想水平，揭示了它们在解决真正开放的数学问题时的局限性。实验结果表明，当前的大型模型在数学创造力方面仍显著不成熟。为应对这一持续存在的挑战，我们计划进一步利用强化学习进行训练，并发布专用模型DeepMathCreative Model，目标是持续提升大型语言模型的数学创造力。

参考文献

[1] Cheng Qing 和 Wang Yuan。《实分析中的反例》。高等教育出版社，北京，2004年。
[2] Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse 和 John Schulman。训练验证器解决数学文字问题。arXiv预印本 arXiv:2110.14168, 2021年。
[3] Elliot Glazer, Ege Erdil, Tamay Besiroglu, Diego Chicharro 和 Evan Chen。评估人工智能中高级数学推理的基准。arXiv预印本 arXiv:2411.04872, 2024年。
[4] Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi 等人。Deepseek-r1：通过强化学习激励LLM的推理能力。arXiv预印本 arXiv:2501.12948, 2025年。
[5] Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song 和 Jacob Steinhardt。衡量大规模多任务语言理解。arXiv预印本 arXiv:2009.03300, 2020年。
[6] Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song 和 Jacob Steinhardt。使用数学数据集衡量数学问题解决能力。arXiv预印本 arXiv:2103.03874, 2021年。
[7] Maxwell-Jia。AIME 2024 数据集。https://huggingface.co/datasets/Maxwell-Jia/ AIME_2024, 2024年。
[8] John Milnor。关于与7维球面同胚的流形。《数学年刊》，64(2):399-405, 1956年。
[9] OpenAI。O3 和 o4-mini 系统卡，2025年。URL https://openai.com/index/o3-o4-mini-system-card/。访问日期：2025年4月29日。
[10] Nisarg Patel, Mohith Kulkarni, Mihir Parmar, Aashna Budhiraja, Mutsumi Nakamura, Neeraj Varshney 和 Chitta Baral。Multi-logieval：迈向评估大型语言模型多步逻辑推理能力。arXiv预印本 arXiv:2406.17169, 2024年。
[11] Henri Poincaré。科学的价值。科学出版社，纽约，1905年。
[12] Hamsini Ramanathan 和 Ramanathan Palaniappan。三大语言模型作为中学数学辅导助手的比较。《新兴研究者杂志》，2024年。
[13] Trieu H. Trinh, Yuhuai Wu, Quoc V. Le, He He 和 Thang Luong。无需人类示范解决奥林匹克几何问题。《自然》，625(7995):476-482, 2024年。doi: 10.1038/s41586-023-06747-5。
[14] Karl Weierstrass。关于一个实变量的连续函数，它对于该变量的任何值都不具有确定的导数。柏林皇家普鲁士科学院，第1-6页，1872年。重印于《数学著作》，第2卷，Mayer & Müller，柏林，1895年。

A 附录。贡献者名单及隶属关系

以下是完整的贡献者名单及其隶属关系（按姓氏字母顺序排列）：

陈晓阳，同济大学
- 戴欣安，复旦大学
- 杜宇，天津大学
- 冯倩
- 郭乃旭
- 顾廷硕，香港大学
- 高宇婷，同济大学
- 高英懿，华威大学
- 韩旭东，MBZUAI，LibrAI
- 姜翔，同济大学
- 金怡琳，同济大学
- 林宏毅，同济大学
- 林世盛，同济大学
- 李相南，同济大学
- 李远泰，同济大学
- 李逸星，香港中文大学
- 赖振涛，同济大学
- 马梓路
- 彭颖蓉，清华大学
- 钱嘉诚，同济大学
- 孙昊宇，德克萨斯大学奥斯汀分校
- 孙健波，九州大学
- 王梓瑞，同济大学
- 吴思伟，吉林大学
- 王志安，同济大学
- 徐斌，中国科学技术大学
- 徐江浩，同济大学
- 余亿洋，同济大学
- 杨子川，同济大学
- 查洪基，同济大学
- 张瑞崇，清华大学
  参考论文：https://arxiv.org/pdf/2505.08744

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

从Anthropic官方文档看Claude的安全机制：隔离、模型与外部内容的三层防御体系

十二个月前，如果有人提议让Claude拥有足以搞垮Anthropic内部服务的权限，我们一定会断然拒绝。而今天，这种访问级别已经成为常态，Anthropic内部的开发者们正因为这种部署而大幅提升了生产力。这是我读完Anthropic官方工程博客《How we contain Claude across products》（2026年5月25日发布）后的第一感受。当AI Agent的能力越强大，它的