DeepSeek新数学模型刷爆记载！7B小模型发现671B模型不会的新技能

发布时间：2025-05-15　点此：338次

梦晨西风发自凹非寺量子位 | 大众号 QbitAI

DeepSeek放大招！新模型专心数学定理证明，大幅改写多项高难基准测验。

在普特南测验上，新模型DeepSeek-Prover-V2直接把记载改写到49道。

现在的第一名在657道题中只做出10道题，为Kimi与AIME2024冠军团队Numina协作效果Kimina-Prover。

而未针对定理证明优化的DeepSeek-R1只做出1道。

让还没发布的R2更令人期待了。

除测评效果之外，论文中特别报告了“经过强化学习发现新技术”现象。

正如R1带来了“啊哈时间”，Prover-V2也有令人意想不到的才能。

详细来说，在普特南测验中，参数量较小的DeepSeek-Prover-V2-7B用非CoT生成方式成功处理了13个671B模型未能处理的问题。

团队仔细检查该模型的输出后发现，其推理办法存在一个一起方式：7B模型处理触及有限基数的问题时，常常运用Cardinal.toNat和Cardinal.natCast_inj，而671B模型生成的输出中显着没有这些内容。

要注意，7B模型是在DeepSeek-Prover-V1.5-Base模型根底上，先运用671B模型在强化学习阶段搜集的数据微调，再履行强化学习得来的。

也就是说，7B模型学会了671B模型没有学会的新技术。

那么，DeepSeeK-Prover-V2怎么炼成的呢？与前代比较又有哪些改善？

方式化和非方式化数学证明一致模型

DeepSeek数学定理证明DeepSeek-Prover系列模型已推出3款：

2024年3月的DeepSeek-Prover（后简称为Prover-V1）

2024年8月的DeepSeek-Prover-V1.5（后简称为Prover-V1.5）

2025年5月的DeepSeek-Prover-V2（后简称为Prover-V2）

Prover-V1首要探究了经过大规模组成数据集微调DeepSeek-Math-7B，来推动定理证明。

Prover-V1.5在此根底上增加了证明帮手反应的强化学习（RLPAF）和蒙特卡洛树查找办法。

Prover-V2进一步提出“子方针分化的强化学习”，而且根底模型从DeepSeek-Math-7B升级到DeepSeek-V3。

整合DeepSeek-V3的高上下文窗口和强壮的自然语言推理才能，把方式化和非方式化数学证明一致到一个模型中。

Prover-V2还承继了Prover-V1.5提出的CoT和非CoT生成两种方式。

接下来，详细介绍Prover-V2的各首要环节。

经过递归证明查找组成冷启动推理数据

运用DeepSeek-V3作为子方针分化和方式化的一致东西构建冷启动数据集，提示DeepSeek-V3将定理分化为高档证明草图，一同在Lean 4中将这些证明进程方式化，然后发生一系列子方针。

运用一个较小的70亿参数模型来处理每个子方针的证明查找，然后减轻相关的核算担负。一旦一个具有应战性的问题的分化进程得到处理，就将完好的逐渐方式化证明与来自DeepSeek-V3的相应思想链进行配对，以创立冷启动推理数据。

运用组成冷启动数据进行子方针分化的强化学习

团队精心选择了一组具有应战性的问题，这些问题无法由70亿参数量的证冥具模型以端到端的办法处理，但一切分化后的子方针都已成功处理。

经过组合一切子方针的证明，为原始问题构建了一个完好的方式化证明。

然后，将此证明附加到DeepSeek-V3的思想链中，该思想链概述了相应的引理分化，然后完成了非方式化推理与后续方式化的有机结合。

在组成冷启动数据上对证冥具模型进行微调后进行强化学习阶段，进一步增强其将非正式推理与方式化证明构建相衔接的才能。遵从推理模型的规范练习方针，运用二元的正确或过错反应作为奖赏监督的首要方式。

详细练习细节

两阶段练习：

DeepSeek-Prover-V2分两阶段树立互补证明生成方式。

第一阶段用高效非思想链（non-CoT）方式，聚集快速生成Lean证明代码，加速迭代和数据搜集。

第二阶段依据第一阶段效果，选用高精度思想链（CoT）方式，论述中心推理进程，用冷启动思想链数据强化学习，提高复杂问题推理才能。

专家迭代：

其间非CoT方式练习遵从专家迭代范式，用最佳证明战略为难题生成证明测验，经Lean验证，成功的归入监督微调（SFT）数据集。与之前版别比较，练习问题散布有调整，引入了额定问题和子方针分化生成的问题。

监督微调：

对DeepSeek-V3-Base-671B做监督微调，练习语料库包括两个互补来历的数据：

一是经过专家迭代搜集的非CoT数据，这些数据生成的Lean代码不包括中心推理进程，首要用于强化模型在 Lean 定理证明生态系统中的方式验证技术。

二是冷启动CoT数据，这些数据将DeepSeek-V3的先进数学推理进程提炼为结构化的证明途径，明确地模拟了将数学直觉转化为方式证明结构的认知进程。

强化学习：

选用GRPO算法，与传统的PPO不同，GRPO无需独自的裁判模型，它经过为每个定理提示采样一组候选证明，并依据它们的相对奖赏来优化战略。

练习进程中运用二元奖赏机制，即生成的Lean证明若被验证正确则取得奖赏1，否则为0。

为保证学习效果，精心选择练习提示，仅包括那些有满足应战性但又能被监督微调后的模型处理的问题。

蒸馏DeepSeek-Prover-V2 7B

将DeepSeek-Prover-V1.5-Base-7B上下文窗口扩展到32768个token，用DeepSeek-Prover-V2-671B数据微调，融入非CoT证明数据，以便运用小模型生成简练的方式化输出，供给一种经济高效的证明选项。

此外，对DeepSeek-Prover-V2-7B履行与671B模型练习中相同的强化学习阶段，以进一步提高其功能。

由此得到的模型Prover-V2 671B在神经定理证明方面到达了最先进的功能，在miniF2F测验中的经过率到达 88.9%，并处理了普特南测验中的49道。Prover-V2为miniF2F数据集生成的证明可独自下载。

ProverBench：AIME和教科书问题的方式化

与Prover-V2一同推出ProverBench，这是一个包括325个问题的基准数据集。其间，有15个问题是从近期美国数学邀请赛（AIME 24和25）的数论与代数题目中方式化而来，供给了实在的高中比赛水平应战。其他310个问题则取自精心选择的教科书示例和教育教程，构成了一套多样化且依据教育需求的方式化数学问题调集。该基准旨在可以对高中比赛问题和本科阶段数学问题进行更全面的评价。

DeepSeek-Prover-V2系列在三个数据集上评测的最终总成绩如下：

DeepSeek全明星阵型

Prover-V2的作者共18人，一起一作Z.Z. Ren, 邵智宏、辛华剑都是参加过V3、R1以及Prover系列前作的主力成员。

作者名单中呈现了几位未参加前两代版别（Prover-V1、Prover-V1.5）的研讨者。

比方Shirong Ma，清华本硕。揭露材料显现，他于上一年结业后即参加DeepSeek，现为DeepSeek研讨员，此前参加了从DeepSeek LLM v1到R1以及DeepSeek-Coder等喜欢。

还有Zhe Fu、Yuxuan Liu。

尽管他们都没呈现在Prover-V1、Prover-V1.5的作者名单中，但均为DeepSeek资深成员。

在Prover-V1/V1.5同一期发布的《Fire-Flyer AI-HPC》研讨中可见其署名。

该研讨提出的Fire-Flyer AI-HPC架构，经过软硬件协同规划下降练习本钱，处理传统超算架构在AI练习需求上的缺乏。

不过这次Prover-V2的论文中并未提及在练习或推理根底设施详细有哪些优化战略。

最终还有一位新面孔Hongxuan Tang，暂未了解到详细信息。

Prover-V2发布后敏捷引发社区重视，GitHub库房12小时内即取得350+星标。

在X（原Twitter）、抱抱脸等渠道，网友们打开火热评论。

Prover-V2中心贡献者邵智宏在个人账号自动推介研讨效果。

X工程师@kache特别欣赏道：

感谢你们对敞开科学研讨的贡献。

普林斯顿大学助理教授Chi Jin表明：

恭喜这项惊人的喜欢！在miniF2F上霸占最终10%-20%的问题标志着才能上的严重腾跃。当时方式化数学范畴的竞赛态势可谓剧烈，难以置信Kimina仅坚持了两周SOTA就被DeepSeek逾越。

就连Kimina-Prover中心贡献者@Marco Dos Santos都来送上了恭喜：

恭喜DeepSeek AI团队将miniF2F使命的SOTA提高到了89%！

很快乐看到长思想链办法正在被其他团队独立探究且呈现出一些风趣的差异。方式数学现在比以往任何时候都更受欢迎！

别的，网友们最重视的问题仍然是：R2什么时候发布啊～

论文：https://github.com/deepseek-ai/DeepSeek-Prover-V2/blob/main/DeepSeek_Prover_V2.pdf模型：https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B

DeepSeek-Proverhttps://arxiv.org/abs/2405.14333DeepSeek-Prover-V1.5https://arxiv.org/abs/2408.08152

告发/反应

标签：模型新技能 DeepSeek 7B 671B

上一篇：直播吧接入Deepseek-R1满血版

下一篇：DeepSeek发布推理引擎开源途径，许诺将中心优化注入vLLM生态

网站分类

标签列表

最新留言

DeepSeek新数学模型刷爆记载！7B小模型发现671B模型不会的新技能

网站分类

标签列表

最新留言

DeepSeek新数学模型刷爆记载！7B小模型发现671B模型不会的新技能

4006666666