当前位置:首页 > Deepseek应用场景 > 正文内容

DeepSeek-Prover-V2:AI 数学推理新王者,88.9% 通过率设新标杆

3个月前 (05-01)Deepseek应用场景275

IT之家 5 月 1 日消息,深度求索(DeepSeek)昨日(4 月 30 日)在 AI 开源社区 Hugging Face 上,发布名为 DeepSeek-Prover-V2-671B 的新模型,随后在 GitHub 等平台上公布了论文信息。

IT之家援引论文介绍,DeepSeek-Prover-V2 是一款专注于形式化数学推理的开源大型语言模型,基于 DeepSeek-V3-0324,通过递归定理证明管道生成初始数据。

Deepseek 推出了 DeepSeek-Prover-V2-671B(结合 V3 基础大模型)、DeepSeek-Prover-V2-7B(增强模型)两个模型,以及 DeepSeek-ProverBench 数据集。

DeepSeek-Prover-V2-671B 采用和 DeepSeek V3-0324 相同的架构,并非用于常规对话或者推理,而是用于形式化定理证明、专门增强数学能力的模型。

DeepSeek 团队首先引导 DeepSeek-V3 模型将复杂定理分解为一系列子目标(subgoals),整合非形式与形式化数学推理,在 Lean 4 平台上形式化证明步骤。

接着,利用一个较小的 7B 参数模型处理子目标的证明搜索,减轻计算负担。最终,结合完整的逐步证明与 DeepSeek-V3 的思维链(chain-of-thought),形成强化学习的“冷启动”数据。

在训练中,团队筛选出一批 7B 模型无法直接解决但子目标已被证明的难题。通过整合子目标证明,形成完整的形式化证明,并与 DeepSeek-V3 的推理过程对接,生成合成数据。

随后,模型微调这些数据,并通过强化学习进一步提升能力,以二元反馈(正确或错误)作为奖励机制。最终,DeepSeek-Prover-V2-671B 在神经定理证明领域创下新高,在 MiniF2F-test 数据集上通过率达 88.9%,在 PutnamBench 数据集中解决 658 个问题中的 49 个。

团队还发布了 ProverBench 基准数据集,包含 325 个形式化数学问题。其中,15 个问题源自近期 AIME 竞赛(AIME 24 和 25),涉及数论与代数,代表高中竞赛难度。

其余 310 个问题则来自精选教材和教学内容,涵盖线性代数、微积分、概率等多个领域。这一数据集旨在为高中竞赛和本科数学提供全面评估标准,推动模型在多样化场景下的测试与应用。

相关阅读:

《DeepSeek-Prover-V2-671B 新模型开源发布》


“DeepSeek-Prover-V2:AI 数学推理新王者,88.9% 通过率设新标杆” 的相关文章

新版DeepSeek-V3官方报告出炉:超越GPT-4.5,仅靠改进后训练

新版DeepSeek-V3官方报告出炉:超越GPT-4.5,仅靠改进后训练

明敏 发自 凹非寺量子位 | 公众号 QbitAI刚刚,DeepSeek官方发布DeepSeek-V3模型更新技术报告。V3新版本在数学、代码类相关评测集成绩超过GPT-4.5!而且这只是通过改进后训...

科大讯飞:目前公司与DeepSeek无股权关系

科大讯飞:目前公司与DeepSeek无股权关系

新京报贝壳财经讯 2月15日,针对有消息称20家车企已引入DeepSeek,科大讯飞在互动平台表示,在智能汽车领域,科大讯飞将持续融合集成行业最新相关技术,通过与星火大模型融合协作,为用户提供更加智能...

联想AI智能、AI一体机快速接入,满血版DeepSeek成国产AI鲶鱼

联想AI智能、AI一体机快速接入,满血版DeepSeek成国产AI鲶鱼

近期,各类终端企业“紧跟热点”,纷纷高调宣布接入满血版DeepSeek,正式开启DeepSeek接入潮。其中,联想不仅率先推出了首个国产DeepSeek一体机解决方案,其个人智能体“小天”和联想百应智...

面对AI,哪些行业更有前景?当我们让DeepSeek来pk专家……

面对AI,哪些行业更有前景?当我们让DeepSeek来pk专家……

惊!浙大二院胸外科主任医师:DeepSeek给出的诊断和我们非常接近!多名科主任发声,56秒出诊断,专家都不如它,很怕被淘汰失业!当DeepSeek火爆全球,当“AI+”辅助实现的工作场景越来越普遍,...

DeepSeek助攻年轻人的口腔护理,一刷一含一漱健康从“齿”开始

DeepSeek助攻年轻人的口腔护理,一刷一含一漱健康从“齿”开始

你是不是也有这样的困扰:早上刷牙时牙龈出血,喝冰咖啡时牙齿敏感,吃完火锅后口腔异味挥之不去……别急,这些问题,DeepSeek用大数据告诉你:90%的年轻人都中招了!但好消息是,解决这些问题其实很简单...

借力DeepSeek 银行业智能化变革提速

借力DeepSeek 银行业智能化变革提速

记者日前从工商银行了解到,该行在同业率先完成DeepSeek最新开源大模型的私有化部署,并将其接入行内“工银智涌”大模型矩阵体系,推动金融业务场景的智能化升级。据介绍,工商银行以“企业级AI普惠赋能+...