当前位置:首页 > Deepseek应用场景 > 正文内容

DeepSeek-Prover-V2:AI 数学推理新王者,88.9% 通过率设新标杆

6个月前 (05-01)Deepseek应用场景479

IT之家 5 月 1 日消息,深度求索(DeepSeek)昨日(4 月 30 日)在 AI 开源社区 Hugging Face 上,发布名为 DeepSeek-Prover-V2-671B 的新模型,随后在 GitHub 等平台上公布了论文信息。

IT之家援引论文介绍,DeepSeek-Prover-V2 是一款专注于形式化数学推理的开源大型语言模型,基于 DeepSeek-V3-0324,通过递归定理证明管道生成初始数据。

Deepseek 推出了 DeepSeek-Prover-V2-671B(结合 V3 基础大模型)、DeepSeek-Prover-V2-7B(增强模型)两个模型,以及 DeepSeek-ProverBench 数据集。

DeepSeek-Prover-V2-671B 采用和 DeepSeek V3-0324 相同的架构,并非用于常规对话或者推理,而是用于形式化定理证明、专门增强数学能力的模型。

DeepSeek 团队首先引导 DeepSeek-V3 模型将复杂定理分解为一系列子目标(subgoals),整合非形式与形式化数学推理,在 Lean 4 平台上形式化证明步骤。

接着,利用一个较小的 7B 参数模型处理子目标的证明搜索,减轻计算负担。最终,结合完整的逐步证明与 DeepSeek-V3 的思维链(chain-of-thought),形成强化学习的“冷启动”数据。

在训练中,团队筛选出一批 7B 模型无法直接解决但子目标已被证明的难题。通过整合子目标证明,形成完整的形式化证明,并与 DeepSeek-V3 的推理过程对接,生成合成数据。

随后,模型微调这些数据,并通过强化学习进一步提升能力,以二元反馈(正确或错误)作为奖励机制。最终,DeepSeek-Prover-V2-671B 在神经定理证明领域创下新高,在 MiniF2F-test 数据集上通过率达 88.9%,在 PutnamBench 数据集中解决 658 个问题中的 49 个。

团队还发布了 ProverBench 基准数据集,包含 325 个形式化数学问题。其中,15 个问题源自近期 AIME 竞赛(AIME 24 和 25),涉及数论与代数,代表高中竞赛难度。

其余 310 个问题则来自精选教材和教学内容,涵盖线性代数、微积分、概率等多个领域。这一数据集旨在为高中竞赛和本科数学提供全面评估标准,推动模型在多样化场景下的测试与应用。

相关阅读:

《DeepSeek-Prover-V2-671B 新模型开源发布》


“DeepSeek-Prover-V2:AI 数学推理新王者,88.9% 通过率设新标杆” 的相关文章

DeepSeek发布免费网页版服务-DeepSeek发布官方渠道说明:官方网页端与App内不含广告和付费项目

DeepSeek发布免费网页版服务-DeepSeek发布官方渠道说明:官方网页端与App内不含广告和付费项目

自 DeepSeek-R1 模型 1 月 20 日发布至今,已经过去了半个多月的时间。海内外全网都见证了其强大的力量。据悉,官方提供免费的网页版服务,并且其API价格远低于OpenAI o1。这引起了...

中创股份:公司已完成DeepSeek、通义千问等私有化大模型的部署工作

中创股份:公司已完成DeepSeek、通义千问等私有化大模型的部署工作

金融研究中心05月27日讯,有投资者向中创股份提问, 董秘您好!请问公司如何利用与华为等企业的深度合作关系,进一步提升公司中间件对AI应用场景的支撑能力,推动AI产业发展?  公司回答表示,尊敬的投资...

荣耀手表 Fit 部分规格公布,搭载 DeepSeek 语音对话

荣耀手表 Fit 部分规格公布,搭载 DeepSeek 语音对话

IT之家 5 月 24 日消息,荣耀手表 Fit 将于 5 月 28 日全球首发,官方现已公布这款新品的部分规格、卖点。IT之家整理如下:健康能量评估,萌宠来报。身体状态,一目了然。率先搭载 Deep...

和而泰:智能化业务板块已接入DeepSeek大模型并完成本地化部署和测试

和而泰:智能化业务板块已接入DeepSeek大模型并完成本地化部署和测试

金融界4月2日消息,有投资者在互动平台向和而泰提问:请问贵公司多个行业数智化模型(方案)已全面接入DeepSeek并进行了本地化部署,同时已启动应用于多个行业头部客户业务场景的相关合作项目。这些行业数...

概念动态|恒润股份新增“DeepSeek概念”

概念动态|恒润股份新增“DeepSeek概念”

2025年4月2日,恒润股份(603985)新增“DeepSeek概念”。据同花顺数据显示,入选理由是:2025年3月18日闰六尺微信公众号发布,公司自主研发的DeepSeek大模型一体机:"...

DeepSeek如何助力医疗服务智能化?

DeepSeek如何助力医疗服务智能化?

DeepSeek通过其先进的人工智能技术,为医疗服务智能化提供了有力支持。以下是DeepSeek助力医疗服务智能化的具体方式:一、提升医疗效率快速文献检索:DeepSeek能够快速检索最新的医学文献和...