
新闻动态
深度求索(DeepSeek)昨日(4月30日)在AI开源社区HuggingFace上,发布名为DeepSeek-Prover-V2-671B的新模型,随后在GitHub等平台上公布了论文信息。
IT之家援引论文介绍,DeepSeek-Prover-V2是一款专注于形式化数学推理的开源大型语言模型,基于DeepSeek-V3-0324,通过递归定理证明管道生成初始数据。
Deepseek推出了DeepSeek-Prover-V2-671B(结合V3基础大模型)、DeepSeek-Prover-V2-7B(增强模型)两个模型,以及DeepSeek-ProverBench数据集。
DeepSeek-Prover-V2-671B采用和DeepSeekV3-0324相同的架构,并非用于常规对话或者推理,而是用于形式化定理证明、专门增强数学能力的模型。
DeepSeek团队首先引导DeepSeek-V3模型将复杂定理分解为一系列子目标(subgoals),整合非形式与形式化数学推理,在Lean4平台上形式化证明步骤。
接着,利用一个较小的7B参数模型处理子目标的证明搜索,减轻计算负担。最终,结合完整的逐步证明与DeepSeek-V3的思维链(chain-of-thought),形成强化学习的“冷启动”数据。
在训练中,团队筛选出一批7B模型无法直接解决但子目标已被证明的难题。通过整合子目标证明,形成完整的形式化证明,并与DeepSeek-V3的推理过程对接,生成合成数据。
随后,模型微调这些数据,并通过强化学习进一步提升能力,以二元反馈(正确或错误)作为奖励机制。最终,DeepSeek-Prover-V2-671B在神经定理证明领域创下新高,在MiniF2F-test数据集上通过率达88.9%,在PutnamBench数据集中解决658个问题中的49个。
团队还发布了ProverBench基准数据集,包含325个形式化数学问题。其中,15个问题源自近期AIME竞赛(AIME24和25),涉及数论与代数,代表高中竞赛难度。
其余310个问题则来自精选教材和教学内容,涵盖线性代数、微积分、概率等多个领域。这一数据集旨在为高中竞赛和本科数学提供全面评估标准,推动模型在多样化场景下的测试与应用。
本文源自:IT之家
Powered by 168运友物流平台下载 @2013-2022 RSS地图 HTML地图