哇塞!DeepSeek全新开源大模型,数学能力大幅提升啦!

猛丁哥 2025-05-01 整形 4 次浏览 0个评论

DeepSeek发布全新数学专用大模型V2

前天晚上,DeepSeek发布了最新的数学专用大模型V2。它有671亿参数和7亿参数两个版本。在极具挑战性的数学评测MiniF2F中,671B版本的通过率高达88.9%。此外,在PutnamBench包含的658道题目里,该模型成功解决了49道,展现出超强的数学推理和解题能力。

V2模型的架构与推理框架

V2-671B是在DeepSeek-V3-Base模型基础上进一步训练得到的,V2-7B则基于DeepSeek-Prover-V1.5-Base构建,还扩展了上下文长度,最大支持32K标记。V2搭建了统一的数学推理框架,把非形式化推理与形式化证明相结合。它通过拆解复杂数学问题为子目标,利用V3的逐步推理能力,实现了从问题拆解到证明生成的无缝连接。

V2模型的数据生成与强化学习阶段

在冷启动数据生成阶段,V2采用递归的定理证明流程。先让V3拆分定理成证明草图并形式化,7B模型专注子目标证明搜索,减轻计算压力。完成拆分后,结合DeepSeek-V3的链式思考技术生成推理数据。基于这些数据,V2进入强化学习阶段,挑选7B模型无法端到端解决但子目标已证明的问题,整合子目标证明构建原始问题证明,融合进V3的链式思考流程。

ProverBench测试集评估模型表现

在强化学习阶段,模型依靠二元正误反馈提升能力。为评估模型,DeepSeek推出ProverBench测试集。该数据集涵盖325道问题,15道取自近期AIME竞赛的数论和代数题,体现高中竞赛难度。其余310道题目来源于教科书案例和教学资料,涵盖多个数学领域,为评估提供广泛多样测试内容。

转载请注明来自传媒资讯网,本文标题:《哇塞!DeepSeek全新开源大模型,数学能力大幅提升啦!》

每一天,每一秒,你所做的决定都会改变你的人生!
评论列表 (暂无评论,3人围观)参与讨论

还没有评论,来说两句吧...