DeepSeek-R1:通过强化学习激励大型语言模型的推理能力-01
摘要
我们介绍了我们的第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,没有使用监督微调(SFT)作为预训练步骤。通过 RL,DeepSeek-R1-Zero 自然地涌现出许多强大而有趣的推理行为。然而,它也面临着可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能,我们引入了 DeepSeek-R1,它结合了多阶段训练和 RL 之前的冷启动数据。DeepSeek-R1 在推理任务上的性能与 OpenAI-o1-1217 相当。为了支持研究社区,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 的 DeepSeek-R1 精炼的六个密集模型(1.5B、7B、8B、14B、32B、70B)。
1. 引言
近年来,大型语言模型(LLM)经历了快速迭代和进化(Anthropic, 2024; Google, 2024; OpenAI, 2024a),逐渐缩小了与通用人工智能(AGI)之间的差距。
最近,后训练已成为完整训练流程的重要组成部分。研究表明,后训练可以提高推理任务的准确性,与社会价值观保持一致,并适应用户偏好,同时相对于预训练而言,所需的计算资源相对较少。在推理能力的背景下,OpenAI 的 o1 系列模型(OpenAI, 2024b)首次引入了推理时扩展,通过增加思维链推理过程的长度。这种方法在各种推理任务中取得了显著改进,例如数学、编程和科学推理。然而,有效推理时扩展的挑战仍然是研究界的一个悬而未决的问题。一些先前的工作已经探索了各种方法,包括基于过程的奖励模型(Lightman et al., 2023; Uesato et al., 2022; Wang et al., 2023)、强化学习(Kumar et al., 2024)以及搜索算法,如蒙特卡洛树搜索和束搜索(Feng et al., 2024; Trinh et al., 2024; Xin et al., 2024)。然而,这些方法都没有在推理任务上实现与 OpenAI 的 o1 系列模型相当的一般推理性能。
在本文中,我们迈出了使用纯强化学习(RL)提高语言模型推理能力的第一步。我们的目标是探索 LLM 在没有任何监督数据的情况下发展推理能力的潜力,重点关注它们通过纯 RL 流程的自我进化。具体来说,我们使用 DeepSeek-V3-Base 作为基础模型,并采用 GRPO(Shao et al., 2024)作为 RL 框架来提高模型在推理方面的性能。在训练过程中,DeepSeek-R1-Zero 自然地涌现出许多强大而有趣的推理行为。经过数千次 RL 步骤后,DeepSeek-R1-Zero 在推理基准测试中表现出色。例如,AIME 2024 的 pass@1 分数从 15.6% 提高到 71.0%,并且通过多数投票,分数进一步提高到 86.7%,与 OpenAI-o1-0912 的性能相当。
然而,DeepSeek-R1-Zero 面临着诸如可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能,我们引入了 DeepSeek-R1,它结合了少量冷启动数据和多阶段训练流程。具体来说,我们首先收集了数千个冷启动数据来微调 DeepSeek-V3-Base 模型。随后,我们执行类似于 DeepSeek-R1-Zero 的推理导向 RL。在 RL 过程接近收敛时,我们在 RL 检查点上通过拒绝采样创建新的 SFT 数据,并结合来自 DeepSeek-V3 的写作、事实问答和自我认知等领域的监督数据,然后重新训练 DeepSeek-V3-Base 模型。在用新数据微调后,该检查点会经历另一个 RL 过程,考虑所有场景的提示。在这些步骤之后,我们得到了一个称为 DeepSeek-R1 的检查点,其性能与 OpenAI-o1-1217 相当。
我们还进一步探索了从 DeepSeek-R1 到小型密集模型的蒸馏。使用 Qwen2.5-32B (Qwen, 2024b) 作为基础模型,直接从 DeepSeek-R1 进行蒸馏的性能优于在其上进行 RL。这表明大型基础模型的推理模式对于提高推理能力至关重要。我们开源了精炼的 Qwen 和 Llama (Dubey et al., 2024) 系列,值得注意的是,我们的精炼 14B 模型在推理基准测试中大幅领先于最先进的开源 QwQ-32B-Preview (Qwen, 2024a),而精炼的 32B 和 70B 模型在密集模型中创下了新的记录。
1.1. 贡献
后训练:在基础模型上进行大规模强化学习
* 我们直接在基础模型上应用强化学习(RL),而没有依赖监督微调(SFT)作为预训练步骤。这种方法允许模型探索思维链(CoT)来解决复杂问题,从而发展出 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展示了自我验证、反思和生成长 CoT 等能力,这标志着研究界的一个重大里程碑。值得注意的是,这是第一个公开研究证实 LLM 的推理能力可以通过纯 RL 激励,而无需 SFT。这一突破为该领域的未来发展铺平了道路。
* 我们介绍了开发 DeepSeek-R1 的流程。该流程包括两个 RL 阶段,旨在发现更好的推理模式并符合人类偏好,以及两个 SFT 阶段,作为模型推理和非推理能力的种子。我们相信该流程将有助于创建更好的模型,从而惠及行业。
蒸馏:小型模型也能很强大
* 我们表明,大型模型的推理模式可以蒸馏到小型模型中,与小型模型上发现的通过 RL 获得的推理模式相比,其性能更好。开源的 DeepSeek-R1 及其 API 将有助于研究社区在未来蒸馏出更好的小型模型。
* 使用 DeepSeek-R1 生成的推理数据,我们微调了几个研究社区广泛使用的密集模型。评估结果表明,精炼的小型密集模型在基准测试中表现出色。DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上达到 55.5%,超过了 QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上获得 72.6%,在 MATH-500 上获得 94.3%,在 LiveCodeBench 上获得 57.2%。这些结果显著优于以前的开源模型,并且与 o1-mini 相当。我们向社区开源了基于 Qwen2.5 和 Llama3 系列的精炼 1.5B、7B、8B、14B、32B 和 70B 检查点。
1.2. 评估结果总结
* 推理任务: (1) DeepSeek-R1 在 AIME 2024 上达到 79.8% 的 Pass@1 分数,略高于 OpenAI-o1-1217。在 MATH-500 上,它达到了令人印象深刻的 97.3% 分数,与 OpenAI-o1-1217 相当,并且显著优于其他模型。(2) 在与代码相关的任务中,DeepSeek-R1 在代码竞赛任务中表现出专家级别,在 Codeforces 上达到 2,029 的 Elo 评分,超过了 96.3% 的参赛人类选手。对于工程相关的任务,DeepSeek-R1 的表现略好于 DeepSeek-V3,这可以帮助开发者在实际任务中。
* 知识: 在 MMLU、MMLU-Pro 和 GPQA Diamond 等基准测试中,DeepSeek-R1 取得了优异的成绩,在 MMLU 上达到 90.8%,在 MMLU-Pro 上达到 84.0%,在 GPQA Diamond 上达到 71.5%,显著优于 DeepSeek-V3。尽管它在这些基准测试上的性能略低于 OpenAI-o1-1217,但 DeepSeek-R1 仍然超过了其他闭源模型,表明它在教育任务中的竞争优势。在事实基准测试 SimpleQA 上,DeepSeek-R1 优于 DeepSeek-V3,表明它在处理基于事实的查询方面的能力。在 OpenAI-o1 超越 4o 的基准测试中观察到类似趋势。
* 其他: DeepSeek-R1 在各种任务中表现出色,包括创意写作、通用问答、编辑、摘要等。它在 AlpacaEval 2.0 上实现了令人印象深刻的长度控制胜率 87.6%,在 ArenaHard 上实现了胜率 92.3%,展示了其智能处理非考试导向查询的强大能力。此外,DeepSeek-R1 在需要长上下文理解的任务中表现出色,在长上下文基准测试中大幅优于 DeepSeek-V3。