DeepSeek新模型大揭秘：为何它能震动全球AI圈

2025年1月27日 20:41

作者：郝博阳；来源：腾讯科技

本文关注DeepSeek-R1在技术上最重要的突破——用纯深度学习的方法让AI自发涌现出推理能力。这一研究可能会对模型推理训练后续的范式产生深刻影响。

时隔不到一个月，DeepSeek又一次震动全球AI圈。

去年12月，DeepSeek推出的DeepSeek-V3在全球AI领域掀起了巨大的波澜，它以极低的训练成本，实现了与GPT-4o和ClaudeSonnet3.5等顶尖模型相媲美的性能，震惊了业界。

腾讯科技曾对此模型进行深度解读，用最简单直白的语言阐释其实现低成本和高效能的技术背景（点击可查看）。

和上次不同的是，这次推出的新模型DeepSeek-R1不仅成本低，更是在技术上有了大福提升。

而且，它还是一个开源模型。

这款新模型延续了其高性价比的优势，仅用十分之一的成本就达到了GPT-o1级别的表现。

所以，很多业内人士甚至喊出了“DeepSeek接班OpenAI”的口号。

比如，前MetaAI工作人员、知名AI论文推特作者Elvis就强调，DeepSeek-R1的论文堪称瑰宝，因为它探索了提升大语言模型推理能力的多种方法，并发现了其中更明确的涌现特性。

JimFan甚至认为，它们做了OpenAI本来应该做的事，开源。

传统的模型训练路径

但DeepSeek-R1-Zero选择了一条前所未有的路径“纯”强化学习路径，它完全抛开了预设的思维链模板（ChainofThought）和监督式微调（SFT），仅依靠简单的奖惩信号来优化模型行为。

这就像让一个天才儿童在没有任何范例和指导的情况下，纯粹通过不断尝试和获得反馈来学习解题。

DeepSeek-R1-Zero有的只是一套最简单的奖励系统，来激发AI的推理能力。

这个规则就两条：

1. 准确性奖励：准确性奖励模型评估响应是否正确。对了就加分，错了扣分。评价方法也很简单：例如，在具有确定性结果的数学问题中，模型需要以指定格式（如和间）提供最终答案；对于编程问题，可以使用编译器根据预定义的测试用例生成反馈。

2. 格式奖励：格式奖励模型强制要求模型将其思考过程置于和标签之间。没这么做就扣分，做了就加分。

为了准确观察模型在强化学习（RL）过程中的自然进展，DeepSeek甚至有意将系统提示词仅约束限制在这种结构格式上，来避免任何内容特定的偏见——例如强制让模型进行反思性推理或推广特定的问题解决策略。

这种顿悟往往是模型思维能力跃升的时刻。

因为根据DeepSeek的研究，模型的进步并非均匀渐进的。在强化学习过程中，响应长度会出现突然的显著增长，这些"跳跃点"往往伴随着解题策略的质变。这种模式酷似人类在长期思考后的突然顿悟，暗示着某种深层的认知突破。

最有说服力的或许是模型展现出的迁移学习能力。在完全不同的编程竞赛平台Codeforces上，R1-Zero达到了超过96.3%人类选手的水平。这种跨域表现表明，模型不是在死记硬背特定领域的解题技巧，而是掌握了某种普适的推理能力。一个聪明，但口齿不清的天才

尽管R1-Zero展现出了惊人的推理能力，但研究者们很快发现了一个严重的问题：它的思维过程往往难以被人类理解。

论文坦诚地指出，这个纯强化学习训练出来的模型存在"poorreadability"（可读性差）和"languagemixing"（语言混杂）的问题。

这个现象其实很好理解：R1-Zero完全通过奖惩信号来优化其行为，没有任何人类示范的"标准答案"作为参考。就像一个天才儿童自创了一套解题方法，虽然屡试不爽，但向别人解释时却语无伦次。它在解题过程中可能同时使用多种语言，或者发展出了某种特殊的表达方式，这些都让其推理过程难以被追踪和理解。

正是为了解决这个问题，研究团队开发了改进版本DeepSeek-R1。通过引入更传统的"cold-startdata"（冷启动数据）和多阶段训练流程，R1不仅保持了强大的推理能力，还学会了用人类易懂的方式表达思维过程。这就像给那个天才儿童配了一个沟通教练，教会他如何清晰地表达自己的想法。

在这一调教下之后，DeepSeek-R1展现出了与OpenAIo1相当甚至在某些方面更优的性能。在MATH基准测试上，R1达到了77.5%的准确率，与o1的77.3%相近；在更具挑战性的AIME2024上，R1的准确率达到71.3%，超过了o1的71.0%。在代码领域，R1在Codeforces评测中达到了2441分的水平，高于96.3%的人类参与者。

然而，DeepSeek-R1Zero的潜力似乎更大。它在AIME2024测试中使用多数投票机制时达到的86.7%准确率——这个成绩甚至超过了OpenAI的o1-0912。这种"多次尝试会变得更准确"的特征，暗示R1-Zero可能掌握了某种基础的推理框架，而不是简单地记忆解题模式。

论文数据显示，从MATH-500到AIME，再到GSM8K，模型表现出稳定的跨域性能，特别是在需要创造性思维的复杂问题上。这种广谱性能提示R1-Zero可能确实培养出了某种基础的推理能力，这与传统的特定任务优化模型形成鲜明对比。

所以，虽然口齿不清，但也许DeepSeek-R1-Zero才是真正理解了推理的“天才”。纯粹强化学习，也许才是通向AGI的意外捷径

之所以DeepSeek-R1的发布让圈内人的焦点都投向了纯强化学习方法，因为它完全可以说得上是打开了AI进化的一条新路径。

R1-Zero——这个完全通过强化学习训练出来的AI模型，展现出了令人惊讶的通用推理能力。它不仅在数学竞赛中取得了惊人成绩。

更重要的是，R1-Zero不仅是在模仿思考，而是真正发展出了某种形式的推理能力。

因为在过往的训练方法中，尤其在监督微调中使用训练好的神经网络来评估质量的话，模型可能学会触发奖励模型的特定模式，生成对奖励模型"口味"的内容，而不是真正提升推理能力。换句话说，AI系统找到了获得高奖励但实际上违背训练目标的投机取巧方式。这就是我们常说的奖励欺骗（rewardhacking）。但R1-Zero用极简的奖励规则基本避免了奖励欺骗的可能性——规则太简单了，没有什么“口味”可以去模仿。模型在这个情况下发展出的推理能力更可信，也更自然。

这个发现可能会改变我们对机器学习的认识：传统的AI训练方法可能一直在重复一个根本性的错误，我们太专注于让AI模仿人类的思维方式了，业界需要重新思考监督学习在AI发展中的角色。通过纯粹的强化学习，AI系统似乎能够发展出更原生的问题解决能力，而不是被限制在预设的解决方案框架内。

虽然R1-Zero在输出可读性上存在明显缺陷，但这个"缺陷"本身可能恰恰印证了其思维方式的独特性。就像一个天才儿童发明了自己的解题方法，却难以用常规语言解释一样。这提示我们：真正的通用人工智能可能需要完全不同于人类的认知方式。

这才是真正的强化学习。就像著名教育家皮亚杰的理论：真正的理解来自于主动建构，而不是被动接受。