9月17日,由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上了国际权威期刊《自然(Nature)》的封面。
DeepSeek-R1论文首次公开了仅靠强化学习,就能激发大模型推理能力的重要研究成果,启发全球AI研究者;这一模型还成为全球最受欢迎的开源推理模型,Hugging Face下载量超1090万次。对此,接受专访的清华大学新闻学院、人工智能学院双聘教授沈阳向南方+记者分析指出,此番R1获得《自然》的认证,算得上是大模型研究领域的一次“制度破局”。
《自然》在社论中高度评价道:几乎所有主流的大模型都还没有经过独立同行评审,这一空白“终于被DeepSeek打破”。
《自然》认为,在AI行业中,未经证实的说法和炒作已经“司空见惯”,而DeepSeek所做的一切,都是“迈向透明度和可重复性的可喜一步”。DeepSeek-R1论文的研究出发点,是当时困扰AI业内的一个重大问题。众所周知,推理能提升大语言模型的能力,但让模型在后训练阶段通过数据学习思维链轨迹,严重依赖人工标注,限制了可扩展性。DeepSeek尝试通过强化学习,让模型自我演化发展出推理能力。在DeepSeek-V3 Base的基础上,DeepSeek使用GRPO作为强化学习框架,仅使用最终预测结果与真实答案的正确性作为奖励信号,未对推理过程施加限制,最终构建出DeepSeek-R1-Zero。
DeepSeek在DeepSeek-R1-Zero的基础上,采用多阶段训练结合RL、拒绝采样和监督微调,开发出DeepSeek-R1,使模型既具备强推理能力,又能更好贴合人类偏好。
在《自然》社论中,详细地分析了DeepSeek-R1经历完整同行评审流程,并登上期刊的价值:大模型正在迅速改变人类获取知识的方式,然而目前最主流的大模型都没有在研究期刊中经历过独立的同行评审,这是一个严重的空白。DeepSeek改变了这一现状。
DeepSeek在今年2月14日将DeepSeek-R1论文提交至《自然》,而直到7月17日才被接收,9月17日正式发布。在这一过程中,有8位外部专家参与了同行评审,对这项工作进行了评估。在最终发布的版本中,审稿报告与作者回复都被一并披露。
清华大学沈阳教授向南方+记者指出,此次《自然》的文章从两个层面值得解读:
第一层是学术史与产业史的交叉点。过去几年,大模型的叙事几乎全是由公司新闻稿、博客、技术报告和参数吹风构成。同行评审(peer review)在AI这条赛道上长期被“嫌弃”——因为它太慢,不利于抢占叙事制高点。
但也正因为缺席,导致模型的科学性、可重复性、验证标准几乎完全依赖厂商自说自话。DeepSeek-R1被《自然》认可,等于是重新把AI模型拉回了“科学共同体的规训”,给了它一个能和物理学、医学、材料学并列的学术地位。这不仅仅是面子问题,而是告诉全世界:AI不是只有炒作、Demo、投资路演,它也能在最严格的科学制度下存活。
第二层是透明度的范式转折。同行评审的价值,不在于证明“DeepSeek一定是最强”,而在于建立一个验证习惯。同行评审意味着数据集、训练细节、指标选择、对比实验都必须暴露在独立专家的刀刃下。这一动作直接打破了AI行业里“黑箱”+“宣传战”的常态。
“《自然》社论里点到的finally其实是个狠词。”沈阳告诉记者,这是评审组暗示此前不少旗舰模型都没过这道门槛。DeepSeek的文章并非技术上的碾压,而是率先在制度层面为大模型建立了“可验证的声誉资本”。
至于AI研究领域,沈阳分析可能直接引发系列连锁反应:首先是AI学术化加速,未来顶级AI论文和模型报告,可能不得不更多遵循学术审稿流程;其次是同行评审提供了监管参照的一个模板,让政府、国际组织在评估AI风险时有了第三方可依赖的证据链;但同样也有可能未来将出现行业分化,AI大厂或许保持“闭源+商业化”,但一旦公众和投资人越来越看重“经过同行评审的科学背书”,学术信誉本身就可能变成市场竞争力。
在沈阳看来,DeepSeek-R1不是单纯的一篇论文,而是一次“制度破局”:“它把AI拉回了科学与学术的传统语境,让整个行业的透明度和可信度被迫提升。就像电学在19世纪必须经历从实验室奇观到物理学标准的洗礼,AI也正在经历类似的转折。”
这种转折最有意思的地方在于,DeepSeek这步棋未必让它马上技术称霸,但让它“话语合法性”先行。未来几十年,历史书可能会写一句:2025年,大规模使用的AI大模型性能改进迭代第一次真正进入了“同行评审的科学秩序”。
南方+记者 徐勉 王诗堃