DeepSeek-R1 是杭州深度求索人推出的首代推理模型系列,包括 DeepSeek-R1-Zero 和 DeepSeek-R1 两个版本。DeepSeek-R1-Zero 通过大规模强化学习(RL)训练,无需监督微调(SFT)作为预训练步骤,展现出卓越的推理能力,并自然生成许多强大而有趣的推理行为。

DeepSeek-R1 的推理性能已可媲美 OpenAI-o1,尤其在数学、代码和推理任务上表现优异。其中,DeepSeek-R1-Distill-Qwen-32B 在多个基准测试中超越了 OpenAI-o1-mini,创下稠密模型的全新性能标杆。

DeepSeek-R1相对于ChatGPT OpenAI-o1拥有以下优势:

1、生成速度更快。

2、开源可商用,训练成本更低。

3、更强的编程、数学能力。

4、部署成本也更低,已有大神实现在移动端运行。

以下是其开源首页发布的测试对比:

benchmark