萬字長文詳解 DeepSeek 核心技術

在今年的春節期間，DeepSeek 火出了圈。憑藉 DeepSeek-V3 與 DeepSeek-R1 的創新技術和卓越表現，DeepSeek 迅速成爲了行業內外的焦點。不管是技術專家還是普通用戶，都對 DeepSeek 讚不絕口。我們特別準備了這篇技術科普文章，期望無論你是不是技術同學，都能夠讀懂 DeepSeek。

01 DeepSeek 系列模型的技術創新

表 1. DeepSeek 關鍵技術一覽

y7Ievs

1.1 DeepSeek MoE 架構

圖 1. DeepSeek MoE 框架示意圖 @[Deepseekmoe]

圖 1 展示了 DeepSeek 從傳統 MoE 模型架構（a）的基礎上，做的兩部分改進（b）與（c）：

(a）傳統 MoE 模塊: MoE 模塊包含 $N$ 個前饋神經網絡（Feed-Forward Network, FFN）專家，每個專家在處理特定類型的數據上具有獨特的優勢。MoE 模塊通過路由機制，根據輸入數據的特徵動態選擇最合適的 $K$ 個專家進行處理，而不是激活所有專家。所有專家的參數總和構成了整個 MoE 模塊的參數量，在前向計算過程中，由於只激活了部分專家，實際參與計算的參數量被稱爲激活參數量。例如，Mixtral 8*7B 模型包含 8 個專家，每次選擇其中的 2 個專家進行計算，模型的總參數量爲 46.7B，而激活參數量爲 12.9B。
(b）細粒度專家劃分: 不同於傳統 MoE ，DeepSeek 把 $N$ 個專家做更細粒度的劃分，降低每一個專家的參數量，增大專家數量。如圖 (b)，將 $N$ 個專家拆分爲 $mN$ 個，每一個專家的隱層維度變爲原來的 $1/m$，相應地激活 $mK$ 個專家。如此 MoE 模塊的參數量以及激活參數量均保持不變，同時還可以更加靈活地組合多個專家。
(c）共享專家分離: 把激活專家區分爲共享專家（Shared Experts）和路由專家（Routed Experts）時，如圖 (c) 所示，共享專家和路由專家在數據處理流程上有顯著的區別。對於共享專家，輸入數據無需經過路由模塊的計算，所有數據都會直接通過共享專家進行處理。相反，對於路由專家，輸入數據會先經過路由模塊，該模塊根據輸入數據的特徵選擇最合適的專家進行計算。在這種架構中，路由模塊通過計算輸入數據與各個專家的匹配概率，選擇概率最高的專家進行處理。最終，將路由專家和共享專家的計算結果相加，形成 MoE 模塊的最終輸出。通過這種方式，模型能夠在處理不同輸入數據時，既能捕捉到輸入數據的共性，也能關注到輸入數據的差異性。這種設計能夠提高模型的泛化能力和適應性。

更進一步地，DeepSeek-V3 針對 MoE 中常見的負載不均衡問題，提出了一種新的負載均衡策略。在用於選擇專家的 Gate 模塊中引入了一個可學習的偏置項。在計算路由得分時，這個偏置項會被動態地加到每個路由專家的得分上。該方式的主要特點在於:

動態調整路由傾向: 通過學習偏置項，模型可以動態地調整對不同路由專家的偏好。如果某個專家的負載過重，其對應的偏置項可能會被學習爲負值，從而降低其被選擇的概率。反之，對於負載較輕的專家，其偏置項可能會被學習爲正值，提高其被選擇的概率。
無額外損耗: 該偏置項是直接通過模型的訓練目標進行優化的，而不是通過一個獨立的負載均衡損失函數。這意味着，模型在努力提高主要任務性能的同時，也會自然而然地學習到一種更均衡的路由策略，而不會因爲額外的負載均衡損失而影響性能。

DeepSeek 通過這些 Moe 架構上的創新，直接促進了 V3 模型的整體效果提升。

下表是部分開源 MoE 模型的對比情況：

表 2. 部分開源模型 MoE 模塊配置對比

nO1ZH0

表 3. DeepSeek V3 架構核心參數

N0xZMO

1.2 羣體相對策略優化（Group Relative Policy Optimization，GRPO）

大模型訓練大體可以分爲 3 種模式，預訓練（Pretraining），有監督精調（Supervised Fine-Tuning, SFT），基於人類反饋的強化學習（Reinforcement Learning from Human Feedback, RLHF）。其中，SFT 讓模型通過學習訓練數據數據分佈的方式來提高模型在特定任務或指令上的表現，與其不同的是，RLHF 使用人類反饋來定義獎勵函數，然後通過強化學習算法優化模型。讓模型能生成符合人類喜好的回覆。

主流的 RLHF 算法有 PPO（Proximal Policy Optimization）、DPO（Direct Preference Optimization）以及本節介紹的 GRPO 等。強化學習的基礎理論具有較高的綜合性以及深度，想要深入閱讀的同學可以參考相關資料。

在介紹 GRPO 之前，需要先了解 PPO 算法，因爲 GRPO 可以算作是 PPO 的計算效率優化版本，在保持效果的同時，降低計算資源消耗。在強化學習領域，PPO 算法被廣泛認爲是強化學習中的基準算法之一。PPO 採用了 Actor-Critic 架構，這一架構可以形象地理解爲：有一個演員（actor）在舞臺上表演，而一個評論家（critic）在臺下觀看。演員的目標是通過不斷調整自己的表演行爲來獲得觀衆的認可，並從觀衆那裏獲得及時反饋。而評論家的任務則是評估演員的表演，並提供全面的建議。

在自然語言處理（NLP）生成模型的場景中，被訓練的模型相當於演員，其表演即爲生成的回覆。相應地，會有評論家和觀衆模型來評價回覆的質量。具體來說，PPO 使用了四個模型：

Policy 模型（又稱 Actor）： 輸入一段上文，輸出下一個 token 的概率分佈。該模型需要訓練，是我們最終得到的模型。輸出下一個 token 即爲 Policy 模型的 “行爲”。
Value 模型（又稱 Critic）： 用於預估當前模型回覆的總收益。該總收益不僅侷限於當前 token 的質量，還需要衡量當前 token 對後續文本生成的影響。該模型需要訓練。
Reward 模型： 事先用偏好數據進行訓練，用於對 Policy 模型的預測進行打分，評估模型對於當前輸出的即時收益。
Reference 模型： 與 Policy 模型相同，但在訓練過程中不進行優化更新，用於維持模型在訓練中的表現，防止在更新過程中出現過大偏差。

爲了更直觀地理解 Value 模型的總收益和 Reward 模型的即時收益，可以用 “磨刀不誤砍柴工” 來舉例說明。假設現在有一把鈍刀，一分鐘可以劈一根柴火；如果把刀磨鋒利了，一分鐘就可以劈兩根柴火。現在你可以選擇直接用鈍刀劈柴，或者先把刀磨鋒利。前者的當前收益比後者高，但未來的收益會低。也就是說，Value 模型會對後者 “磨刀” 這一行爲更爲推崇，而 Reward 模型會給前者 “直接砍柴” 一個更高的分數。

PPO 在大模型的 RLHF 階段被成功應用，不斷提升模型回覆表現的上限。然而，PPO 在計算成本和訓練穩定性方面仍然存在一定的挑戰。GRPO 算法對此進行了優化，其核心目標是去除 Value 模型，以此來減少訓練的計算資源。

圖 2. PPO vs. GRPO @[Deepseekmath]

圖 2 展示了 GRPO 相對於 PPO 的改進。傳統的 PPO 使用 Value 模型來估計模型回覆的總收益，這實際上是對未來模型回覆各種可能性的一個平均分值估計。而 GRPO 的方法是通過，大模型根據當前的上文輸入進行多次採樣，生成多個預測結果 $o_{i}$，並分別使用 Reward 模型對這些預測結果進行評分得到 $r_{i}$，最後取這些評分的平均值來替代 Value 模型的預期總收益估計。通過這種方式，GRPO 在訓練過程中可以減少一個模型的前向和反向傳播計算，從而降低計算資源的消耗。

下表針對 SFT 以及主流的一些強化學習方法做了對比和總結：

表 4. SFT 與 RLHF 算法特點

PWMEXw

1.3 多頭隱式注意力（Multi-Head Latent Attention，MLA）

在標準的 Transformer 模型中，多頭注意力（Multi-Head Attention, MHA）機制通過並行計算多個注意力頭來捕捉輸入序列中的不同特徵。每個注意力頭都有自己的查詢（Query, Q）、鍵（Key, K）和值（Value, V）矩陣。對於序列中的每一個 token，都需要計算各自的 QKV，進而計算注意力。在推理過程中，當前大模型所採用的 token by token 遞歸生成方式，上文 token 的 KV 計算不會受到後續生成 token 的影響，因此可以緩存下來，避免重複計算，提高推理效率，這就是 KV cache 的由來。也就是說，當生成第 $t+1$ 個 token 時，可以利用之前事先算好的上文 $t$ 個 token 的 KV 值。同樣地，$t+1$ 位置 token 的 KV 值計算出來後也將保存在 KV cache 中。

目前大模型對於注意力機制做的一些改進，包括 MQA （Multi-Query Attention）、GQA （Group Query Attention）都是爲了想方設法減少 KV Cache。DeepSeek 提出的 MLA 的出發點也是如此。減少 KV Cache 就可以實現在更少的設備上推理更長的 Context，或者在相同的 Context 長度下讓推理的 batch size 更大，從而實現更快的推理速度或者更大的吞吐總量。最終目的都是爲了實現更低的推理成本。

圖 3. MHA, MQA, GQA 與 MLA@[Deepseek-v2]

如圖 3 所示，MQA 與 GQA 的辦法是通過共享 K，V 的注意力頭，降低 KV Cache 的數據維度。MLA 的辦法本質上是對原本 MHA 的 KV Cache 作低秩分解，得到一個低維的隱向量（Latent Vector）。在推理階段，MLA 只需要緩存該隱向量，由此大大降低需要緩存的數據量。

具體地，對於某一層某一個 token 的表徵 $h_{t}$, MLA 通過降維映射矩陣（down-projection matrix）$ {W}^{DKV} $ 得到對 $K$、$V$ 壓縮後的隱向量:

${c}^{KV}{t}={W}^{DKV}{h}{t}$

在前向過程中，需要對此隱向量進行升維還原，即:

$ {k}^{C}{t}={W}^{UK}{c}^{KV}{t} ; {v}^{C}{t}={W}^{UV}{c}^{KV}{t} $

其中，${W}^{UK}$ 與 ${W}^{UV}$ 爲對應的升維映射矩陣（up-projection matrix）, 可得到 $h_{t}$ 對應的 $K$、$V$ 向量 ${k}^{C}_{t}$、${v}^{C}_{t}$。可以這麼理解，MLA 利用低秩分解的辦法，通過增加少量的模型參數變量（降維映射矩陣與升維映射矩陣），引入低維隱向量 ${k}^{C}_{t}$ 作爲 KV Cache，降低 KV Cache 所帶來的顯存壓力，以此降低推理成本。

此外，DeepSeek 還將 Query 也進行了低秩分解，能夠在訓練過程中降低顯存佔用，以此提高訓練資源利用率。

上述方案還需要針對位置編碼 RoPE（Rotary Position Embedding）進行處理。因爲如果在隱向量 $h_{t}$ 中包含 RoPE，經過升降維操作後，會對位置信息造成破壞。爲了解決這個問題，MLA（Multi-Head Linear Attention）提出了 “解耦 RoPE” 的方法。具體來說，對於隱向量 ${c}^{KV}_{t}$，不將位置編碼包含在其中，而是專門爲注意力頭的 Query 和 Key 新增向量維度，以添加 RoPE 的位置信息。

使用了 MLA 的 DeepSeek V2 （總參數量 236B，激活參數量 21B），和 DeepSeek 67B 相比，模型效果上顯著提升，同時節省了 42.5% 的訓練成本，減少了 93.3% 的 KV Cache，並將最大生成吞吐量提高了 5.76 倍。

1.4 多令牌預測（Multi-Token Prediction，MTP）

當前主流的採用自迴歸的大模型都是單 token 預測。即根據當前上文預測下一個最可能的 token。而 MTP 的核心思想是讓模型一次性預測多個 token，以提升了模型的訓練效率、生成質量和推理速度。

比如現在上文是 “今年春節的天氣”，傳統的單 token 預測模式會逐 token 預測 “真的”、“好”、“冷”、“。”；而 MTP 會並行地預測這幾個 token 。因此，模型不僅要學習預測下一個 token 的能力，還需要同時具備預測下 $n$ 個 token 的能力。

這種方式在推理角度的好處顯而易見，一次性生成多個 tokens，減少自迴歸生成的步數，達到推理加速效果。而在訓練過程中，MTP 的訓練目標函數同時考慮了多個 token 的估計準確性，因此被認爲可以捕捉 token 間的依賴關係，從而提升模型效果。

這裏將簡單介紹 DeepSeek V3 的 MTP 模塊，與 Meta 的 MTP 模塊相比，DeepSeek 採用了級聯式的結構，使用 k 個串行模塊來預測 k 個 token，保留因果語言模型（Causal Language Model）的連接關係，有利於效果的提升，如圖 4 所示：

圖 4. DeepSeek V3 MTP 模塊結構示意圖 @[Deepseek-v3]

圖中展示了模型用 $D$ 個順序的模塊，預測 $D$ 個 tokens。定義預測深度爲 $k$ 的含義爲，預測後續第 $k$ 個 token。

首先，在每一個預測深度模塊中，都共享了一個嵌入層（embedding layer），即模型除了最後負責最後預測部分的層之外，其他的所有層，用於得到 token 的 embedding。對於輸入的第 $i$ 個 token，在第 $k$ 個預測深度處，模型將前一個深度的表示與第 $i+k-1$ 的 embedding 拼接，作爲新的輸入表示。

然後通過一個預測深度 $k$ 專用的 Transformer 模塊，生成當前預測深度的輸出表示，將用於下一個深度的表示計算，同時用共享的輸出層獲得 token 預測, 與訓練樣本中 $i+k$ 計算損失。

DeepSeek V3 論文中報告了使用 MTP 模塊的效果。他們在推理過程中，不使用 MTP 模塊，只在訓練過程中利用該模塊約束模型的優化。實驗結果表明，使用 MTP 模塊訓練，能夠提升模型的回覆質量，在 MMLU, GSM8K 等公開基準測試指標均有提升。

1.5 混合精度框架

DeepSeek-V3 模型使用了 FP8 訓練，爲了增強訓練穩定性以及維持訓練效果不至於下降太多，作者提出了一種精細的量化策略，另外爲了進一步減少 MoE 訓練中的內存和通信開銷，作者在 FP8 中緩存和分發激活值，同時以 BF16 格式存儲低精度優化器狀態。在實驗中，FP8 訓練模型與 BF16 基線相比，相對損失誤差始終低於 0.25%，在訓練隨機性範圍內是可以接受的。

基於此，DeepSeek-V3 文中提出了一種 FP8 訓練的混合精度框架。在這個框架中，大多數計算密集型操作在 FP8 中進行，而一些關鍵操作則保持其原始數據格式，以平衡訓練效率和數值穩定性。爲了加速模型訓練，主要的核心計算內核（如 General Matrix Multiplication，GEMM 操作）在 FP8 精度下實現，這些操作接受 FP8 張量作爲輸入，並生成 BF16 或 FP32 格式的輸出。所有與線性操作相關的三個 GEMM（前向傳播、激活反向傳播和權重反向傳播）都在 FP8 中執行，這種設計理論上將計算速度提高了一倍。此外，FP8 權重反向傳播 GEMM 允許激活值以 FP8 格式存儲，以便在反向傳播中使用，從而顯著減少了內存消耗。

訓練框架在以下組件中保持了原始精度（如 BF16 或 FP32）：Embedding 模塊、輸出頭、MoE 門控模塊、歸一化算子和注意力算子等。這些高精度的保留確保了 DeepSeek-V3 的穩定訓練動態。爲了進一步保證數值穩定性，作者將模型的主權重、權重梯度和優化器狀態均存儲在更高的精度中。該混合精度框架示意圖可見圖 5。

圖 5. DeepSeek V3 混合精度框架（FP8 訓練）示意圖 @[Deepseek-v3]

除了混合精度框架之外，DeepSeek 在 AI Infra 方面做了許多工作，例如還提出了 DualPipe 算法等，提升了模型訓練效率。這方面的工作也期待 Infra 團隊有更細緻的分享。

1.6 Deepseek V3 總結

DeepSeek-V3 是一個在 2048 個 NVIDIA H800 GPU 的集羣上進行訓練得到的超大型 MoE 架構的大語言模型。它延續了 Deepseek MoE、Deepseek V2 等模型的一系列創新，進一步提出了 MTP，並優化了訓練的效率，取得比較好效果的同時，提高了訓練的效率，節約了成本。

表 5、表 6 展示了 DeepSeek V3 爲人矚目的訓練成本以及開源基準評測效果。

表 5. DeepSeek V3 訓練成本 @[Deepseek-v3]

i91okn

表 6. DeepSeek V3 與其他 Chat 模型開源基準評測效果 @[Deepseek-v3]

02 DeepSeek R1-Zero 和 R1

2.1 GPT-4、GPT-4o、o1、R1 等概述

GPT-4 是 ChatGPT-3.5 的迭代升級，在效果和性能上有了顯著提升；GPT-4o 增加了多模態功能；o1 專注於深度推理能力。R1 跟 o1 類似，也是專注於深度推理能力的模型。下表是不同模型的簡單對比。

表 7. DeepSeek 與 OpenAI 模型對比

qN1A86

2.1.1 CoT 與 Long CoT

CoT 指的是一種推理過程，其中模型在生成最終答案之前，先逐步推導出一系列的中間步驟或子目標。這些中間步驟構成了一個 “思維鏈”，最終引導模型得到正確的結果。它模仿人類的推理過程，即人們往往在解決問題時不是直接得出答案，而是通過一系列的思考、分析和推理步驟。

Long-CoT（長思考 / 慢思考）是 CoT 的一種擴展形式。傳統的 CoT 方法通過將複雜問題分解爲一系列中間推理步驟來引導模型進行逐步推理。而 Long-CoT 則進一步擴展了這種思路，使得思考過程和輸出的答案解耦，可以通過更長的上下文和更復雜的推理路徑（在思考過程中通過加入問題複述、思考回顧、反思、知識回憶、公式化等思考節點）來增強模型的推理能力。

DeepSeek 公開了他們 R1 的技術細節 [5]，比如所採用的對話模版，如圖 6 所示。DeepSeek 對社區的貢獻還在於，他們提供的 API 展示了模型的思考過程，讓從業人員以及使用者能夠全方位地瞭解到 Long-CoT 的特點與作用。圖 7 展示了我使用 DeepSeek 的深度思考以及聯網搜索的一個示例，實實在在地感受到了模型的強大。

圖 6. DeepSeek-R1-Zero 對話模版 @[Deepseek-r1]

圖 7. DeepSeek 使用示例，開啓了深度思考與聯網搜索

2.1.2 R1 與 o1、o3 在效果、速度、價格方面的比較

R1 與 o1、o3 的區別除了訓練方法，還體現在效果、速度、價格幾個方面。在 (@artificialanalysis) 給出了具體的評測結果。

在整體的評分上來看，o3-mini 和 DeepSeek R1 評分一樣，不相上下。

圖 8. 主流模型 Artificial Analysis 評測效果 - 模型回覆質量評分 @artificialanalysis

o3-mini 模型應該更小，主打低延遲，在輸出 token 推理速度上比 DeepSeek R1 快 10 倍，比 o1 快 7 倍。

圖 9. 主流模型 Artificial Analysis 評測效果 - 推理速度 @artificialanalysis

從整體價格上，o3-mini 的價格已經比 DeepSeek-R1 價格更低，比 o1 模型的價格便宜了 13 倍以上，優化了許多。

圖 10. 主流模型 Artificial Analysis 評測效果 - 價格 @artificialanalysis

2.2 DeepSeek R1 和 R1 Zero 模型的突破

DeepSeek R1 和 R1 Zero 模型的突破主要體現在以下幾個方面。

強大的推理能力

DeepSeek R1 和 R1 Zero 模型在多個推理基準測試中表現出色。值得注意的是，DeepSeek-R1-Zero 是第一個公開的研究，驗證了 LLM 的推理能力可以完全通過強化學習（Reinforcement Learning，RL）來激勵，而不需要 SFT。也表明了強化學習可以促進模型自我進化。這一里程碑式的成就，不僅突顯了該模型的創新基礎，也爲以 RL 爲中心的推理 AI 進一步鋪平了道路。

表 8. DeepSeek-R1-Zero 與 OpenAI o1 模型在推理類開源基準測試中的效果對比 @[Deepseek-r1]

表 8 截取自 DeepSeek R1 報告，展示了 DeepSeek-R1-Zero 與 OpenAI o1 相媲美的效果。

可解釋性

DeepSeek R1 和 R1 Zero 模型採用 Long CoT 方法，能夠清晰地展示其推理過程（o1 只能展示部分），提高了模型的可解釋性。其中給出的思考過程也是一個非常有研究價值的內容，有助於大模型領域的發展。

開源和低成本

DeepSeek R1 和 R1 Zero 模型是開源的，開發者和研究人員可以自由地探索、修改和部署它們。此外，DeepSeek R1 的 API 定價也比 OpenAI o1 模型更低，約爲其 1/10。

2.3 DeepSeek R1 和 R1 Zero 模型技術介紹

DeepSeek R1 和 R1 Zero 模型的主要差異在於訓練方法。DeepSeek R1 Zero 僅用強化學習就訓練出了一個效果接近 OpenAI-o1-0912 的推理模型。發現了通過設定基於規則的 Reward 模型（要求保證答案和格式的準確性），能夠在強化學習的訓練過程中不斷進化，出現了 “aha moment” 頓悟時刻以及最終取得了出色的模型效果。

DeepSeek R1 Zero 的表現令人驚歎，我們也相信這套方案還有潛力可以挖掘。不過現階段，R1 Zero 的回覆會出現可讀性差或語言混雜的情況。因此，DeepSeek 基於 R1 Zero 的成果，設計了一個多階段的訓練策略並且添加了許多高質量 SFT 數據。在這樣的 “人工干預” 下，訓練出了一個效果更優的模型 DeepSeek R1。

R1 系列模型的訓練流程如圖 11 所示：

圖 11. DeepSeek-R1-Zero，DeepSeek-R1 與 DeepSeek-R1-Distill 模型訓練流程框圖 @SirrahChan

2.3.1 DeepSeek R1 Zero

R1-Zero 的特別之處在於，它無需經過 SFT 訓練集進行訓練就能夠在推理任務中表現出色。它的訓練過程直接從一個預訓練的基礎模型（DeepSeek V3 Base）開始，通過強化學習訓練完成。具體地：

採用羣體相對策略優化（GRPO），節省 RL 的訓練成本。
在 RL 訓練過程中，採用 Rule-based 獎勵，主要由兩種獎勵構成：a) Accuracy rewards：評估模型的輸出是否正確；b) Format rewards：強制模型將其思考過程置於指定的 $$ 和 $$ 之間。
設計訓練模版，指導基模型在訓練過程中遵守設定的指令，即圖 7。

DeepSeek-R1-Zero 展示出了自我進化能力，隨着強化學習訓練進程的深入，模型的思考時間在增加，並自發出現了諸如反思，模型重新審視和重新評估其先前步驟以及探索解決問題的替代方法等更加複雜的行爲。

圖 12. DeepSeek-R1-Zero 平均回覆長度隨訓練迭代步數的關係曲線 @[Deepseek-r1]

圖 12 展示了 DeepSeek-R1-Zero 在訓練過程中的平均回覆長度，說明了隨着訓練進行，模型在解答推理類問題時，花了更多的時間去思考，以提高回答準確率。

在 DeepSeek-R1-Zero 的訓練過程中出現了 Aha Moment（頓悟時刻），代表 RL 有可能在人工系統中解鎖新的智能水平，爲未來更加自主和自適應的模型鋪平道路。

圖 13. DeepSeek-R1-Zero “Aha Moment” 示例 @[Deepseek-r1]

2.3.2 DeepSeek R1

儘管 DeepSeek-R1-Zero 展示了強大的推理能力，並能夠自主發展出意想不到且強大的推理行爲，但它也面臨一些問題。例如，DeepSeek-R1-Zero 存在可讀性差和語言混雜等問題。R1 旨在成爲一個更易用的模型。因此，R1 並不像 R1-Zero 那樣完全依賴於強化學習過程。訓練過程分成四個階段：

圖 14. DeepSeek-R1 訓練流程

冷啓動：爲了避免 RL 訓練從基礎模型開始的早期不穩定冷啓動階段，構建並收集少量長的 CoT 數據來微調 DeepSeek-V3-Base 作爲 RL 的起點。
推理導向的強化學習：在冷啓動數據上微調 DeepSeek-V3-Base 後，應用與 DeepSeek-R1-Zero 中相同的 RL 方法訓練。本階段側重於增強模型的推理能力，尤其是在編碼、數學、科學和邏輯推理等推理密集型任務中，這些任務涉及具有明確解決方案的明確定義的問題。當 RL 提示涉及多種語言時，CoT 經常表現出語言混合現象。爲了減輕語言混合問題，在 RL 訓練過程中引入了一種語言一致性獎勵。
拒絕抽樣和監督微調：當 2 中的 RL 過程趨於收斂時，利用訓練出的臨時模型生產用於下一輪訓練的 SFT 數據（600K 推理數據）。與 1 中的冷啓動數據區別在於，此階段既包含用於推理能力提升的 600k 數據，也包含 200k 推理無關的數據。使用這 800k 樣本的精選數據集對 DeepSeek-V3-Base 進行了兩個 epoch 的微調。
適用於全場景的強化學習：在 3 中微調模型的基礎上，使用全場景的強化學習數據提升模型回覆的有用性和無害性。對於推理數據，遵循 DeepSeek-R1-Zero 的方法，利用基於規則的獎勵來指導數學、代碼和邏輯推理領域的學習過程。對於一般數據，採用基於模型的獎勵來捕捉複雜和細微場景中的人類偏好。

通過上述精細的多階段訓練，DeepSeek R1 最終得以呈現，達到了 OpenAI-o1-1217 的水平。

表 9. DeepSeek-R1 在開源基準測試中的效果 @[Deepseek-r1]

2.3.3 將 R1 推理能力蒸餾到小的稠密模型中

圖 15. 將 R1 推理能力蒸餾到其他模型

爲了使參數規模較小的模型也能具備像 DeepSeek-R1 這樣的推理能力，首先通過 DeepSeek-R1 推理得到的 800k 個樣本。然後對 6 個不同參數量的開源模型進行了直接有監督微調。這種方式也就是直接的數據蒸餾。R1 論文中表明瞭，通過這種方法就能夠顯著增強小參數規模模型的推理能力。同時也反映了 R1 模型的價值，它能夠用於激發絕大多數模型的推理能力。

表 10. DeepSeek-R1-Distill 模型在推理類開源基準測試中的效果 @[Deepseek-r1]

表 10 展示了基於 1.5B-70B 規模的開源模型，使用 DeepSeek-R1 數據蒸餾後的推理能力評測，指標都具有較強的競爭力。這實在是一件很誇張的事，這相當於告訴了我們一個簡單直接的模型效果優化手段，就是從 R1 模型構造數據，然後 SFT！

2.3.4 Deepseek R1 的意義

DeepSeek-R1 在全球範圍內引發巨大轟動，不僅源於其技術突破，更在於其與 OpenAI 的對比。儘管 OpenAI 在發佈 o1 模型後展現了強大實力，但由於以下三點原因，行業內外用戶難以大規模採用：首先，拒絕開源；其次，隱藏了模型的深度思考過程，使其成爲一個 “黑箱”；最後，定價高昂，將大多數用戶拒之門外。相較之下，DeepSeek-R1 揭開了 o1 的神祕面紗，開源了這類強推理模型背後的關鍵技術，既促進了行業的快速發展，也對 OpenAI 的閉源策略形成了有力衝擊。

DeepSeek-R1 的成功，本質上是對 OpenAI 發展路徑的一次顛覆性突破。它重現了 2023 年初 ChatGPT 帶給世界的震撼，但更重要的是，它證明了在有限算力條件下，通過算法創新同樣能夠實現技術突破。這種突破具有雙重意義：一方面，它打破了 “算力至上” 的神話，爲 AI 發展開闢了新路徑；另一方面，它爲中國 AI 產業提供了寶貴的經驗——在算力受限的情況下，通過技術創新依然可以實現彎道超車。

從技術演進的角度來看，DeepSeek V3 和 R1 的成功爲 AI 發展的新方向指明瞭道路。在追求模型性能的同時，效率優化將成爲未來競爭的關鍵。這一點在本文介紹的 V3 一系列技術中得到了清晰體現。

展望未來，DeepSeek 有望在很大程度上促進大模型行業應用的發展，這些技術不僅可以提升當前大模型業務的效果與效率，還能提供新的解決方案思路。此外，DeepSeek 也爲大模型廠商樹立了榜樣，其在 2024 年的一系列卓越工作展示瞭如何打造有價值的大模型。

參考文獻

[1] Dai D, Deng C, Zhao C, et al. Deepseekmoe: Towards ultimate expert specialization in mixture-of-experts language models[J]. arXiv preprint arXiv:2401.06066, 2024. https://arxiv.org/pdf/2401.06066

[2] Shao Z, Wang P, Zhu Q, et al. Deepseekmath: Pushing the limits of mathematical reasoning in open language models[J]. arXiv preprint arXiv:2402.03300, 2024. https://arxiv.org/pdf/2402.03300

[3] Liu A, Feng B, Wang B, et al. Deepseek-v2: A strong, economical, and efficient mixture-of-experts language model[J]. arXiv preprint arXiv:2405.04434, 2024. https://arxiv.org/pdf/2405.04434

[4] Liu A, Feng B, Xue B, et al. Deepseek-v3 technical report[J]. arXiv preprint arXiv:2412.19437, 2024. https://arxiv.org/pdf/2412.19437

[5] Guo D, Yang D, Zhang H, et al. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning[J]. arXiv preprint arXiv:2501.12948, 2025. https://arxiv.org/pdf/2501.12948

原創作者｜喬凌峯

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/0VgtLaHq04pk6r-O0HvovQ