DeepSeek相關(guān)技術(shù)概念和R1-Zero解析
發(fā)布日期:2025/1/31 12:40:43 瀏覽量:
DeepSeek相關(guān)技術(shù)概念和R1-Zero解析
DeepSeek-R1-Zero是一個未經(jīng)監(jiān)督微調(diào)(SFT)這一初步步驟,直接通過大規(guī)模強化學習(RL)訓練的模型。通過強化學習,DeepSeek-R1-Zero自然地展現(xiàn)出眾多強大且引人入勝的推理行為。然而,它也面臨著可讀性差和語言混雜等挑戰(zhàn)。**
為了解決這些問題并進一步提升推理性能,DeepSeek推出了DeepSeek-R1,該模型在強化學習之前加入了多階段訓練和冷啟動數(shù)據(jù)。DeepSeek-R1在推理任務上的性能可與OpenAI-o1-1217****相媲美。
一、有監(jiān)督微調(diào)(SFT)
有監(jiān)督微調(diào)(Supervised Fine-Tuning,SFT)是什么?有監(jiān)督微調(diào)是指在已經(jīng)訓練好的大型語言模型(如GPT、Llama等)基礎(chǔ)上,通過使用有標注的特定任務數(shù)據(jù)進行進一步的訓練,從而使模型具備在特定任務或領(lǐng)域上表現(xiàn)更好的能力**。這種技術(shù)通常涉及對模型權(quán)重的微調(diào),以最小化任務特定的損失函數(shù)。**
有監(jiān)督微調(diào)(SFT)的核心在于利用有限的標注數(shù)據(jù),對預訓練模型進行精細化調(diào)整。預訓練模型通常是在大規(guī)模無監(jiān)督數(shù)據(jù)集上訓練的,已經(jīng)掌握了語言的基本結(jié)構(gòu)和知識。通過引入標注數(shù)據(jù),模型可以針對特定任務進行微調(diào),學習如何在該任務上進行預測和推理。

******DeepSeek-R1為什么不使用有監(jiān)督微調(diào)(SFT)********?DeepSeek-R1摒棄了傳統(tǒng)的有監(jiān)督微調(diào)作為初步步驟的做法,**旨在通過純粹的強化學習(RL)來訓練模型,以激發(fā)模型的自主學習能力。
這一理念認為,通過讓模型在自主試錯中學習正確的方法(即Self play),可以更符合人類的思維規(guī)則,同時提升模型的適應性和靈活性。
DeepSeek-R1通過強化學習提升了自主學習能力,無需依賴大量標注數(shù)據(jù),從而實現(xiàn)了與有監(jiān)督微調(diào)模型相媲美的推理性能,這一特性不僅降低了數(shù)據(jù)成本,還顯著增強了模型的適應性。

二、強化學習(RL)
******強化學習(Reinforcement Learning, RL)******是什么?強化學習專注于探索模型如何通過與環(huán)境的互動,利用試錯方式學習最優(yōu)策略,旨在最大化累積獎勵。
強化學習的核心在于模型(通常被稱為智能體)會在環(huán)境中執(zhí)行一系列動作,并根據(jù)這些動作所獲得的獎勵來不斷優(yōu)化其行為策略。在DeepSeek中,強化學習被用于提升模型的推理能力。

DeepSeek-R1********************為什么使用強化學習(RL)?DeepSeek-R1采用強化學習是為了提升推理能力并減少對監(jiān)督數(shù)據(jù)的依賴,實現(xiàn)模型在復雜環(huán)境中的自我優(yōu)化與進化。
DeepSeek-R1利用強化學習來訓練模型,使其能夠在特定任務環(huán)境中(如數(shù)字游戲、數(shù)學推理題等)通過不斷嘗試和反饋來學習如何改進策略,以獲得更高的獎勵。這個過程類似于人類的學習方式,即通過試錯和經(jīng)驗積累來逐漸掌握技能********。

三. R1的幾大特點
1. Group Relative Policy Optimization (GRPO) 算法
在大模型推理領(lǐng)域,大部分突破通常都依賴于大規(guī)模、精細標注的數(shù)據(jù)。然而 DeepSeek-R1 為這一常識帶來了新的挑戰(zhàn)。它的核心假設很簡約,卻不那么簡單:我們能否只通過獎勵信號來教會模型正確回答,從而讓它自己摸索出最優(yōu)的思考方式? 當我們完全取消監(jiān)督微調(diào)(在 DeepSeek-R1-Zero 中),研究團隊讓模型只依賴強化學習獎勵來探索并形成自己的思維鏈。
DeepSeek-R1-Zero 采用了 Group Relative Policy Optimization (GRPO) 算法,不需要與策略模型同規(guī)模的價值網(wǎng)絡,大大節(jié)省了訓練成本。GRPO 的關(guān)鍵更新公式如下:
其中,每個樣本 ????A_i 的優(yōu)勢函數(shù) (advantage) 這樣計算:
這兩條公式就是模型學習的數(shù)學核心:通過成組采樣、對獎勵進行標準化,DeepSeek-R1-Zero 在不依賴任何手動標注的情況下就能逐步完善自己的策略。
2. 自發(fā)行為,模型產(chǎn)生“aha 頓悟時刻”
大規(guī)模強化學習給 LLM 帶來的最神奇的現(xiàn)象之一,莫過于其自動涌現(xiàn)的復雜且自我反思的行為。DeepSeek-R1-Zero 經(jīng)過足夠多的訓練后,居然能:
- 延長 處理復雜問題時的思維鏈;
- 重評 解題思路,如果發(fā)現(xiàn)之前方法可能走不通,就會另辟蹊徑;
- 出現(xiàn) 真正的“aha 時刻”——模型會主動退回前面的推理步驟,找出并修正自己的錯誤。
對于那些習慣了傳統(tǒng)監(jiān)督微調(diào)的專家而言,眼見模型僅靠強化學習獎勵就能“學會更好地思考”,著實令人驚艷。也因此,RL 賦予大模型自我進化的潛力,值得我們深入探索。
DeepSeek-R1-Zero 是從基礎(chǔ)大模型出發(fā),完全不經(jīng)過任何監(jiān)督微調(diào)的數(shù)據(jù)集來訓練的。研究團隊主要引入了兩類獎勵信號:
1. 準確度獎勵 (Accuracy Rewards):根據(jù)模型是否在數(shù)學、編程或邏輯題上回答正確來打分。
2. 格式獎勵 (Format Rewards):鼓勵生成具有固定格式,如<think> ... </think>這類更可讀、更易于理解的思維鏈標記。
憑借這些獎勵信號,DeepSeek-R1-Zero 在 AIME 2024 數(shù)學基準測試上的 pass@1 從 15.6% 飆升至 71.0%,達到與頂尖大模型不相上下的水平。更令人驚訝的是,借助多次投票(majority-vote),它竟然沖到了 86.7%,力壓 OpenAI 的 o1-0912。
為什么這很重要?
然而,這也帶來了一些問題: DeepSeek-R1-Zero 的輸出可讀性常常不佳,比如混合使用多種語言、格式混亂或出現(xiàn)奇怪的修飾。在這種情況下,引入“冷啟動”數(shù)據(jù)就成了下一步的關(guān)鍵。
只要加一點點“冷啟動”監(jiān)督數(shù)據(jù),能否解決可讀性與語言混雜的問題,并且讓模型在推理上繼續(xù)精進?為此,研究團隊制定了一個多階段的訓練流程:
成果亮點:
要點: 僅用少量人工優(yōu)選數(shù)據(jù)加上大規(guī)模的 RL,就能替代不少此前需要的繁重監(jiān)督微調(diào)工作——這或許會成為未來大模型訓練的一種關(guān)鍵模式。
什么要做蒸餾 (Distillation)? 訓練一個像 DeepSeek-R1 這樣規(guī)模(70B)的模型需要的資源可不小,大多數(shù)實驗室難以承擔。好在完成訓練后的 DeepSeek-R1 可以生成海量準確答案,為了讓更多小模型也能擁有類似的推理“頭腦”,研究團隊采用了一個簡單而高效的方法:把 DeepSeek-R1 生成的優(yōu)質(zhì)數(shù)據(jù)用于微調(diào)更小的稠密模型(1.5B、7B、8B、14B、32B 等)。
實戰(zhàn)結(jié)果:
- 用 Qwen 系列做蒸餾后,7B 大小的模型竟能擊敗一些更大的開源模型,特別是在數(shù)學和代碼推理上頗為亮眼。
結(jié)論: 讓小模型從零開始做大規(guī)模強化學習,往往難以企及大模型蒸餾而來的推理水平,并且成本更高。蒸餾因此成了一個高性價比的秘密武器,能快速把大型模型的思維精華移植到小模型上。
- 過程獎勵模型 (PRM):讓模型在每個細小步驟都獲得獎勵,理論可行但在大規(guī)模訓練中難以準確界定“一步”的正確性,也容易出現(xiàn)獎勵欺騙(reward hacking)。
3. 死盯強化學習
- 模型自學了如何應對各種任務,無需手把手式的監(jiān)督標注。
- 這個提升過程暗示了模型能自動摸索反思、驗證等學習策略,而并不需要預先提供大樣本數(shù)據(jù)。
4. 冷啟動數(shù)據(jù)和大規(guī)模強化學習配合
- 最終版本 DeepSeek-R1 在數(shù)學和編程上可與 OpenAI-o1-1217 媲美。
- 在知識類基準如 MMLU、GPQA Diamond 上表現(xiàn)優(yōu)異,特別擅長 STEM 領(lǐng)域,超越之前的 DeepSeek-V3。
5. 蒸餾,把高階推理能力賦予給小模型
- 14B 蒸餾模型更是一舉打破多項推理基準的記錄,印證了“師父”夠厲害,“徒弟”也能青出于藍。
6. 彎路和坑
- 蒙特卡洛樹搜索 (MCTS):借鑒 AlphaGo / AlphaZero 的思路,試圖在解題時分步搜索??上У氖?,生成空間在語言模型里基本無限大,很快就遭遇了指數(shù)級的復雜度和不穩(wěn)定的價值評估。
這些方法并非一無是處,但在涉及超大規(guī)模 RL 訓練時,實施細節(jié)遠比預想復雜得多,也容易卡在訓練效率的瓶頸上。
馬上咨詢: 如果您有業(yè)務方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生