4月23日,快手Kwaipilot團(tuán)隊(duì)發(fā)布全新大模型訓(xùn)練方法SRPO并宣布開(kāi)源。該方法僅用 GRPO 1/10的訓(xùn)練成本,在數(shù)學(xué)與代碼雙領(lǐng)域基準(zhǔn)測(cè)試中實(shí)現(xiàn)性能突破:AIME2024 得分50,LiveCodeBench 得分41.6,成為業(yè)界首個(gè)在兩大專業(yè)領(lǐng)域同時(shí)復(fù)現(xiàn)DeepSeek-R1-Zero 的方法。
快手 Kwaipilot 團(tuán)隊(duì)在最新研究成果《SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一種創(chuàng)新的強(qiáng)化學(xué)習(xí)框架 —— 兩階段歷史重采樣策略優(yōu)化(two-Staged history-Resampling Policy Optimization ,SRPO),這是業(yè)界首個(gè)同時(shí)在數(shù)學(xué)和代碼兩個(gè)領(lǐng)域復(fù)現(xiàn) DeepSeek-R1-Zero 性能的方法。通過(guò)使用與 DeepSeek 相同的基礎(chǔ)模型 (Qwen2.5-32B) 和純粹的強(qiáng)化學(xué)習(xí)訓(xùn)練,SRPO 成功在 AIME24 和 LiveCodeBench 基準(zhǔn)測(cè)試中取得了優(yōu)異成績(jī)(AIME24 = 50、LiveCodeBench = 41.6),超越了 DeepSeek-R1-Zero-32B 的表現(xiàn)。更值得注意的是,SRPO 僅需 R1-Zero 十分之一的訓(xùn)練步數(shù)就達(dá)到了這一水平。
論文地址:https://arxiv.org/abs/2504.14286
模型開(kāi)源地址:https://huggingface.co/Kwaipilot/SRPO-Qwen-32B

圖:SRPO AIME24 和 LiveCodeBench 表現(xiàn),每項(xiàng)為 pass@1 的32 次平均得分
技術(shù)報(bào)告中,快手Kwaipilot團(tuán)隊(duì)實(shí)現(xiàn)了一種兩階段訓(xùn)練范式,有效解決數(shù)學(xué)和代碼之間內(nèi)在的響應(yīng)長(zhǎng)度沖突問(wèn)題。實(shí)驗(yàn)表明,兩階段訓(xùn)練在數(shù)學(xué)和編程領(lǐng)域均表現(xiàn)出優(yōu)異的結(jié)果。該模型在解決數(shù)學(xué)問(wèn)題時(shí)始終如一地生成詳細(xì)的逐步推理模式,并在處理編程任務(wù)時(shí)生成結(jié)構(gòu)化的推理模式。

圖:不同訓(xùn)練數(shù)據(jù)策略對(duì)響應(yīng)長(zhǎng)度的影響
在訓(xùn)練的中后期階段,快手 Kwaipilot 團(tuán)隊(duì)創(chuàng)新性地引入了歷史重采樣(History Resampling)實(shí)現(xiàn)動(dòng)態(tài)采樣,確保了在每個(gè)訓(xùn)練步驟中梯度更新始終有效,從而直接提高了信息梯度的比例。與DAPO中提出的Dynamic Sampling方法相比,History Resampling顯著提高了計(jì)算效率,響應(yīng)長(zhǎng)度增長(zhǎng)也更加穩(wěn)定。

圖:Training statistics of History Resampling
更令人驚喜的是,在訓(xùn)練過(guò)程中模型的自我反思、糾正和回溯頻率逐漸增加,在訓(xùn)練后期,模型已經(jīng)會(huì)借助程序性思維進(jìn)行自我糾錯(cuò)和多次嘗試,掌握了廣泛思考和綜合運(yùn)用多種代碼思維進(jìn)行問(wèn)題求解的能力。

目前,快手Kwaipilot團(tuán)隊(duì)已將SRPO-Qwen-32B模型開(kāi)源,希望這一成果能夠?yàn)樯鐓^(qū)在構(gòu)建更強(qiáng)大的推理模型方面提供有力支持。未來(lái),他們將持續(xù)探索數(shù)據(jù)與模型的擴(kuò)展、更高效的強(qiáng)化學(xué)習(xí)算法以及SRPO在更廣泛的推理場(chǎng)景中的應(yīng)用。