首頁(yè)|必讀|視頻|專訪|運(yùn)營(yíng)|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁(yè) >> 移動(dòng)互聯(lián)網(wǎng) >> 正文

業(yè)內(nèi)首次! 全面復(fù)現(xiàn)DeepSeek-R1-Zero數(shù)學(xué)代碼能力,訓(xùn)練步數(shù)僅需其1/10

2025年4月25日 10:35  CCTIME飛象網(wǎng)  

4月23日,快手Kwaipilot團(tuán)隊(duì)發(fā)布全新大模型訓(xùn)練方法SRPO并宣布開(kāi)源。該方法僅用 GRPO 1/10的訓(xùn)練成本,在數(shù)學(xué)與代碼雙領(lǐng)域基準(zhǔn)測(cè)試中實(shí)現(xiàn)性能突破:AIME2024 得分50,LiveCodeBench 得分41.6,成為業(yè)界首個(gè)在兩大專業(yè)領(lǐng)域同時(shí)復(fù)現(xiàn)DeepSeek-R1-Zero 的方法。

快手 Kwaipilot 團(tuán)隊(duì)在最新研究成果《SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一種創(chuàng)新的強(qiáng)化學(xué)習(xí)框架 —— 兩階段歷史重采樣策略優(yōu)化(two-Staged history-Resampling Policy Optimization ,SRPO),這是業(yè)界首個(gè)同時(shí)在數(shù)學(xué)和代碼兩個(gè)領(lǐng)域復(fù)現(xiàn) DeepSeek-R1-Zero 性能的方法。通過(guò)使用與 DeepSeek 相同的基礎(chǔ)模型 (Qwen2.5-32B) 和純粹的強(qiáng)化學(xué)習(xí)訓(xùn)練,SRPO 成功在 AIME24 和 LiveCodeBench 基準(zhǔn)測(cè)試中取得了優(yōu)異成績(jī)(AIME24 = 50、LiveCodeBench = 41.6),超越了 DeepSeek-R1-Zero-32B 的表現(xiàn)。更值得注意的是,SRPO 僅需 R1-Zero 十分之一的訓(xùn)練步數(shù)就達(dá)到了這一水平。

論文地址:https://arxiv.org/abs/2504.14286

模型開(kāi)源地址:https://huggingface.co/Kwaipilot/SRPO-Qwen-32B

圖:SRPO AIME24 和 LiveCodeBench 表現(xiàn),每項(xiàng)為 pass@1 的32 次平均得分

技術(shù)報(bào)告中,快手Kwaipilot團(tuán)隊(duì)實(shí)現(xiàn)了一種兩階段訓(xùn)練范式,有效解決數(shù)學(xué)和代碼之間內(nèi)在的響應(yīng)長(zhǎng)度沖突問(wèn)題。實(shí)驗(yàn)表明,兩階段訓(xùn)練在數(shù)學(xué)和編程領(lǐng)域均表現(xiàn)出優(yōu)異的結(jié)果。該模型在解決數(shù)學(xué)問(wèn)題時(shí)始終如一地生成詳細(xì)的逐步推理模式,并在處理編程任務(wù)時(shí)生成結(jié)構(gòu)化的推理模式。

圖:不同訓(xùn)練數(shù)據(jù)策略對(duì)響應(yīng)長(zhǎng)度的影響

在訓(xùn)練的中后期階段,快手 Kwaipilot 團(tuán)隊(duì)創(chuàng)新性地引入了歷史重采樣(History Resampling)實(shí)現(xiàn)動(dòng)態(tài)采樣,確保了在每個(gè)訓(xùn)練步驟中梯度更新始終有效,從而直接提高了信息梯度的比例。與DAPO中提出的Dynamic Sampling方法相比,History Resampling顯著提高了計(jì)算效率,響應(yīng)長(zhǎng)度增長(zhǎng)也更加穩(wěn)定。

圖:Training statistics of History Resampling

更令人驚喜的是,在訓(xùn)練過(guò)程中模型的自我反思、糾正和回溯頻率逐漸增加,在訓(xùn)練后期,模型已經(jīng)會(huì)借助程序性思維進(jìn)行自我糾錯(cuò)和多次嘗試,掌握了廣泛思考和綜合運(yùn)用多種代碼思維進(jìn)行問(wèn)題求解的能力。

目前,快手Kwaipilot團(tuán)隊(duì)已將SRPO-Qwen-32B模型開(kāi)源,希望這一成果能夠?yàn)樯鐓^(qū)在構(gòu)建更強(qiáng)大的推理模型方面提供有力支持。未來(lái),他們將持續(xù)探索數(shù)據(jù)與模型的擴(kuò)展、更高效的強(qiáng)化學(xué)習(xí)算法以及SRPO在更廣泛的推理場(chǎng)景中的應(yīng)用。

編 輯:T01
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來(lái)源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來(lái)源。
2.凡注明“來(lái)源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
推薦新聞              
 
人物
高通徐晧:利用6G和AI重塑移動(dòng)連接的未來(lái)
精彩視頻
看見(jiàn)數(shù)智福建 2025數(shù)字中國(guó)建設(shè)峰會(huì)媒體探訪活動(dòng)
在CCBN2025見(jiàn)證百年電視行業(yè)新紀(jì)元——超高清發(fā)展年
飛象趣談第二十四期!全球首款二維半導(dǎo)體芯片“無(wú)極”,像保鮮膜一樣薄的未來(lái)科技!
專家談|中國(guó)信通院果敢:生成式AI發(fā)展為人工智能終端注入創(chuàng)新動(dòng)力
精彩專題
通信產(chǎn)業(yè)2024年業(yè)績(jī)盤點(diǎn)
3·15權(quán)益日 | 共筑滿意消費(fèi) 守護(hù)信息通信安全防線
聚焦2025全國(guó)兩會(huì)
2025年世界移動(dòng)通信大會(huì)
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱: 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像