必讀視頻專題飛象趣談光通信人工智能低空經(jīng)濟(jì)5G手機(jī)智能汽車智慧城市會(huì)展特約記者

昇騰0day支持智譜GLM-5,744B模型單機(jī)高效推理

2026年2月12日 21:06CCTIME飛象網(wǎng)

2026年2月12日,智譜AI發(fā)布Agentic Engineering時(shí)代最好的開(kāi)源模型GLM-5,從“寫(xiě)代碼”到“寫(xiě)工程”的能力進(jìn)一步演進(jìn)。在Coding與Agent能力上取得開(kāi)源SOTA表現(xiàn),在真實(shí)編程場(chǎng)景的使用體驗(yàn)逼近Claude Opus 4.5,更擅長(zhǎng)復(fù)雜系統(tǒng)工程與長(zhǎng)程Agent任務(wù)。昇騰一直同步支持智譜GLM系列模型,此次GLM-5模型一經(jīng)開(kāi)源發(fā)布,昇騰AI基礎(chǔ)軟硬件即實(shí)現(xiàn)0day適配,為該模型的推理部署和訓(xùn)練復(fù)現(xiàn)提供全流程支持。

更大基座,更強(qiáng)智能

● 參數(shù)規(guī)模擴(kuò)展:從355B(激活32B)擴(kuò)展至744B(激活40B),預(yù)訓(xùn)練數(shù)據(jù)從23T提升至28.5T,更大規(guī)模的預(yù)訓(xùn)練算力顯著提升了模型的通用智能水平。

● 異步強(qiáng)化學(xué)習(xí):構(gòu)建全新的“Slime”框架,支持更大模型規(guī)模及更復(fù)雜的強(qiáng)化學(xué)習(xí)任務(wù),提升強(qiáng)化學(xué)習(xí)后訓(xùn)練流程效率;提出異步智能體強(qiáng)化學(xué)習(xí)算法,使模型能夠持續(xù)從長(zhǎng)程交互中學(xué)習(xí),充分激發(fā)預(yù)訓(xùn)練模型的潛力。

● 稀疏注意力機(jī)制:首次集成DeepSeek Sparse Attention,在維持長(zhǎng)文本效果無(wú)損的同時(shí),大幅降低模型部署成本,提升Token Efficiency。

Coding能力:對(duì)齊Claude Opus 4.5

GLM-5在SWE-bench-Verified和Terminal Bench 2.0中,分別獲得77.4和55.7的開(kāi)源模型最高分?jǐn)?shù),性能超過(guò)Gemini 3.0 Pro。

Agent能力:SOTA級(jí)長(zhǎng)程任務(wù)執(zhí)行

GLM-5在多個(gè)Agent測(cè)評(píng)基準(zhǔn)中取得開(kāi)源第一,在BrowseComp(聯(lián)網(wǎng)檢索與信息理解)、MCP-Atlas(工具調(diào)用和多步驟任務(wù)執(zhí)行)和τ²-Bench(復(fù)雜多工具場(chǎng)景下的規(guī)劃和執(zhí)行)均取得最優(yōu)表現(xiàn)。

在衡量模型經(jīng)營(yíng)能力的Vending Bench 2中,GLM-5獲得開(kāi)源模型中的最佳表現(xiàn)。Vending Bench 2要求模型在一年期內(nèi)經(jīng)營(yíng)一個(gè)模擬的自動(dòng)售貨機(jī)業(yè)務(wù),GLM-5最終賬戶余額達(dá)到4432美元,經(jīng)營(yíng)表現(xiàn)接近Claude Opus 4.5,展現(xiàn)了出色的長(zhǎng)期規(guī)劃和資源管理能力。

這些能力是Agentic Engineering的核心:模型不僅要能寫(xiě)代碼、完成工程,還要能在長(zhǎng)程任務(wù)中保持目標(biāo)一致性、進(jìn)行資源管理、處理多步驟依賴關(guān)系,成為真正的Agentic Ready基座模型。

基于昇騰實(shí)現(xiàn)GLM-5的混合精度高效推理

昇騰支持對(duì)GLM模型W4A8混合精度量化,744B超大參數(shù)模型基于Atlas 800 A3實(shí)現(xiàn)單機(jī)部署。

GLM-5為78層decoder-only大模型:前3層為Dense FFN,后75層為MoE(路由專家+共享專家),自帶一層MTP(Multi-Token Prediction)用于加速解碼過(guò)程。針對(duì)這一模型結(jié)構(gòu),昇騰對(duì)權(quán)重文件采用了W4A8量化,極大減少顯存占用,加速Decode階段的執(zhí)行速度。同時(shí)采用了Lightning Indexer、Sparse Flash Attention等高性能融合算子,加速模型端到端的推理執(zhí)行,并支持業(yè)界主流推理引擎vLLM-Ascend、SGLang和xLLM高效部署。

● 權(quán)重下載:https://ai.atomgit.com/atomgit-ascend/GLM-5-w4a8

● 推理部署:https://atomgit.com/zai-org/GLM-5-code/blob/main/example/ascend.md

昇騰W4A8量化,極減少顯存占用

采用易擴(kuò)展的MsModelSlim量化工具,全程輕松量化

1、按模塊區(qū)分量化比特與算法:例如Attention與MLP主體用W8A8,MoE專家用W4A8;gate等量化敏感層可按需回退,避免過(guò)大精度損失。

2、一鍵即可量化:支持GLM-5量化過(guò)程“預(yù)處理+子圖融合+分層線性量化”的完整流水線,安裝后一條命令行即可輕松完成量化:msmodelslim quant --model_path ${model_path} --save_path ${save_path} --model_type GLM-5 --quant_type w4a8 --trust_remote_code True

MsModelSlim提供豐富量化策略,實(shí)現(xiàn)快速精度對(duì)齊

● 旋轉(zhuǎn)Quarot算法:對(duì)權(quán)重做Hadamard旋轉(zhuǎn)與LayerNorm融合,降低激活異常值、改善后續(xù)量化的數(shù)值分布! 

● 多種離群值抑制算法:采用Flex_AWQ_SSZ算法和Flex_Smooth_Quant算法混合策略,權(quán)重采用SSZ(Smooth Scale Zero)標(biāo)定,支持縮放因子等超參。

● 線性層量化策略:對(duì)單層Linear做W8A8或W4A8,對(duì)激活值做per-token粒度量化、對(duì)權(quán)重做per-channel粒度量化。

高性能融合算子,加速推理執(zhí)行

1、Lightning Indexer融合Kernel

長(zhǎng)序列場(chǎng)景下TopK操作會(huì)成為瓶頸,通過(guò)引入Lightning Indexer融合算子,包含Score Batchmatmul、ReLU、ReduceSum、TopK等操作,可用TopK計(jì)算耗時(shí)流水掩蓋掉其他操作的耗時(shí),從而提升計(jì)算流水收益。

2、Sparse Flash Attention融合Kernel

引入SFA,包含了從完整KVCache里選取TopK相關(guān)Token,及計(jì)算稀疏Flash Attention操作,可用離散聚合訪存耗時(shí)掩蓋其他操作耗時(shí)。

3、MLAPO 融合Kernel

GLM-5在Sparse Flash Attention預(yù)處理階段將query和KV進(jìn)行降維操作,并且把query降維后的激活值傳遞給Indexer模塊進(jìn)行稀疏選擇處理。近期將會(huì)引入MLAPO通過(guò)VV融合(多個(gè)Vector算子融合)技術(shù),將前處理過(guò)程中的13個(gè)小算子直接融合成1個(gè)超級(jí)大算子。除此之外,在MLAPO算子內(nèi)部,通過(guò)Vector和Cube計(jì)算單元的并行處理及流水優(yōu)化,進(jìn)一步提升算子整體性能。

基于昇騰實(shí)現(xiàn)GLM-5的訓(xùn)練復(fù)現(xiàn)

GLM-5采用了DeepSeek Sparse Attention(DSA)架構(gòu),針對(duì)DSA訓(xùn)練場(chǎng)景,昇騰團(tuán)隊(duì)設(shè)計(jì)并實(shí)現(xiàn)了昇騰親和融合算子,從兩方面進(jìn)行優(yōu)化:一是優(yōu)化Lightning Indexer Loss計(jì)算階段的內(nèi)存占用,二是利用昇騰Cube和Vector單元的流水并行來(lái)進(jìn)一步提升計(jì)算效率。

訓(xùn)練部署指導(dǎo):https://modelers.cn/models/MindSpeed/GLM-5

編 輯:T01
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來(lái)源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來(lái)源。
2.凡注明“來(lái)源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
推薦閱讀

精彩視頻

精彩專題

關(guān)于我們廣告報(bào)價(jià)聯(lián)系我們隱私聲明本站地圖

CCTIME飛象網(wǎng) CopyRight © 2007-2025 By CCTIME.COM

京ICP備08004280號(hào)-1 電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)

公司名稱: 北京飛象互動(dòng)文化傳媒有限公司

未經(jīng)書(shū)面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像