首頁(yè)|必讀|視頻|專訪|運(yùn)營(yíng)|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁(yè) >> 移動(dòng)互聯(lián)網(wǎng) >> 正文

大規(guī)模專家并行推理集群實(shí)現(xiàn)性能3倍躍遷,聯(lián)通元景開啟推理新紀(jì)元

2025年4月7日 18:06  CCTIME飛象網(wǎng)  

近日,中國(guó)聯(lián)通持續(xù)技術(shù)攻堅(jiān),依托元景大模型MaaS平臺(tái)成功搭建“大規(guī)模專家并行” 推理集群,實(shí)現(xiàn)DeepSeek MoE 大模型在多節(jié)點(diǎn)間的超高效集群推理,單卡吞吐提升 3 倍,解碼時(shí)延降低 50%。這一成果不僅為人工智能技術(shù)的創(chuàng)新發(fā)展提供了強(qiáng)大助力,也讓各行業(yè)以更高效率應(yīng)用 AI 技術(shù),加速推動(dòng)千行百業(yè)的數(shù)字化轉(zhuǎn)型。

伴隨大模型MoE結(jié)構(gòu)重大技術(shù)革新,以往少量“全能型”專家的模式逐漸被取代,大量“?菩汀毙<抑饾u成為主流。這一轉(zhuǎn)變,極大地提升了模型的針對(duì)性和精細(xì)化程度,使得模型效果顯著改善。

推理應(yīng)用在各行業(yè)的落地隨之全面加速,市場(chǎng)對(duì)于推理服務(wù)的需求呈井噴式增長(zhǎng),Tokens 處理量的需求與日俱增,這對(duì)推理系統(tǒng)的性能提出了更高的要求。為應(yīng)對(duì)這一挑戰(zhàn),大規(guī)模專家并行推理技術(shù)應(yīng)運(yùn)而生,為大模型推理的加速規(guī)模應(yīng)用提供了強(qiáng)大的技術(shù)支撐。

聯(lián)通元景大模型與昇騰深度合作,圍繞大規(guī)模專家并行推理技術(shù)展開全方位創(chuàng)新,將 DeepSeek 671B滿血版大模型的數(shù)百個(gè)“?菩汀 小專家按最優(yōu)方式分布到不同的NPU上,使得單卡權(quán)重占用顯存降低 75%,權(quán)重加載耗時(shí)大幅減少,可用于數(shù)據(jù)計(jì)算的顯存顯著增加。

在通信環(huán)節(jié),雙方對(duì)集群跨機(jī)通信方案進(jìn)行深度優(yōu)化,通過引入先進(jìn)計(jì)算與通信并行算法,整體通信效率提升40%。此外,雙方聯(lián)合創(chuàng)新多級(jí)負(fù)載均衡算法,精準(zhǔn)識(shí)別并均衡各NPU 的負(fù)載,將卡間負(fù)載差異成功控制在 10% 以下,有效提升系統(tǒng)吞吐和計(jì)算資源利用率。

聯(lián)通元景大模型MaaS平臺(tái)結(jié)合大規(guī)模專家并行推理集群系統(tǒng),基于DeepSeek 671B 滿血版大模型持續(xù)進(jìn)行針對(duì)性推理優(yōu)化創(chuàng)新,打造高可靠、高性能、易運(yùn)維推理服務(wù)。

圍繞高可靠

依托實(shí)例內(nèi)和實(shí)例間的多級(jí)容災(zāi)機(jī)制,保障業(yè)務(wù)連續(xù)性,提供長(zhǎng)穩(wěn)推理服務(wù)。圍繞高性能,進(jìn)行高并發(fā)請(qǐng)求調(diào)度、管理、轉(zhuǎn)發(fā)等,打造整個(gè)集群的高效數(shù)據(jù)請(qǐng)求管理入口。

圍繞易運(yùn)維

進(jìn)行集群內(nèi)推理業(yè)務(wù)狀態(tài)監(jiān)控、以及PD身份和資源管理與決策等,打造整個(gè)推理集群的狀態(tài)監(jiān)控器和決策大腦,持續(xù)提升大規(guī)模專家并行推理集群易用性。

在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的浪潮中,中國(guó)聯(lián)通始終勇立潮頭,全面發(fā)力人工智能。從精心搭建智算基礎(chǔ)設(shè)施,構(gòu)建強(qiáng)大算力“引擎”,到成功落地大規(guī)模專家并行推理集群,打造高性能低時(shí)延推理“中樞”,聯(lián)通元景大模型持續(xù)筑牢國(guó)產(chǎn)化智算底座,以技術(shù)需求雙輪驅(qū)動(dòng),打造“普惠速成”的元景MaaS平臺(tái),讓人工智能更簡(jiǎn)單,為 AI 產(chǎn)業(yè)發(fā)展注入強(qiáng)勁的“加速度”。

這一推理創(chuàng)新舉措必將助力各行業(yè)在復(fù)雜多變、競(jìng)爭(zhēng)激烈的市場(chǎng)環(huán)境中搶占先機(jī),以智能化驅(qū)動(dòng)數(shù)字化轉(zhuǎn)型,進(jìn)而推動(dòng)實(shí)體經(jīng)濟(jì)高質(zhì)量發(fā)展。

編 輯:T01
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
中興通訊董事長(zhǎng)李自學(xué):算力筑基、 AI 啟智,共迎數(shù)智化新紀(jì)元
精彩專題
通信產(chǎn)業(yè)2024年業(yè)績(jī)盤點(diǎn)
3·15權(quán)益日 | 共筑滿意消費(fèi) 守護(hù)信息通信安全防線
聚焦2025全國(guó)兩會(huì)
2025年世界移動(dòng)通信大會(huì)
CCTIME推薦
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱: 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像