作者:中國(guó)信息通信研究院人工智能研究所副總工程師,高級(jí)工程師 王蘊(yùn)韜
0 引言
自Transformer架構(gòu)提出以來(lái),圍繞其架構(gòu)的創(chuàng)新一直是產(chǎn)學(xué)研各界的研究焦點(diǎn)?傮w來(lái)看,對(duì)于其注意力機(jī)制的補(bǔ)丁式創(chuàng)新和替代性創(chuàng)新成為了主要研究方向。補(bǔ)丁式創(chuàng)新主要采用更為簡(jiǎn)單的算子或精度來(lái)模擬注意力機(jī)制的計(jì)算,替代性創(chuàng)新主要通過(guò)其他算法替代注意力機(jī)制來(lái)挖掘上下文關(guān)系。除此之外,越來(lái)越多回歸循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的算法架構(gòu)及對(duì)于多層感知機(jī)(Multi-Layer Perceptron,MLP)架構(gòu)的創(chuàng)新百花齊放,為未來(lái)算法架構(gòu)的創(chuàng)新探索打下了堅(jiān)實(shí)基礎(chǔ)。
1 Transformer的不可能三角
Transformer架構(gòu)的有效性很大程度上來(lái)源于注意力(Attention)機(jī)制,而注意力機(jī)制的特點(diǎn)在于其ON2的復(fù)雜度與多頭機(jī)制的并行性,這樣在詞元(Token)生成類任務(wù)上,由于每步的二次復(fù)雜度和KV緩存的內(nèi)存限制,在推理過(guò)程中往往表現(xiàn)出較低的效率。如果降低注意力機(jī)制的計(jì)算復(fù)雜度,能夠較好提升推理效率,但這就犧牲了模型精度和效果;基于傳統(tǒng)RNN的模型可以達(dá)到較好的效果和高效的推理效率,但由于沒(méi)有多頭機(jī)制,無(wú)法實(shí)現(xiàn)高效的并行訓(xùn)練,因此無(wú)法擴(kuò)大規(guī)模。因此,模型架構(gòu)面臨著一個(gè)不可能三角的問(wèn)題,分別是并行訓(xùn)練、低成本推理和良好的擴(kuò)展性能。如何平衡好這三點(diǎn),成為優(yōu)化與改進(jìn)Transformer結(jié)構(gòu)的核心指導(dǎo)思路。
2 針對(duì)Transformer自身的改進(jìn)
自2017年Attention is all you need論文發(fā)表以來(lái),以Transformer為核心架構(gòu)的大模型蓬勃發(fā)展,總體來(lái)看呈現(xiàn)出了兩類架構(gòu)演進(jìn)態(tài)勢(shì):一類是對(duì)Transformer模塊的改進(jìn);另一類是對(duì)Transformer子層的改進(jìn)。這些改進(jìn)主要是針對(duì)Transformer原始架構(gòu)進(jìn)一步提升上下文能力,減小計(jì)算量消耗,提升模型效率及可擴(kuò)展性。
2.1 針對(duì)Transformer模塊的改進(jìn)
針對(duì)Transformer模塊的改進(jìn)主要可以分為5個(gè)方向[1]。一是減少內(nèi)存占用和計(jì)算量。對(duì)于Transformer的核心優(yōu)化在于其消耗計(jì)算資源的自注意力機(jī)制(Self-Attention),目前主要通過(guò)減少不必要的計(jì)算和數(shù)據(jù)存儲(chǔ),優(yōu)化其計(jì)算效率,包括限制注意力的計(jì)算范圍,近似原始計(jì)算以降低復(fù)雜度,對(duì)基礎(chǔ)算子進(jìn)行優(yōu)化(如TimeMixer++[2]),采用模型壓縮和內(nèi)存優(yōu)化技術(shù)以及引入其他算法(如殘差自注意力、累積自注意力機(jī)制)。在實(shí)現(xiàn)這些改進(jìn)時(shí),需要在計(jì)算效率和模型性能之間取得平衡,確保在降低資源消耗的同時(shí),模型的準(zhǔn)確性和泛化能力不受顯著影響,代表性架構(gòu)還包括Lite Transformer[3]、Funnel Transformer[4]、DeLighT[5]、RealFormer[6]等。二是優(yōu)化自適應(yīng)計(jì)算時(shí)間。Transformer中順序計(jì)算的次數(shù)與輸入大小無(wú)關(guān),而只取決于層數(shù),這使得它在計(jì)算上不具備通用性或圖靈不完備。Transformer對(duì)所有輸入都使用相同的計(jì)算量將降低計(jì)算效率。因此以Universal Transformer[7]為代表的架構(gòu)應(yīng)運(yùn)而生,其特點(diǎn)是模型可以根據(jù)輸入數(shù)據(jù)的復(fù)雜程度,用RNN網(wǎng)絡(luò)來(lái)動(dòng)態(tài)學(xué)習(xí)并決定模型在每個(gè)位置上迭代的次數(shù),同時(shí)引入了一個(gè)停頓概率,來(lái)判斷模型在每個(gè)位置計(jì)算是否需要繼續(xù)迭代,直到滿足某個(gè)閾值條件為止,代表性架構(gòu)還包括Conditional Computation Transformer[8]、DeeBERT[9]。三是使用循環(huán)或分層的結(jié)構(gòu)。如Transformer-XL[10]通過(guò)引入相對(duì)位置編碼和段落級(jí)別的循環(huán)機(jī)制,能夠更好適應(yīng)不同長(zhǎng)度輸入,將前一段隱狀態(tài)作為當(dāng)前段輸入,以此形成循環(huán)機(jī)制,既能夠更好保持長(zhǎng)序列信息,又能夠更好利用段落的上下文信息,通過(guò)循環(huán)機(jī)制有效解決了標(biāo)準(zhǔn)Transformer在處理長(zhǎng)序列時(shí)的局限性,代表性架構(gòu)還包括Compressive Transformer[11]、Memformer[12]。又如Hi-Transformer[13]使用了分層的設(shè)計(jì)方法,將輸入數(shù)據(jù)分成不同的層次進(jìn)行處理,通過(guò)在較高層次上聚合信息,使模型能夠更好地捕捉全局上下文,代表性架構(gòu)還包括HIBERT[14]、Vision Transformer[15]、TimeSformer[16]。四是使用其他方式對(duì)Transformer架構(gòu)進(jìn)行優(yōu)化,如可微分架構(gòu)搜索(Differentiable Architecture Search)[17]使用了神經(jīng)架構(gòu)搜索架構(gòu)搜索最佳網(wǎng)絡(luò)結(jié)構(gòu),又如Macaron Transformer[18]通過(guò)自注意力層和前饋網(wǎng)絡(luò)層交替排列的方式實(shí)現(xiàn)特征提取和上下文建模之間更好的融合,代表性架構(gòu)還包括Sandwich Transformer[19]。
2.2 針對(duì)Transformer子層的改進(jìn)
總體來(lái)看,Transformer模塊一般包括4個(gè)子層:位置編碼;多頭注意力(Multi-head attention);層歸一化的殘差連接;位置前饋網(wǎng)絡(luò)。
目前針對(duì)多頭注意力機(jī)制的改進(jìn)較多,主要聚焦于降低注意力機(jī)制的計(jì)算復(fù)雜度,或改變注意力機(jī)制使其能夠?qū)W習(xí)更多的內(nèi)容。許多方法可以降低注意力機(jī)制的復(fù)雜性[20]。一是采用低階近似值的方式降低注意力機(jī)制計(jì)算復(fù)雜度,如Linformer[21]、Performer[22]、Nystromformer[23]、Synthesizer[24]。二是使用稀疏的注意力機(jī)制,將注意力機(jī)制的復(fù)雜性降低到序列長(zhǎng)度的線性,如Longformer[25]通過(guò)固定給定令牌可以參加的位置來(lái)增加稀疏性。又如Reformer[26],通過(guò)對(duì)輸入令牌進(jìn)行排序或聚類來(lái)引入可學(xué)習(xí)的稀疏性,代表性架構(gòu)還包括Big Bird[27]、Performer[28]、Routing Transformer[29]。三是改進(jìn)多頭注意力機(jī)制,如注意力頭被允許相互交流或共享信息[30],學(xué)習(xí)最佳的注意力跨度,并在不同的注意力頭中使用不同的注意力跨度,代表性架構(gòu)包括Talking-heads Attention[31]、Multi-Scale Transformer[32]、Mixture of Head Attention[33]。
對(duì)于位置編碼來(lái)說(shuō),目前主要使用了四種位置編碼方式進(jìn)行優(yōu)化:絕對(duì)位置編碼(如標(biāo)準(zhǔn)變換器的位置編碼);相對(duì)位置編碼(例如在Transformer-XL中);具有絕對(duì)和相對(duì)位置信息的混合編碼(如Roformer[34]);以其他方式提供序列順序信息的隱式編碼(如R-Transformer[35])。
在殘差連接以及前饋網(wǎng)絡(luò)方面,主要修訂包括改變多頭注意力機(jī)制和位置前饋網(wǎng)絡(luò)后的殘差塊,包括設(shè)置層歸一化的位置、用其他方式替換層歸一化、完全刪除層歸一化,或引入逆殘差層以節(jié)省內(nèi)存(用于Reformer)。對(duì)于改變位置前饋網(wǎng)絡(luò)的方法,包括改變激活函數(shù)、增加其表征能力或刪除前饋網(wǎng)絡(luò)等也都涉及到了相關(guān)的修改。近期英偉達(dá)推出了nGPT[36]架構(gòu),對(duì)包括嵌入、多層感知機(jī)(MLP)、注意力矩陣、隱藏狀態(tài)等向量全部在超球面上歸一化為單位范數(shù),實(shí)現(xiàn)了上下文越長(zhǎng),訓(xùn)練速度越快。
3 Transformer與其他架構(gòu)的結(jié)合
除了對(duì)于Transformer自身架構(gòu)進(jìn)行調(diào)整和完善,產(chǎn)業(yè)界和學(xué)術(shù)界也都圍繞提升模型效率、可擴(kuò)展性及其性能做了架構(gòu)創(chuàng)新,采用了Transformer架構(gòu)與其他架構(gòu)混合的方式進(jìn)行探索,以發(fā)揮各自的優(yōu)勢(shì),提升模型的整體性能。
3.1 CNN與Transformer的結(jié)合
盡管Transformer在自然語(yǔ)言處理中表現(xiàn)出色,但在圖像處理中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在特定任務(wù)上仍然具有效率和結(jié)構(gòu)優(yōu)勢(shì);旌霞軜(gòu)利用Transformer的長(zhǎng)程依賴處理能力以及CNN的局部特征提取能力,在需要同時(shí)關(guān)注細(xì)節(jié)和全局信息的任務(wù)中取得了優(yōu)異表現(xiàn)。如Swin Transformer引入了局部注意力機(jī)制,與卷積操作進(jìn)行結(jié)合,表現(xiàn)了良好的擴(kuò)展性和效率;視覺(jué)Transformer(Vision Transformer, ViT)將圖像劃分為小塊,然后使用Transformer處理,以捕獲全局的圖像特征;Conformer在語(yǔ)音識(shí)別中,將CNN和Transformer結(jié)合,既能提取局部特征,又能建模長(zhǎng)距離依賴;ConvNeXt使用改進(jìn)的卷積操作和網(wǎng)絡(luò)架構(gòu),能夠捕捉長(zhǎng)距離依賴關(guān)系,實(shí)現(xiàn)全局信息的融合,與自注意力機(jī)制的功能相似。
3.2 RNN與Transformer的結(jié)合
盡管Transformer在處理長(zhǎng)序列時(shí)表現(xiàn)優(yōu)異,但RNN(尤其是LSTM和GRU)在建模時(shí)間序列或動(dòng)態(tài)序列任務(wù)上仍具優(yōu)勢(shì)。將RNN的動(dòng)態(tài)序列建模能力與Transformer的全局依賴能力結(jié)合,可能在某些任務(wù)上實(shí)現(xiàn)突破。如LSTM + Transformer架構(gòu)作為一種混合深度模型,近年來(lái)在學(xué)術(shù)界和工業(yè)界都受到了極大的關(guān)注,該混合架構(gòu)在序列分析任務(wù)上取得了絕佳表現(xiàn),在文本生成、機(jī)器翻譯、時(shí)間序列預(yù)測(cè)等多個(gè)領(lǐng)域取得了突破性進(jìn)展,架構(gòu)如BiLSTM-Transformer[37],以及本文第二部分提到的Transformer-XL和Universal Transformer,包括更早些時(shí)候如2019年提出的R-Transformer、Compressive Transformer等都是代表性案例,同時(shí)如RNN + Transformer架構(gòu)在教學(xué)系統(tǒng)應(yīng)用[38]、神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯[39]、語(yǔ)音識(shí)別[40]等都取得了優(yōu)異表現(xiàn)。
3.3 GNN與Transformer的結(jié)合
圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks, GNN)在處理圖結(jié)構(gòu)數(shù)據(jù)(如社交網(wǎng)絡(luò)、知識(shí)圖譜、分子結(jié)構(gòu)等)方面具有獨(dú)特優(yōu)勢(shì),并逐漸發(fā)展出一些適合擴(kuò)展到大模型的架構(gòu)。Transformer可以擴(kuò)展GNN的感知范圍,GNN可以幫助Transformer捕捉復(fù)雜的圖結(jié)構(gòu)信息,并有效從相鄰節(jié)點(diǎn)聚合信息。如圖注意力網(wǎng)絡(luò)(Graph Attention Networks,GAT)引入了圖數(shù)據(jù)的注意力機(jī)制,能夠讓節(jié)點(diǎn)動(dòng)態(tài)調(diào)整其鄰居的重要性,類似于Transformer的注意力機(jī)制,但適用于圖結(jié)構(gòu)。隨著數(shù)據(jù)規(guī)模的擴(kuò)大,GAT的改進(jìn)模型,如Graphormer、圖變換網(wǎng)絡(luò)(Graph Transformer Network,GTN)不斷在處理大規(guī)模復(fù)雜圖數(shù)據(jù)上取得進(jìn)展。
3.4 混合專家系統(tǒng)
混合專家模型(Mixture of Experts, MoE)指將多個(gè)子模型(專家模型)組合起來(lái)的架構(gòu),可以在處理復(fù)雜任務(wù)時(shí)根據(jù)輸入的不同特征動(dòng)態(tài)選擇激活某些專家子模型。這種架構(gòu)特別適合大規(guī)模分布式系統(tǒng)。如GShard和Switch Transformer模型,通過(guò)引入大量的專家子模型,根據(jù)輸入動(dòng)態(tài)選擇活躍的專家,極大地提升了模型容量和性能。又如早期的稀疏門控專家混合模型(Sparsely-Gated Mixture of Experts),通過(guò)稀疏激活的方式來(lái)僅調(diào)用一部分專家網(wǎng)絡(luò),減少計(jì)算資源的消耗。近期出現(xiàn)的混合專家統(tǒng)一轉(zhuǎn)換器(Mixture-of-Experts Universal Transformers,MoEUT)[41]允許統(tǒng)一轉(zhuǎn)換器(Universal Transformers,UT)以計(jì)算和內(nèi)存高效的方式進(jìn)行擴(kuò)展,解決了UT基礎(chǔ)計(jì)算參數(shù)比問(wèn)題。隨著計(jì)算資源和模型規(guī)模的增加,MoE的架構(gòu)可能成為未來(lái)大模型架構(gòu)的一個(gè)重要方向。
4 非Transformer架構(gòu)的算法創(chuàng)新
自2022年以來(lái),也出現(xiàn)了一些新的非Transformer的算法和架構(gòu),主要?jiǎng)?chuàng)新點(diǎn)在于對(duì)于注意力機(jī)制的替代,完全脫離了Transformer架構(gòu)中最為核心的QKV及前饋神經(jīng)網(wǎng)絡(luò)(Feed-Forward Neural Network,F(xiàn)FN)的算法體系,同樣得到了學(xué)術(shù)界及產(chǎn)業(yè)界的關(guān)注,甚至在某些領(lǐng)域已經(jīng)取得了超過(guò)Transformer架構(gòu)的性能表現(xiàn)。
4.1 回歸RNN架構(gòu)的創(chuàng)新
RNN架構(gòu)憑借強(qiáng)大的順序和上下文感知能力曾在各類任務(wù)上表現(xiàn)驚艷,但受到反向訓(xùn)練瓶頸,因規(guī)模定律(Scaling Law)而跌落神壇,但如RWKV、Mamba、xLSTM等RNN衍生模型接連出現(xiàn),在多項(xiàng)任務(wù)中取得了超過(guò)Transformer的優(yōu)異表現(xiàn)。
RWKV[42]模型將RNN的時(shí)間遞歸特性與Transformer的并行計(jì)算能力相結(jié)合。它采用類似RNN的結(jié)構(gòu),但在訓(xùn)練和推理時(shí)具備Transformer級(jí)別的性能,能夠高效處理長(zhǎng)序列數(shù)據(jù)。RWKV在開(kāi)源社區(qū)受到熱烈關(guān)注。一些開(kāi)發(fā)者開(kāi)始在自然語(yǔ)言處理任務(wù)中應(yīng)用RWKV,以驗(yàn)證其在實(shí)際場(chǎng)景中的性能和效率。
狀態(tài)空間模型(State Space Model,SSM)[43]利用連續(xù)時(shí)間的線性動(dòng)態(tài)系統(tǒng),通過(guò)遞歸和卷積操作,高效建模長(zhǎng)序列數(shù)據(jù)。S4模型是其中的代表,采用特殊的參數(shù)化方法,使得模型在處理長(zhǎng)序列時(shí)既高效又穩(wěn)定。SSM和S4在語(yǔ)音識(shí)別、時(shí)間序列預(yù)測(cè)等任務(wù)中表現(xiàn)出色,受到學(xué)術(shù)界的重視。一些研究者開(kāi)始將其應(yīng)用于自然語(yǔ)言處理等領(lǐng)域。S5模型是對(duì)S4的改進(jìn),進(jìn)一步優(yōu)化了狀態(tài)空間模型的計(jì)算效率和穩(wěn)定性。通過(guò)結(jié)合循環(huán)、卷積和連續(xù)時(shí)間模型的優(yōu)勢(shì),S5能夠高效并行地處理超長(zhǎng)序列數(shù)據(jù)。
Mamba架構(gòu)[44]受益于SSM的思想,在S4的基礎(chǔ)上增加了選擇機(jī)制,因此Mamba架構(gòu)有時(shí)也被稱為S6。它通過(guò)高效的自注意力機(jī)制、層次化特征提取和適應(yīng)性計(jì)算來(lái)減少計(jì)算復(fù)雜度和內(nèi)存占用,同時(shí)增強(qiáng)對(duì)輸入序列的理解能力。與傳統(tǒng)Transformer相比,Mamba在計(jì)算效率和性能上都有顯著提升,尤其在自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)任務(wù)中表現(xiàn)優(yōu)越。該架構(gòu)已在學(xué)術(shù)界和產(chǎn)業(yè)界獲得關(guān)注并應(yīng)用于多種復(fù)雜任務(wù)。
xLSTM架構(gòu)[45]采用更復(fù)雜的門控結(jié)構(gòu),提高了對(duì)輸入、遺忘和輸出信息的管理能力,有效解決了RNN可能的梯度消失問(wèn)題,同時(shí)它引入了選擇性記憶機(jī)制,允許模型在每個(gè)時(shí)間步選擇性地更新?tīng)顟B(tài),而并非強(qiáng)制更新所有狀態(tài),同時(shí)該架構(gòu)允許一定程度的并行計(jì)算,提升了處理長(zhǎng)序列時(shí)的計(jì)算效率。與Transformer相比,xLSTM需要更少的計(jì)算資源,因此對(duì)于實(shí)時(shí)或資源受限的應(yīng)用場(chǎng)景更為合適。
近期,Bengio團(tuán)隊(duì)對(duì)傳統(tǒng)的兩種RNN架構(gòu)LSTM和GRU進(jìn)行了大刀闊斧的改造,從中誕生了兩個(gè)新模型:minLSTM和minGRU[46],通過(guò)從其輸入、遺忘和更新門中刪除其隱藏的狀態(tài)依賴關(guān)系,將不再需要反向傳播計(jì)算,同時(shí)二者使用的參數(shù)比傳統(tǒng)版本大量減少,且在訓(xùn)練期間能夠?qū)崿F(xiàn)完全的并行化(長(zhǎng)度為512序列速度提高了175倍,長(zhǎng)度為4 096序列速度提高了1 300倍),實(shí)現(xiàn)了和Mamba類似的效率。
4.2 非注意力機(jī)制的創(chuàng)新
Hyena Hierarchy[47]是一種基于長(zhǎng)距離卷積的序列建模方法,旨在替代Transformer中的注意力機(jī)制。它通過(guò)分層的卷積操作,能夠高效捕獲序列中的長(zhǎng)程依賴關(guān)系,同時(shí)顯著降低計(jì)算復(fù)雜度和內(nèi)存占用。Hyena在學(xué)術(shù)界引起了廣泛關(guān)注,被認(rèn)為是可能替代Transformer的高效架構(gòu)之一。目前,該模型正處于研究和實(shí)驗(yàn)階段,實(shí)際應(yīng)用還在探索中。
RetNet[48]引入了保留機(jī)制(Retention Mechanism),作為Transformer中自注意力機(jī)制的替代。該機(jī)制通過(guò)參數(shù)化的指數(shù)衰減函數(shù),隱式地捕獲序列中的依賴關(guān)系,具有線性計(jì)算復(fù)雜度和更好的擴(kuò)展性。RetNet由Meta AI提出,作為一種新興的序列建模架構(gòu),引起了學(xué)術(shù)界的興趣。目前,研究者們正對(duì)其在大規(guī)模語(yǔ)言模型中的性能進(jìn)行評(píng)估。
MLP-Mixer[49]是谷歌公司在2021年提出的模型,但在2022年及以后仍有廣泛的研究和應(yīng)用。該模型完全基于MLP,沒(méi)有使用卷積或自注意力機(jī)制。MLP-Mixer通過(guò)交替應(yīng)用Token-Mixing和Channel-Mixing層,能夠在整個(gè)序列范圍內(nèi)混合信息,捕捉長(zhǎng)距離依賴關(guān)系,實(shí)現(xiàn)了與自注意力機(jī)制類似的全局信息交互。
ConvMixer[50]將卷積操作與MLP-Mixer架構(gòu)相結(jié)合,提出了一種純卷積的模型,能夠在不使用自注意力機(jī)制的情況下達(dá)到與Transformer類似的性能。該模型通過(guò)對(duì)圖像進(jìn)行分塊并應(yīng)用深度卷積,實(shí)現(xiàn)高效的特征提取和融合。ConvMixer在圖像分類任務(wù)中取得了競(jìng)爭(zhēng)性的結(jié)果,引起了計(jì)算機(jī)視覺(jué)領(lǐng)域的興趣。一些研究正在探索其在其他任務(wù)和領(lǐng)域中的應(yīng)用潛力。
FNet[51]同樣由谷歌公司于2021年提出,使用傅里葉變換替代了自注意力機(jī)制。模型通過(guò)對(duì)輸入序列應(yīng)用二維快速傅里葉變換,將時(shí)間域的信息轉(zhuǎn)換到頻域。在傅里葉變換后,應(yīng)用非線性激活和前饋網(wǎng)絡(luò),豐富特征表示。傅里葉變換具有全局性,可以快速捕捉序列中所有位置之間的關(guān)系,實(shí)現(xiàn)在頻域內(nèi)的全局信息交互,從而替代自注意力機(jī)制。
總體來(lái)看,非Transformer架構(gòu)之所以能夠?qū)崿F(xiàn)與自注意力機(jī)制相同的功能,一是在于采用了不同算法實(shí)現(xiàn)了全局信息交互,這些模型通過(guò)傅里葉變換、長(zhǎng)卷積、跨位置的MLP等方式,實(shí)現(xiàn)了在序列中全局范圍的信息混合和交互,能夠捕捉到長(zhǎng)距離的依賴關(guān)系。二是能夠?qū)崿F(xiàn)相較自注意力機(jī)制更為簡(jiǎn)單的計(jì)算方式。相比自注意力機(jī)制的O(n2)時(shí)間復(fù)雜度,這些模型采用了O(n\logn)或O(n)的計(jì)算方式,提高了對(duì)長(zhǎng)序列的處理效率。三是能夠有效捕捉長(zhǎng)距離依賴關(guān)系。通過(guò)遞歸、卷積和頻域轉(zhuǎn)換等方法,這些模型能夠有效地對(duì)序列中遠(yuǎn)距離元素之間的關(guān)系進(jìn)行建模,與自注意力機(jī)制的核心功能相當(dāng)。四是能夠?qū)崿F(xiàn)模型參數(shù)的壓縮和優(yōu)化。上述模型采用參數(shù)共享、分層結(jié)構(gòu)等方式,減少模型參數(shù)數(shù)量,降低計(jì)算和存儲(chǔ)成本。
4.3 多層感知機(jī)架構(gòu)的創(chuàng)新
柯?tīng)柲缏宸?阿諾爾德網(wǎng)絡(luò)(Kolmogorov-Arnold Network,KAN)[52]是基于柯?tīng)柲缏宸?阿諾爾德超越定理的一種神經(jīng)網(wǎng)絡(luò)架構(gòu)。該定理由蘇聯(lián)數(shù)學(xué)家安德雷·柯?tīng)柲缏宸蚝退膶W(xué)生弗拉基米爾·阿諾德提出,指出任何多元連續(xù)函數(shù)都可以表示為一系列一元連續(xù)函數(shù)的有限組合。這為神經(jīng)網(wǎng)絡(luò)的構(gòu)建提供了理論基礎(chǔ),使得可以通過(guò)一元函數(shù)的組合來(lái)逼近任意復(fù)雜的多元函數(shù)。根據(jù)萬(wàn)能逼近定理,為了提升模型精度,需要不斷提升模型的寬度,如果需要做出一個(gè)無(wú)窮精度的模型,則需要訓(xùn)練一個(gè)無(wú)窮寬度的網(wǎng)絡(luò),這顯然是不可行的。KAN網(wǎng)絡(luò)使用一元函數(shù)的組合來(lái)逼近多元函數(shù)的方法,相當(dāng)于提出了一個(gè)用有限大小網(wǎng)絡(luò)實(shí)現(xiàn)無(wú)窮精度模型的方式,如果說(shuō)多層感知機(jī)是對(duì)大腦中的神經(jīng)元模仿,那么KAN更像是視網(wǎng)膜中神經(jīng)元的模仿,其節(jié)點(diǎn)和節(jié)點(diǎn)間鏈接與傳統(tǒng)多層感知機(jī)網(wǎng)絡(luò)正好顛倒了過(guò)來(lái)。目前為止,KAN網(wǎng)絡(luò)可以僅通過(guò)三層架構(gòu)方式就擬合絕大部分復(fù)雜函數(shù),但這只是理論數(shù)據(jù),尚未有實(shí)驗(yàn)數(shù)據(jù)就KAN與Transformer架構(gòu)進(jìn)行對(duì)比。
5 大語(yǔ)言模型架構(gòu)未來(lái)發(fā)展淺析
預(yù)測(cè)下一個(gè)Token是否就能實(shí)現(xiàn)通用智能的論斷仍存在爭(zhēng)論,規(guī)模定律還能延續(xù)多久也難以判斷,但可以看到的是,“分久必合,合久必分”的態(tài)勢(shì)再次得到了印證,收斂至Transformer的算法架構(gòu)再次呈現(xiàn)了發(fā)散態(tài)勢(shì)。
中短期來(lái)看,預(yù)訓(xùn)練大模型路線將持續(xù)收獲規(guī)模定律(Scaling Law)紅利。正如薩頓所說(shuō),以算力提升模型水平仍有較大的探索空間。隨著RNN、Transformer等新老架構(gòu)的不斷革新,更為精細(xì)經(jīng)濟(jì)的尺度定律將平衡好參數(shù)、數(shù)據(jù)及算力的關(guān)系,在保持性能的基礎(chǔ)上有效降低參數(shù)規(guī)模,從而降低計(jì)算成本。
長(zhǎng)期來(lái)看,非Transformer的其他人工智能技術(shù)創(chuàng)新同樣更需要重視。人工智能在問(wèn)題求解、知識(shí)推理和規(guī)劃、不確定知識(shí)和不確定推理、溝通、感知和行動(dòng)等領(lǐng)域也同樣取得了重要進(jìn)展。在大模型之前出現(xiàn)的眾多算法,如強(qiáng)化學(xué)習(xí)(2015年)、進(jìn)化算法(2002年)、記憶增強(qiáng)網(wǎng)絡(luò)(2014年)、膠囊網(wǎng)絡(luò)(2017年)、元學(xué)習(xí)(2017年)、持續(xù)學(xué)習(xí)(2017年)、認(rèn)知架構(gòu)(1990年)、生物啟發(fā)計(jì)算模型(2015年)等概念也在各自領(lǐng)域發(fā)揮著關(guān)鍵作用。隨著Transformer算法的發(fā)散,能夠持續(xù)發(fā)揮規(guī)模定律的新架構(gòu)有較大概率仍通過(guò)對(duì)已有架構(gòu)的創(chuàng)新融合來(lái)實(shí)現(xiàn),過(guò)于超前的架構(gòu)難以形成學(xué)術(shù)與產(chǎn)業(yè)的可持續(xù)閉環(huán),也無(wú)法與已有計(jì)算設(shè)施高效銜接,但同樣需要注意的是,不同于傳統(tǒng)數(shù)字芯片的模擬新計(jì)算范式或創(chuàng)新提速,光電計(jì)算、量子計(jì)算、生物計(jì)算等其他計(jì)算范式探索也將邁出堅(jiān)實(shí)步伐。
6 結(jié)束語(yǔ)
基于Transformer架構(gòu)的補(bǔ)丁式創(chuàng)新主要涌現(xiàn)于架構(gòu)剛提出時(shí)期,近兩年則主要聚焦于注意力機(jī)制以及多層感知網(wǎng)絡(luò)的替換式創(chuàng)新,重新回歸改進(jìn)后能夠并行計(jì)算的RNN架構(gòu)也成為近期研究熱點(diǎn)。除架構(gòu)創(chuàng)新外,在推理階段依托強(qiáng)化學(xué)習(xí)思維鏈增加推理能力,或通過(guò)提升模型精度等方式,為繼續(xù)收獲規(guī)模定律提出了短期新思路,但實(shí)現(xiàn)通用人工智能路徑萬(wàn)千,未來(lái)其他尚未被工業(yè)界驗(yàn)證的“隱形賽道”架構(gòu)仍需更多理論研究和實(shí)踐探索。