誰將替代 Transformer？

本文作者：張進

2024-03-27 19:06

導語：非 Transformer 面臨的共同考驗依然是證明自己的天花板有多高。

【雷峰網(公眾號：雷峰網)】2017年谷歌發表的論文《Attention Is All You Need》成為當下人工智能的一篇圣經，此后席卷全球的人工智能熱潮都可以直接追溯到 Transformer 的發明。

Transformer 由于其處理局部和長程依賴關系的能力以及可并行化訓練的特點，一經問世，逐步取代了過去的 RNN（循環神經網絡）與 CNN（卷積神經網絡），成為 NLP（自然語言處理）前沿研究的標準范式。

今天主流的 AI 模型和產品——OpenAI 的ChatGPT、谷歌的 Bard、Anthropic 的 Claude，Midjourney、Sora到國內智譜 AI 的 ChatGLM 大模型、百川智能的 Baichuan 大模型、Kimi chat 等等——都是基于Transformer 架構。

Transformer 已然代表了當今人工智能技術無可爭議的黃金標準，其主導地位至今無人能撼動。

在Transformer 大行其道的同時，出現了一些反對的聲音，如：“Transformer 的效率并不高”；“Transformer 的天花板很容易窺見”；“Transformer 是很好，但并不能實現 AGI，實現一個world model（世界模型）”。

這是因為 Transformer 的強大之處同時也是它的弱點：Transformer 中固有的自注意力機制（attention）帶來了挑戰，主要是由于其二次復雜度造成的，這種復雜度使得該架構在涉及長輸入序列或資源受限情況下計算成本高昂且占用內存。

簡單點說，這意味著當 Transformer 處理的序列長度（例如，段落中的單詞數量或圖像的大小）增加時，所需的算力就會按該序列的平方增加，從而迅速變得巨大，因此有說法認為“Transformer 效率不高”。這也是當下人工智能熱潮引發了全球算力短缺的主要原因。

基于 Transformer 的局限性，許多非 Transformer 架構順勢提出，其中包括中國的 RWKV、Meta 的 Mega、微軟亞研的 Retnet、Mamba、DeepMind 團隊的 Hawk 和 Griffin 等——它們都是在 Transformer 一統大模型研發江湖之后陸續被提出來的。

他們大多在原來的 RNN 基礎上，針對 Transformer 的缺陷和局限性來做改進，試圖研究出所謂的「高效 Transformer」（efficient Transformer）結構，一個更像人類思考的架構。

其中 efficient Transformer 是指占用的內存更小、訓練和推理過程中的計算成本更小的模型，試圖來推翻Transformer 的霸權。

當前的非 Transformer 架構研究正走向何方？

現在主流的非 Transformer 研究基本都是針對 attention 機制去優化 full attention 的部分，然后想辦法將這一部分變成一個 RNN 模型，以此提高推理的效率。

attention 是 Transformer 的核心——Transformer 模型之所以如此強大，是因為它拋棄了之前廣泛采用的循環網絡和卷積網絡，而采用了一種特殊的結構——注意力機制（attention）來建模文本。

attention 使模型能夠考慮單詞之間的關系、不管它們相距多遠，并確定段落中哪些單詞和短語最值得關注。

這種機制使得 Transformer 實現了語言處理的并行化，即同時分析特定文本中的所有單詞，而不是按順序分析。Transformer 的并行化使它們對所讀所寫的文本有了更全面、更準確的理解，也使得它們比 RNN 具有更高的計算效率和可擴展性。

相比之下，循環神經網絡（RNNs）面臨梯度消失的問題，使得它們難以對長序列進行訓練，此外，在訓練過程中無法在時間上并行化，進而限制了其可擴展性；卷積神經網絡（CNNs）只擅長捕捉局部模式，在長程依賴方面還很欠缺，而這對于許多序列處理任務至關重要。

但是 RNNs 的優勢在于 RNN 模型做推理時，復雜度是恒定的，所以內存和計算需求是呈線性增長，相對于 Transformer 在序列長度上的內存和計算復雜性呈二次方增長，RNN 的內存與計算需求更低。因此，今天很多非 Transformer 研究都循著“保留 RNN 優勢的同時，試圖達到 Transformer 性能”的方向去努力。

基于這一目標，今天的非 Transformer 技術研究主要分為兩個流派：

流派一是以 RWKV、 Mamba 和 S4 為代表，它們完全用 recurrent（循環）結構去替代 attention。這種思路是用一個固定的內存記住前面的信息，但目前看來雖然可以記住一定長度，但要達到更長的長度是有難度的。

還有一個流派是把 full attention 這種密集結構變得稀疏，例如 Meta 的 Mega，在之后的計算中不再需要算所有 attention 矩陣中的每一個元素，模型效率也隨之變高。

具體分析各個非 Transformer 模型，其中 RWKV 是國產開源的首個非 Transformer 架構的大語言模型，目前已經迭代至第六代 RWKV-6。RWKV 的作者彭博在 2022 年 5 月開始訓練 RWKV-2，當時只有 1 億（100M）參數規模，后續在 2023 年 3 月又訓練出了 RWKV-4 140億（14B）的參數版本。

彭博曾告訴 AI 科技評論，為什么他要做一個跟 Transformer 架構不同的模型：

“因為這個世界本身就不是基于 Transformer 的邏輯去做推理來運轉的，這個世界的運轉規律是基于類似 RNN 結構的——這個世界的下一秒，不會跟你過去所有的時間、所有的信息相關聯，只會跟你的上一秒相關聯。而 Transformer 要辨認所有的 token，這是不合理的。”

所以 RWKV 用 linear attention（線性注意力機制）去近似 full attention，試圖結合 RNN 和 Transformer 的優點，同時規避兩者的缺點，來緩解 Transformer 所帶來的內存瓶頸和二次方擴展問題，實現更有效的線性擴展，同時提供并行訓練和可擴展性，類似于 Transformer。簡而言之，主打高性能、低能耗、占用內存小。

而此前討論較多的 Mamba，其論文作者有兩位，一位是卡內基梅隆大學機器學習系助理教授 Albert Gu，另一位是Together.AI 首席科學家的 Tri Dao。

他們在論文中稱，Mamba是一個新的 SSM 架構，在語言建模方面，無論是預訓練還是下游評估，他們的 Mamba-3B 模型都優于同等規模的 Transformer 模型，并能與兩倍于其規模的 Transformer 模型相媲美，還可以隨上下文長度的增加實現線性擴展，其性能在實際數據中可提高到百萬 token 長度序列，并實現 5 倍的推理吞吐量提升。

一位非 Transformer 研究者告訴AI科技評論，Mamba 完全只用 recurrent（循環）結構，不用 attention，所以它在做下一個 token 的預測時，其內存大小永遠固定，并不會隨時間增加而增加；但它的問題在于滾動的過程中 memory 非常小，即其外推能力也比較弱。

上述研究者認為，微軟亞研提出的 RetNet，走的也是完全 recurrent 思路。RetNet 引入了一種多尺度 retention 機制來替代多頭注意力，它有三種計算范式：并行、循環和分塊循環表征。

論文中稱，RetNet 的推理成本與長度無關。對于 7B 模型和 8k 序列長度，RetNet 的解碼速度是帶鍵值緩存的 Transformers 的 8.4 倍，內存節省 70%。

在訓練過程中，RetNet 也能夠比標準 Transformer 節省 25-50% 的內存，實現 7 倍的加速，并在高度優化的 FlashAttention 方面具有優勢。此外，RetNet 的推理延遲對批處理大小不敏感，從而實現了巨大的吞吐量。

Meta 提出的 Mega 則代表了非 Transformer 研究的第二種技術路線。Mega 的思路是把 recurrent 和變稀疏的attention 矩陣結合起來。

Mega 的核心研究人員之一 Max 告訴 AI 科技評論，attention 有它不可替代的作用，只要把它的復雜度限制在一定范圍內，就能達到想要的效果。Mega 用了很長時間研究如何把 recurrent 和 attention 結合在一起才能最高效。

所以 Mega 還是采用了 attention 結構，只不過把 attention 限制在了一個固定的 window（窗口）范圍內，同時結合了類似 Mamba 的滾動記憶形式，只不過 Mega 的滾動形式要簡化許多，所以整個計算速度很快。

「滾動記憶」是指，所有的 efficient Transformer 都是把 recurrent 循環結構引入到 Transformer 中，類似于模型先看一段歷史、記住，再看下一段歷史，更新記憶，可能第一段歷史記憶就沒必要都記住了，忘掉一些，再把第二段需要記住的加到整個歷史中，以此不斷往前滾動著記憶。

這樣記憶的好處是模型可以有一個固定長度的滾動記憶，不會隨著時間增加而讓 memory 也要增加，但它的問題是很多時候，某些特殊任務在最后時刻都不知道前面記憶中有哪些是有用的、哪些是沒用的，這種滾動式記憶就很難完成。

Mega 在跟 llama 同樣的數據上訓練，再跟 llama2 去做公平的比較，發現在同樣的數據情況下，Mega2 的效果比llama2 要好很多。同時 Mega 預訓練采用 32K 窗口大小，Transformer 用同樣 32K 的窗口大小速度比 Mega2 慢很多，如果 window size 再變大，Mega 優勢會越來越明顯。目前 Mega2 已經訓到了 7B 大小。

DeepMind 團隊提出的 Hawk 和 Griffin 同樣認為沒有 attention 是不行的，屬于 gated linear RNN，跟 Mega 一樣屬于混合模型。

除 RWKV，國內巖芯數智也發布了非 Attention 機制的通用自然語言大模型——Yan 模型。巖芯數智 CTO 劉凡平稱，Yan 跟線性的 Attention 和 RNN 沒有任何關系，Yan 架構的大模型去除了 Transformer 中高成本的注意力機制，代之以計算量更小、難度更低的線性計算，提高了建模效率和訓練速度，實現了效率的提升和成本的降低。

Transformer 能否被顛覆？

雖然當下非 Transformer 研究提出的并不少，從測評效果上來看，跟同等規模大小的 Transformer 相比，表現普遍超過 Transformer，但它們共同面臨的考驗和質疑是：當它們的規模被放大到今天 Transformer 模型的大小時，是否還能繼續展示出強大的性能和效率提升？

其中參數最大的 RWKV 有 140 億參數，背靠 Meta 的 Mega 有 70 億參數，而 GPT-3 有 1750 億參數，GPT-4 傳聞有 1.8 萬億參數，這意味著非 Transformer 急需訓練出一個千億模型來證明自己。

非 Transformer 研究中最具代表性的 RWKV，已經走得非常靠前——其背后的元始智能目前已經完成了上千萬元的種子輪融資；據了解國內已經有一些公司在嘗試用 RWKV 來訓練模型；過去的一年里，RWKV 在 To C、To B 也有局部落地。

然而，有多位投資人告訴 AI 科技評論曾糾結是否要投 RWKV，賭一下非 Transformer 時，因為內部分歧太大——不敢堅信非 Transformer 能跑出來，最后都放棄了。

現階段來看，基于現有硬件的算力基礎，用 Transformer 去做端側大模型的難度很高，還是需要在云上完成計算推理等工作，而且應答速度不如人意，終端用戶很難接受。

有業內人士告訴 AI 科技評論，“在端側，RWKV并不一定是最優解，因為隨著半導體發展，AI 芯片越來越進化，未來在硬件、算力、能源上的成本，最終都會被攤平，未來大模型可以輕松地直接跑在終端上，不再需要花費大力氣從底層架構來做出改變。未來有一天會達到這樣一個臨界點的。”

RWKV 的方式是從框架層操作，把框架輕量化了以后，可以讓模型在本地運算。但也有一位投資人提出觀點，認為非 Transformer 的理想狀態是必須達到 OpenAI 的水平再來講輕量化，“而不是為了小而小，為了本地化而本地化”。

上述投資人評價 RWKV “麻雀雖小，五臟俱全”，總體體驗感能達到 GPT-3.5 的 60 分，但并不知道最后能否達到 GPT 的 80 分、90 分。這也是非 Transformer 的問題所在，即如果舍棄了框架的復雜度、可能會犧牲上限的天花板。

有接近 OpenAI 的人士告訴 AI 科技評論，OpenAI 內部其實曾經測試過 RWKV，但后面還是放棄了這一路線，因為“可能從長期來看它的天花板還未顯現，實現 AGI 的可能性不大”。

證明自己的天花板有多高，成為了所有非Transformer 架構需要共同面臨的考驗。

一些模型研究人員稱，Transformer 做文本大模型還沒有達到它的天花板，畢竟 scaling law 還沒有失效，Transformer 的瓶頸或許還是在生成序列長度更長的領域，例如在視頻生成的多模態領域，而多模態是未來實現 AGI 的必經之路，如此看來，上下文窗口依然是 Transformer 的一個瓶頸。

如果像 OpenAI 一樣不怕花錢，可以繼續推高 Transformer 的 scaling law，但問題在于序列每長兩倍就要花四倍的錢，花的時間也是四倍，平方級別的增長使 Transformer 在長序列問題的處理上效率太低，而且資源有上限。

據了解，國內前列的大模型公司，基本用的都是 Transformer。但也有猜測稱，GPT-5 是否還是沿用 Transformer 架構是個未知，理由是從 GPT-2 之后沒再繼續開源。但大家更愿意相信 Transformer 的天花板還遠。所以國內想要繼續追趕 GPT-4、GPT-5，走Transformer 這條路也未必是錯的。大模型時代，大家都在賭。

但實現 AGI，Transformer 是否是唯一的路徑，也未可知。目前能夠確定的，是 Transformer 形成的壟斷很難被打破，無論是從資源還是生態，當下的非 Transformer 研究都比不過。

據了解，目前研究大模型非 Transformer 新架構的團隊，要么在學術界，要么是如 RWKV 這樣的創業團隊，很少有大公司投入一個大的團隊來研究新架構，所以在資源上，跟 Transformer 相比，非Transformer 研究的差距還很大。

此外，擋在前面最大的阻礙是 Transformer 日益堅固的生態護城河。

現在，無論是硬件、系統、應用，都是圍繞 Transformer 做適配、優化，使得開發其他架構的性價比降低，導致想要開發新的架構越來越難。

在測評這塊，許多測評設計任務的方式，都在偏向 Transformer 架構，意思是它設計的任務可能只有 Transformer 的模型能做出來，非Transformer 做不出來、或者難度加大。這種設計能夠展示 Transformer 的優勢，但對其他架構并不友好。

MIT的博士生、flash-linear-attention 項目負責人楊松霖就曾告訴 AI 科技評論，當下非 Transformer 研究面臨的阻礙之一是評估方式——單純看Perplexity（困惑度），非 transformer 其實跟 Transformer 的模型相比沒有差距，但很多實際能力（如in-context copy and retrieval）依然差距很大。她認為當前的非 Transformer 模型缺乏更全面的評估方式，方能改進與 Transformer 之間能力的差距。

毫無疑問，當下 Transformer 的地位依然無可撼動，依然是當下最強大的 AI 架構，然而，在回音室效應之外，開發下一代人工智能架構的工作正如火如荼進行著。

打破壟斷固然不易，但根據科技發展的規律，很難有一個架構能永遠一統江湖。未來，非 Transformer 需要繼續證明自己的天花板有多高，Transformer 架構也同樣如此。

本文作者（vx：zzjj752254）長期關注AI大模型領域的人、公司、商業化落地與行業動態，歡迎交流。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

張進

主筆

發私信

當月熱門文章