fbpx
Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
Search in posts
Search in pages
Filter by Categories
民生消費
投資心法
其他
金融知識
個股分析
量化分析
半導體
消費性電子
IC 設計
法說會備忘錄
IC 製造
IC 封測
材料設備
記憶體
電子零件
產業分析
民生消費
AI
生醫
車用
能源
消費性電子
軟體
軟體
其他
生醫
投資入門
時事短評
未分類
logo 註冊/登入 logo
test

2023 年是大型語言模型蓬勃發展的一年,在上半年有 Meta AI 推出的 LLaMA,下半年則有 LLaMA 2 與 Mistral AI 推出的 Mistral 及 Mistral 模型,而這些語言模型主要都是以Transformer 架構來開發的,直至 2023 年 12 月新架構 Mamba 的推出,被認為有機會可以取代現有的 Transformer 架構。

這篇文章將帶你認識何謂 Mamba 架構,以及它是否有機會成為未來的主流發開架構,以及其在 AI 產業中的潛在影響。

富果觀點

  1. Mamba 架構解決過去 Transformer 推論成本過高的痛點,可在相同表現水準下有效節省記憶體資源。
  2. 透過 SSM 的篩選機制兼顧模型的效率及有效性,可過濾數據品質並增強對序列處理的精準度。
  3. 判斷未來 3-5 年仍為大幅採購算力的時代,然預期未來 AI 領域的應用將隨 Mamba 的出現而加速進展,且能為企業有效地減少運算成本。

Mamba 擅長處理長序列問題,推論速度可較 Transformer 快五倍

自 Google 在 2017 年推出 Transformer 架構,過去六年裡 Transformer 一直在深度學習領域中佔據主導地位,但其缺點是隨著文字序列的增長,所需的記憶體和推論成本會成平方增長(即序列長度加倍,計算成本就增加四倍),導致它無法有效地處理太長的文本與高解析度的圖像。

而 Mamba 架構正是解決了此痛點,Mamba 是第一個可達到 Transformer 水準且屬於線性時間序列的模型(Linear-Time Sequence Model ),計算複雜度只會隨著輸入序列長度增加成線性增長而非指數型增長,除了可以在非常長的序列下進行高效建模,在相同資料量下,推論速度可比 Transformer 快五倍,可以較低成本達到與 Transformer 相同的表現水準。

對於長序列的處理,Transformer 和 Mamba 採用不同的方法:Transformer 選擇透過更複雜的注意力機制來處理長序列問題,而 Mamba 則是透過選擇性狀態空間(SSM, Selective State Space Model),這種架構可以以更少的算力,達到比 Transformer 架構更高的生成效果。因此,Mamba 透過 SSM 來處理序列,可實現更快的推理,並隨序列長度線性擴展達到更高的效能。 

Source:《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》、富果研究部

透過 Mamba 架構可實現更快的運算並減少記憶體需求,同時兼顧效率及有效性

過去,Transformer 模型使用的注意力機制會將每個 token 的狀態都儲存在 Transformer 中,這導致無法有效地壓縮文本,因此

閱讀進度


Author

Fugle 富果研究團隊 / 清大人社
關注科技趨勢與社會脈動
透過商管與社科雙重視野發現更多投資機會
相信深入研究和耐心等待,必能收穫令人驚喜的成果