0%
2023 年是大型語言模型蓬勃發展的一年,在上半年有 Meta AI 推出的 LLaMA,下半年則有 LLaMA 2 與 Mistral AI 推出的 Mistral 及 Mistral 模型,而這些語言模型主要都是以Transformer 架構來開發的,直至 2023 年 12 月新架構 Mamba 的推出,被認為有機會可以取代現有的 Transformer 架構。
這篇文章將帶你認識何謂 Mamba 架構,以及它是否有機會成為未來的主流發開架構,以及其在 AI 產業中的潛在影響。
自 Google 在 2017 年推出 Transformer 架構,過去六年裡 Transformer 一直在深度學習領域中佔據主導地位,但其缺點是隨著文字序列的增長,所需的記憶體和推論成本會成平方增長(即序列長度加倍,計算成本就增加四倍),導致它無法有效地處理太長的文本與高解析度的圖像。
而 Mamba 架構正是解決了此痛點,Mamba 是第一個可達到 Transformer 水準且屬於線性時間序列的模型(Linear-Time Sequence Model ),計算複雜度只會隨著輸入序列長度增加成線性增長而非指數型增長,除了可以在非常長的序列下進行高效建模,在相同資料量下,推論速度可比 Transformer 快五倍,可以較低成本達到與 Transformer
成為會員繼續閱讀全文,再享每週更新獨家研究報告與多項富果投資研究工具!