在過去的概念裡,資料中心僅是存放企業伺服器與數位資料的機房,然而隨著雲端運算和 AI 的興起,今日的超大規模資料中心(Hyperscale Data Center)已儼然成為一座算力工廠,透過集結大量的處理器及其算力(以 GPU、TPU 等特定運算處理器為主,關於 xPU 介紹可參考<AI 趨勢下「運算卸載」會帶來哪些 ASIC 與 xPU 的發展?>研究報告),為訓練複雜的 AI 大型語言模型(LLM)提供源源不絕的動力。
而這樣龐大的算力工廠不僅由伺服器構成而已(關於伺服器組成,可參考<雲端服務商機!白話文解構「伺服器產業」>研究報告),在這之中,交換器更是支撐數據傳輸的重要角色,其功能就像是城市中的十字路口交通指揮中心,負責讀取每個數據封包的目的地地址,然後精準地將其轉發到正確的伺服器或下一個交換器,確保數據能夠快速和準確到達目的地。
隨著 AI 相關應用對於資料中心內部資料高流量、高速傳輸的需求增加,交換器及光收發模組相關零組件規格也迎來大幅升級空間,以下是本篇文章重要觀點:
- 資料中心改用脊葉式架構,以滿足 AI 運算對極致低延遲的嚴苛要求
- AI 應用激增的頻寬需求,成為光通訊傳輸規格從 400G 持續邁向 1.6T 的主要催化劑
- 以光代電,已不再是選項,而是資料中心追求傳輸速度下唯一出路
- 高速光收發模組的性能極限與成本結構,正日漸由數位訊號處理器所定義
- 未來光通訊產業在 CPO 技術的引進下將持續革新,供應鏈極具成長潛力
資料中心改用脊葉式架構,以滿足 AI 運算對極致低延遲的嚴苛要求
在資料中心內,伺服器透過網路線連接到交換器,交換器之間再相互連接,構成一個龐大的內部網路。傳統企業應用中,資料流動以「南北向」(North-South Traffic)為主,使用者從外部網路連線到資料中心內的伺服器,伺服器運算處理過後再回傳資料,多數會採用一種稱為三層式架構(3-Tier Architecture)的設計,這種樹狀結構由下至上分為三層:
- 存取層(Access Layer):位於最底層,由大量的邊緣交換器(Edge Switch)組成,伺服器直接連接到這一層的交換器,通常以 ToR(Top of Rack)交換器形式存在。
- 匯聚層(Aggregation / Distribution Layer):位於中間層,負責將來自多個存取層交換器的流量匯集起來,進行路由管理。
- 核心層(Core Layer):位於最頂層,由少量高性能的核心交換器組成,是整個網路的骨幹,負責在不同匯聚層之間進行高速數據交換 。
Source:富果研究部
但在現代 AI 應用中情況截然不同,訓練一個大型 AI 模型,需要將龐大的計算任務拆解並分配給成千上萬個處理器協同運作,過程中必須進行海量且高頻率的資料交換與同步,形成了巨大的「東西向」(East-West Traffic)流量,其規模往往遠超傳統的南北向流量。
此時整體系統效能不僅取決於單顆處理器或單個機櫃的運算能力,更取決於連接這些運算單元的高速網路骨幹,任何傳輸延遲或瓶頸,都會讓昂貴的 GPU 閒置,直接拖慢 AI 模型的訓練效率,推高營運與開發成本。
而傳統的三層式架構就像是每座城市只有一條主幹道(核心層),跨區交通多數時候都必須先繞到主幹道上,流量一提升便可能會造成嚴重的交通壅塞,這就是三層式架構的瓶頸所在,伺服器機櫃間的通訊路徑過長,且容易在核心層產生擁堵,導致高延遲。
為了解決這個問題和因應 AI 叢集(Cluster)的需求,現代資料中心普遍改用脊葉式架構(Spine-Leaf Architecture),這種架構將網路扁平化、只分為兩層:
- 葉交換器(Leaf Switch):連接伺服器。
- 脊交換器(Spine Switch):與所有葉交換器相連。
Source:富果研究部
這種設計帶來了幾個好處,包括:
- 低延遲與高效率:任何兩台機櫃之間的通訊,最多只需要經過「葉-脊-葉」兩跳(2-hops),極大程度降低了延遲
- 高頻寬與可擴展性:由於存在多條路徑,流量可以被均勻地分散到所有脊交換器上,避免了單點瓶頸,頻寬使用效率最大化;且當需要擴充網路時,只需增加新的葉交換器或脊交換器即可,擴展性極佳
- 高可靠性:任何一條鏈路或一台脊交換器發生故障,流量可以立即切換到其他備用路徑上,保證了網路的穩定運行。
AI 應用激增的頻寬需求,成為光通訊傳輸規格從 400G 持續邁向 1.6T 的主要催化劑
但另一方面,AI 伺服器機櫃的誕生,卻也為資料中心的網路設計帶來了前所未有的挑戰。過去,一台伺服器可能只需要一兩個對外接口,但一台內含 72 顆 GPU 的 NVL72 機櫃,其對外的總流量需求,是過去伺服器的數十甚至上百倍。
這就迫使網路架構師必須面對一個根本問題,該如何解決和提供如此巨大的流量出口?擺在他們面前的有兩條路:
- 堆疊數量:沿用技術已經成熟、成本較低的 100G 網路技術,然後像堆積木一樣,在一台伺服器上安裝十幾個接口來湊足總流量。
- 提高規格:投入研發,直接將單一接口的速度提升到 800G 甚至更高,用少量的高速接口創造足夠的總流量。
其中,第一條路從邏輯上而言很快就被證明是死路一條,因為當成千上萬台伺服器都需要這麼多接口時,整個資料中心將會被交換器和線纜淹沒,變成一座無法管理、極度耗電外加成本完全失控的「義大利麵城市」。
因此唯一的出路便是提升單一接口的規格,簡單比喻就像與其蓋十幾條只能跑普通捷運車廂的軌道,不如直接蓋兩條可以跑高鐵的軌道,雖然軌道的「數量」變少了,但運輸的「總量」不但沒有減少,反而因為系統更簡潔而變得更有效率、更省成本。
這個從「追求接口數量」到「追求傳輸規格」的根本轉變,也就是以少數高傳輸速率的接口如 800G、1.6T,取代大量較爲低速的 100G 連接,直接帶動了市場對光通訊技術與元件升級的巨大需求。
以光代電,已不再是選項,而是資料中心追求傳輸速度下唯一出路
在資料中心內部,伺服器與交換器之間、交換器與交換器之間,都需要透過物理纜線進行連接。長久以來,銅纜一直是主要的傳輸媒介,然而隨著數據傳輸速率的不斷攀升,銅纜的物理極限日益凸顯。
當傳輸距離變長或頻率增高時,電訊號會出現嚴重的訊號衰減,導致接收端難以辨識;此外,電訊號本身非常容易受到周遭電磁場的干擾,高密度的部署將會進一步破壞訊號的完整性。
按此推估,當傳輸規格進入到 400G、800G 以上的時代,銅纜此時的傳輸距離將被限制在短短幾公尺之內,這對於大型資料中心動輒數十公尺的機櫃連接是完全不夠用的。此時,光纖(Optical Fiber)成為了唯一的選擇。
光纖通訊的原理是將數據轉換為光脈衝,在極細的玻璃或塑膠纖維中傳輸。相較於銅纜,光纖具備以下優勢:
- 超高頻寬:光纖所使用的紅外光載波,其可用頻寬遠遠超過傳統銅線的物理極限,能夠輕鬆滿足400G、800G 乃至未來 1.6T 甚至更高的傳輸速率需求
- 超長傳輸距離:光訊號在高品質光纖中傳輸時,衰減極低。這使得光纖可以輕鬆覆蓋數十公里甚至上千公里的距離而無需中繼放大,更不用說在資料中心內部的連接
- 抗電磁干擾:由於傳輸的是光而非電,光纖完全不受外界電磁場的干擾,確保了訊號的純淨與穩定
- 輕便小巧:光纖纜線比同等容量的銅纜細得多、輕得多,這在高密度的資料中心布線中極大地節省了空間,並改善散熱問題
高速光收發模組的性能極限與成本結構,正日漸由數位訊號處理器所定義
如果說光纖是高速公路,那麼在高速公路的入口和出口,就需要一個能讓車輛(數據)上下匝道的裝置,而這個裝置就是「光收發模組」(Optical Transceiver)。
光收發模組是一個精巧而複雜的光電元件,其中包含發射端(Transmitter,Tx)和接收端(Receiver,Rx)。其核心功能就是負責將交換器、伺服器等設備內部使用的電訊號,轉換為在光纖中傳輸的光訊號,即為模組的發射端,反之,將光訊號重新轉為交換器可讀的電訊號,則為接收端。
Source:富果研究部製作
發射端的工作是將來自交換器晶片的電訊號轉換為光訊號。這個過程主要由兩個關鍵零件完成:
- 雷射二極體(Laser Diode,以下以業界常用的 LD 簡稱):它是一種半導體元件,通電後能發出特定波長的雷射光。根據應用場景、傳輸距離,會使用到不同類型的雷射:
- VCSEL(Vertical-Cavity Surface-Emitting Laser,垂直共振腔面射型雷射):成本較低、功耗較小,光束從晶片表面垂直發出,適合資料中心內部機架內等短距離(數十至數百公尺)的多模光纖傳輸
- DFB(Distributed Feedback Laser,分布式反饋雷射):這類邊射型雷射的光譜更純淨、功率更高,適合機櫃之間、資料中心之間等長距離(數公里至數十公里)的單模光纖傳輸。
- 驅動晶片(Driver IC):這個晶片負責接收來自網路設備的數位電訊號,並將其轉換為精確的電流來驅動 LD,使其按照數據的「0」和「1」進行快速閃爍、調變,從而將資訊加載到光束上。
接收端的工作恰好相反,它負責捕捉從光纖另一端傳來的光脈衝,並將其還原為電訊號。這個過程也由兩個關鍵零件完成:
- 光偵測器(Photodetector,以下以業界常用的 PD 簡稱):通常是一種光電二極體(Photodiode),當光照射到它上面時,它能產生微弱的電流。常見的類型包括:
- PIN 光電二極體:結構簡單、反應速度快、雜訊低,廣泛應用於各種速率的接收器中。
- APD(Avalanche Photodiode,雪崩式光電二極體):具有內部增益效應,能將微弱的光訊號放大,靈敏度更高,適用於需要更高接收靈敏度的長距離或低光功率場景。
- 轉阻放大器(Transimpedance Amplifier,TIA)與後級放大器(Limiting Amplifier):PD 產生的電流非常微弱,需要經過 TIA 將其轉換為電壓訊號,再由後級放大器將其放大到足夠讓後端晶片識別的程度。
光收發模組中,除了光學元件,另一個關鍵的零組件就是負責訊號處理的處理晶片。
在 10G、25G 的時代,這個角色主要由 CDR(時脈數據恢復)晶片扮演。它的主要任務是對訊號進行處理,以確保訊號在長距離發射前和接收後的同步與乾淨。
然而,當傳輸速率邁向 400G、800G 甚至更高時,訊號會開始出現嚴重的失真和雜訊,單純的 CDR 已不足以應對,此時便升級至功能更為強大的數位訊號處理器(DSP)。
DSP 不僅包含了 CDR 的基本功能,更重要的是,它利用複雜的演算法,在發射端對訊號進行預補償,並在接收端將失真的電訊號進行還原解碼,以修復出乾淨的原始數據。
在高速模組中,DSP 的成本和功耗佔比極高,有時甚至達到整個模組的 50%。這意味著,一個高速傳輸光收發模組的性能,不僅取決於 LD、PD 等光學元件的品質,更在很大程度上取決於其內置 DSP 晶片的運算能力和演算法效率。
因此,價值鏈的重心,正向能夠設計和製造高性能 DSP 的頂級晶片公司轉移。這也解釋了為何像 Broadcom 和 Marvell 這樣的巨頭,在高速光通訊時代扮演著越來越舉足輕重的角色,並和最下游的 CSP 業者擁有最大的話語權。他們定義了技術規格、主導了採購量,因此相關業者若能成功切入其供應鏈,將能最大程度地受惠於整體產業的成長趨勢。
底下我們來進一步拆分整個光通訊產業的上中下游樣貌。
閱讀進度