近年隨晶片熱設計功耗(TDP)持續提高,現有氣冷散熱在高階伺服器中已逐漸逼近系統極限,液冷散熱逐漸被市場重視。本文將分析伺服器散熱產業現況及未來發展以及哪些公司會受惠。
富果觀點
- 隨伺服器晶片 TDP 持續提高,氣冷散熱逐漸不敷使用
- 3DVC(3D 均熱板)可有效提升解熱效率,但仍受限空調系統耗電量高,其在 ESG 趨勢下發展可能受限
- 開放式液冷 PUE 表現佳,預期將因其成本優勢成為未來主流方案
- 判斷資料中心將首先併行液冷與氣冷,首先安裝於使用較多 GPGPU 之 AI 伺服器當中
散熱系統為維持電子設備運行速度和壽命之重要關鍵
散熱系統簡單來說,即是透過熱傳導和熱對流,將電子設備運行產生的廢熱發散出去,以維持在適宜的溫度下運行。若廢熱無法有效發散,將影響半導體元件的壽命和性能。
高溫會導致元件膨脹,反覆熱脹冷縮容易使元件電路損壞(焊接處容易虛焊),而降低其壽命;溫度也直接影響半導體元件的電阻值,降低電流速度而影響 IC 運行效率。
目前散熱根據最終熱傳導物質的不同,可分為傳統氣冷散熱和液冷散熱兩種。前者主要由 TIM(Thermal Interface Material,熱介面材料)、均熱片(VC)或熱導管先將熱導出,再由散熱鰭片(Heat Sink)和風扇與空氣對流進行散熱;後者則透過液冷板(Cold Plate)或是近年興起的浸沒式散熱,透過與液體熱對流散出熱,來達到晶片降溫。
Source:富果研究部
隨伺服器晶片 TDP 持續提高,氣冷散熱逐漸不敷使用
在設計 IC 時通常會設定最高時脈速度,避免系統過熱而損毀,此時相對應廢熱散發的效率則被稱作熱設計功耗(TDP,單位為 W)。若散熱系統之解熱效率無法滿足 TDP 而使系統溫度持續上升,IC 就會開始降頻(降低運作速度)來避免過熱,因此根據 IC 的 TDP 選擇合適的散熱系統,才能使其運作效率如預期發揮。
而散熱效率除了由被動式散熱元件本身的熱導率決定外(見註),最終主動式元件與外部環境熱對流的效率也是關鍵之一。
註:熱導率為評估材料傳導熱量的能力,目前散熱系統中常用的材料為銅或銀,為室溫熱導率最高的兩種金屬
傳統氣冷散熱以空氣作為介質,與外部環境對流進行散熱,然因空氣傳遞熱的效率很差,目前使用一般熱導管散熱模組在散熱空間受限下(氣冷散熱效率與空氣流通之截面積正相關),其臨界散熱效率約 400~500W(以最常見的 2U 機架式伺服器為例)。
Source:Tom's Hardware、富果研究部
註:U 為機架式伺服器的高度單位,2U 約等於 8.9cm
隨著晶片算力提升,主流伺服器高階 CPU TDP 都已達 350~400 W;GPGPU 和 Switch IC 更已突破 600W、800W, Intel、AMD 下一代 CPU 之 TDP 也將突破 500W,傳統氣冷散熱逐漸不敷使用。
Source:雙鴻、富果研究部
目前下一代散熱模組設計,主要可分為兩大方向:
- 使用 3D 均熱板(3DVC)升級現有散熱模組,加強被動式散熱元件將熱導出的效率,成本較低但體積大,且仍需配合 HVAC 系統(空調系統)。
- 導入液冷散熱系統,改用液體當作熱對流介質,提升散熱效率。成本高但可在較小體積下達成較好解熱效率,同時也較為省電。
以下將分別分析。
Source:雙鴻、富果研究部
3DVC 可有效提升解熱效率,但仍受限氣體熱對流效率不佳,隨 ESG 趨勢其發展可能受限
3DVC 簡單來說就是均熱板和熱導管的結合,由均熱板延伸出多根相通的圓柱狀熱導管,冷凝劑在均熱板內腔吸熱後,轉換為氣體後沿熱導管上升將熱帶離表面,再由鰭片和風扇冷卻後,重新轉為液態流回均熱板內腔。
Source:Celsia、富果研究部
3DVC 雖然較傳統熱導管或 VC 散熱模組需較大的散熱空間,但在空氣對流面積顯著增加下,擁有更好的解熱效率,最高約可達 800W。且和液冷板方案相比具成本優勢,也不會有漏液導致主機板損壞的問題,目前已在導入 Intel Eagle Stream 和 AMD Genoa 兩大平台。
然導入 3DVC 仍脫離不了調節資料中心內部空氣溫度之 HVAC 系統,而其高耗電量就使電力使用效能(PUE,計算方式見註)居高不下。
傳統使用 HVAC 系統建構的資料中心 PUE 約落在 1.5~1.7 以上,而目前多數標準(例如歐盟、中國)要求未來興建之資料中心 PUE 需低於 1.3,除了在較涼爽的地區(自然散熱效果較佳)氣冷仍可維持低 PUE 外,在近年 ESG 趨勢持續發展下,位於較炎熱的地區之資料中心可能需開始考慮導入液冷散熱系統。
註:PUE 用以評估資料中心節能效率,其公式為總用電量/ IT 設備(包含伺服器、交換器等)總電量
Source:Uptime Institute
參考目前北美四大 CSP(排除 Meta)規劃未來興建的資料中心,多落於熱帶和亞熱帶區域,欲在使用氣冷下維持 PUE 表現將備受考驗。富果認為,CSP 業者可能會優先考慮在炎熱地區導入液冷散熱系統,以維持公司整體 PUE 平均值和降低長期營運成本(HVAC 系統在炎熱地區運作十分耗能且效率較差)。
Sourcr:AWS、Azure、GCP、富果研究部
接下來將討論液冷散熱系統。
開放式液冷 PUE 表現佳,預期將因其成本優勢成為未來主流方案
液冷散熱系統目前有兩種方式在競爭,分別是 Open Loop Liquid Cooling(開放式液冷)和 Immersion Liquid Cooling(浸沒式散熱)。
1. 開放式液冷
開放式液冷較傳統氣冷多加入了:液冷板模組(Cold Plate)、冷卻液分配單元(CDU)、冷卻水歧管(Manifold),並透過冷卻器和風扇背門或是熱交換器(RDHx)將冷卻液降溫,其運作模式如下:
① 冷卻液會先由 CDU 泵浦送出
② 沿著冷歧管進入系統
③ 冷卻液流入覆蓋在處理器上方的液冷板
④ 吸熱後的液體接著從熱歧管流出
⑤ 送到機櫃的上方,轉至機櫃背門的冷卻器往下流
⑥ 透過風扇背門排出廢熱使液體降溫,或透過熱交換器與外部循環水進行熱交換
Source:The immersion cooling technology: Current and future development in energy saving、富果研究部
Source:ServerTheHome、富果研究部
採用開放式液冷系統搭配冰水機(Chiller,見註)可將 PUE 降至 1.3,使用冷卻塔(Cooling Tower,見註)自然冷卻空氣更可降至 1.07。
註:冰水機是一種製冷設備,透過使用製冷劑(冷媒),製造出常溫以下的水對設備進行冷卻;冷卻塔則是透過將水蒸氣冷卻成較低溫的水,將系統的廢熱排到大氣。
Source:雲達、富果研究部
2. 浸沒式散熱
浸沒式散熱則將伺服器完全浸沒於介電冷卻液當中,直接透過液體對流的方式將廢熱自晶片轉移至液體中。若是單相式,會經由熱交換器將液體冷卻;雙相式則是液體蒸發成氣體上升到密封槽頂部,接觸到冷凝管後重新落回池中。
Source:GRC、富果研究部
浸沒式散熱因基本不需空調系統,PUE 可達 1.1,但其建置和營運成本較高(包含資料中心的架構需重新設計、介電冷卻液費用高昂),加上目前多數晶片廠商並未提供保固,都成為導入浸沒式散熱系統的障礙。
相較之下,開放式液冷系統在機房基礎架構上不需大幅變動,
閱讀進度