新聞中心
發布日期:2025.01.20

HPE 提出多元運算與冷卻方案,助企業加速推進 AI 旅程

原始報導,請點選此處

 

 

2025-01-20 發表

現今 AI 議題炙手可熱,企業無論行業屬性、也不管規模大小,都競相啟動 AI 發展計畫。

 

事實上 AI 技術問世迄今已長達數十年,絕非近年才初出茅廬的新產物,那麼為何此刻大家對它熱情簇擁?HPE 資訊系統技術經理馬西聰指出,眾所周知其驅動因素正是生成式 AI(GenAI),它迥異於以往帶有更高進入門檻、繁重模型訓練負擔的鑑別式 AI,任何人只要會下 Prompt,即便不具程式開發背景,都有機會駕馭 AI,順勢開啟莫大的創新應用想像空間。

 

企業決定踏上 AI 旅程,自然需要佈建必要的算力。談到算力,大家直覺聯想到的投資標的,無非正是 NVIDIA 所提供的高階 GPU 伺服器,此類產品往往要價不菲。因此 HPE 提出建議,企業應先釐清 AI 使用情境,究竟較偏向 Training、Fine Tuning或 Inference,再決定適用的運算主機,最終正解未必是昂貴的 GPU Server;完成主機的選型後,接著還需要考量散熱議題。

 

是否部署高階 GPU 伺服器?端看 AI 應用情境而定

針對 GenAI,現在可望為企業帶來的立即性好處,主要彰顯於兩類應用,一是知識管理(KM),過往員工利用關鍵字搜尋,經常因下錯關鍵字而尋找不到所需檔案內容,如今利用自然語言對大語言模型(LLM)提問,可望得到更貼近需求的搜尋結果。二是數位客服,從前礙於難以編寫完善的腳本,導致 Chatbot 答題能力受限,如今結合 LLM 與 GenAI,形同解題的素材增多,連帶提升 Chatbot 的應答實力。

 

但如果回頭檢視企業 AI 應用,他直言有頗高比例的臺灣用戶,除了像是製造業瑕疵檢測等少數場景外,基本上不太會有 Training 需求;尤其如果今天使用 LLM,充其量要做的是 Fine Tuning,更有甚者,比起 Fine Tuning 更常見的應用,其實在於推論(Inference)。換言之現今最普遍的 AI 應用情境,大致落在 Fine Tuning 或推論兩類。

 

以 Fine Tuning 和推論來看,都不會出現涉及多 GPU 的 Job。當確認這個基本知識後,企業即應有所定見,知道自己並不需要斥資購置裝載 8 顆 NVIDIA GPU 的大型機器;反之若是以 Training 為主的 AI 環境,部署這類大型主機,才會順理成章。

 

論及需求,企業不妨先探索 NVIDIA NVLink 內涵。從 NVIDIA 主機來看,經常可見 SXM5 GPU,此 GPU 與 GPU 間均透過 NVLink 連接,其中需要藉由 NVSwitch 串接眾多 GPU,所以其規格往往是 4 或 8 顆起跳。好處是當一個像是模型訓練之類的多 GPU 工作負載運行時,可快速將大型資料集輸入模型,並於 GPU 間執行高速的資料交換。

 

惟目前大約 70% 的企業 AI 工作負載,都屬於 Remodeling 或推論,算力需求皆低於 1 顆 GPU,不必採用 NVSwitch 如此大型的串接方式。換言之企業宜先跳脫迷思,審慎思考自己需要什麼,如此才能進行最適化選型。

 

混搭 GPU+CPU,為進退皆宜的理想架構

馬西聰提到「AI 運算架構選型的起始點,端看你要做什麼工作」,假使做的像是推論之類仍需仰賴 CPU 的工作,那麼選擇帶有傳統 CPU 的彈性架構,會是「進可攻、退可守」的安全做法,不見得需要一味追逐像是 DGX GH200 這般超級電腦。

 

HPE 提供的多款 GPU 伺服器,皆具備前述提到的彈性特質

 

譬如針對 Fine Tuning 部份,HPE 提供 ProLiant DL380a Gen12 和 ProLiant DL384 Gen12 兩款適用機種。另針對推論部分,則主推 ProLiant DL380a Gen11、ProLiant DL320 Gen11。

 

其中 380a Gen12 至多可承載 8 張 H200、搭配兩顆 Intel CPU,當企業不確定其 Workload 態樣,此類機種堪稱是進可攻、退可守的理想選項。再來的 DL384 Gen12,可承載兩片 GH200 NVL2 GPU,因適用於「Grace Hopper」最新架構,就意謂其中會搭載一顆 Arm CPU,沒有傳統 x86 CPU;若企業利用它來執行訓練工作,便可串起兩片 GH200,在其間進行高速資料交換,從而加快作業進程。

 

在推論方面,DL380a Gen11 可裝載 4 張 H100;DL320 Gen11 則能裝載 4 張 L4 GPU。談到單純的邊緣推論應用,甚至像是影像處理,L4 GPU 都是非常適用的高 CP 值選項。

 

企業導入 GPU 之前,其實需要先做一件事,便是改造機房。因為以 H100 GPU 為例,每個耗電量約 350 瓦,一台伺服器安裝兩個 GPU、合計就有 700 瓦,另外加上兩顆 CPU,整體功耗直逼 1,000 瓦。綜觀國內當前最先進的 IDC,每座機櫃大致能提供 6,000 瓦電力,意謂一座 42U 機櫃只能放置六台 GPU Server,大約佔用 12U,形成約莫 30U 的極大空間浪費。

 

但比起「電」,更棘手的難題在於「熱」。以往有眾多廠家提出浸潤式冷卻方案,但由於所用液體並非環境友善,發展之路稍稍受阻,使得水冷穩居主流;惟以現況而言,若非新建 IDC,水冷機櫃供應量偏少,可說有錢都買不到或租不到;那麼是否有權宜做法?HPE 提出 RDHX 方案,儘管基於氣冷架構,但在機櫃旁加裝水冷門,如打開冷凍庫般,能讓機櫃抽進冰空氣;或藉由 ARCS 方案,以較大的封閉循環方式,達到與 RDHX 類似的快速散熱效果。

 

除此之外,HPE 還提供「100%水冷」及「70%水冷+30%氣冷」等方案,其中後者更被列為現階段主力推廣的選項;深究其因,在於企業即便部署水冷伺服器,但機櫃內放置的不只有伺服器,還有儲存、網路等其餘設備,仍需藉助氣冷方式進行散熱,足見透過水冷及氣冷混合設計,相對適用於 AI 機房。

 

總括來說,企業在佈局 AI 算力的過程,切莫淪落人云亦云、冒然追逐名牌超級電腦,應先認清自身使用情境,再據此選擇適用的運算架構,最終再配合適當的冷卻架構設計,便有望鋪排出最穩健的 AI 發展路徑。

 

 

其它相關文章:  

HPE 儲存技術突破 AI 與 GPU 應用效能瓶頸打造高效創新資料應用

https://www.ithome.com.tw/pr/166692

 

HPE 擴展直接液冷超級運算解決方案,推出兩款專為服務供應商與大型企業打造的 AI 系統
https://www.ctee.com.tw/news/20241126700636-431202

 

 

敦新科技為 HPE 伺服器及儲存設備的專業代理商,提供 IT 投資解決方案幫助客戶轉型數位化業務,協助 HPE 經銷夥伴專業銷售,凝聚從基礎架構建置到儲存設備,以及資料安全到專業服務的全面銷售能力。最新各種機種及 HPE 專業服務,歡迎洽詢 HPE 事業部: 02-8978-5386,或造訪: www.dawningtech.com.tw