新聞中心
發布日期:2024.03.19

HPE 憑藉全堆疊 AI 架構,讓企業加速踏上 AI 應用旅程

原始報導,請點選此處

 

 

近年來伴隨生成式 AI 爆紅、影響力迅速擴散至各行各業,驅使許多企業逐漸意識到需要引入全新的資料與運算技術方法,才能更有效地運行 AI 模型。著眼於此,HPE 於去年底(2023)推出嶄新的開放式全堆疊 AI 原生架構,其中蘊含了足以加速 AI 生命週期的軟體與基礎架構,以協助企業突破重重障礙,能夠在從邊緣到雲端之間執行高效率的 AI 模型訓練、調校和推論工作。

 

綜觀 HPE 的全堆疊 AI 解決方案,由下而上,涵蓋基礎架構、中介軟體、AI / ML 訓練平臺、整合系統/即服務、解決方案等五大層次。以當中至關重要的 AI / ML 訓練層而論,裡頭涵括 HPE 機器學習開發環境、Pachyderm AI 流程管理平臺、SmartSim 模擬系統、HPE 群體學習(HPE Swarm Learning)、HPE Ezmeral Unified Analytics 軟體;其中 HPE 機器學習開發環境可提供全新的生成式 AI 工作室功能,幫助用戶加速建立原型與測試模型,至於 HPE Ezmeral 軟體則內含 GPU 感知功能,一來可協助用戶簡化部署,二來還能加速混合雲 AI 工作負載的資料準備。

 

至於另一個關鍵層次,無疑正是專為 AI 打造且最佳化的基礎架構層,箇中涵蓋做為中高端 AI 訓練和推理定位(企業AI/HPC)的 HPE ProLiant DL380a Gen11,做為超高端 HPC 的 HPE Cray Supercomputing,乃至於 HPE SimpliVity 380 Gen10 Plus 超融合系統等主力機種。

 

DL380a Gen11 專為 AI 而生,可承擔中高端訓練與推理

先從 HPE ProLiant DL380a Gen11 開始說起。該主機與另一款熱門伺服器「ProLiant DL380 Gen11」命名相似,僅有「a」一字之差,但不論細部規格或適用的工作負載,彼此都有不小差異。

 

ProLiant DL380 Gen11 定位在一般 General-purpose 伺服器,適合承載傳統企業工作負載、小規模運算等工作任務,主要以企業為中心。反觀 ProLiant DL380a Gen11,則適合承擔中高檔訓練、中高範圍推理、GPU 運算密集型工作負載等任務,能夠支援深度學習訓練與推論、智慧影像分析(IVA)等多種應用,以企業 AI 為重點。

關於 PCIe 擴充部份,ProLiant DL380a Gen11 可裝載 4 張全高半長介面卡,現階段能夠搭配 4 張雙寬尺寸或 8 張單寬尺寸的 GPU,像是 NVIDIA H100 80GB PCIe5(雙寬尺寸、TDP 為 350W)、NVIDIA L40/L40S 48GB PCIe4(雙寬尺寸、TDP為 300W/350W)、NVIDIA L4 24GB PCIe4(單寬尺寸、TDP 為 72W),以及 Intel Data Center GPU Max 1100 48GB PCIe5(雙寬尺寸、TDP 為 300W)。

 

 

HPE Proliant DL380a Gen11 專為 AI 而生

 

 

值得留意的是,大多數伺服器若要搭載 PCIe 板卡形式的 GPU,經常配置於機箱的後半段,比方說 ProLiant DL380 Gen11 便是如此設計。然而 DL380a Gen11 則是把 GPU 配置在機箱前段的左右兩側;深究其因,這樣的配置模式具有幾個相對優勢,譬如機箱前段的進氣溫度較低,有利於 GPU 散熱,或是可以避開機箱後段 PCIe 橫向擴充卡的空間限制,能夠增加 GPU 安裝數量,總括來說可以優化氣流並增加 GPU 密度,同時為每張 GPU 卡提供專屬的電源供應器,進而延長 GPU 的工作時間。

 

更重要的,ProLiant DL380a Gen11 有能力配置 GPU 橋接器,如 NVIDIA Ampere 2-way 2-slot Bridge for HPE,藉由 NVLink 介面連接兩張 PCIe 板卡形式的 H100;或是 Intel XeLink x2 Bridge,藉此連接兩張 Intel Data Center GPU Max 1100,而一般伺服器少有類似佈局。擁有 GPU 橋接器的情況下,最大好處便是提升 GPU 間的雙向存取能力,從增加 GPU 吞吐率並支援跨 GPU 的記憶體共享,對於提高效能或優化資源利用率,皆有顯著助益。

 

支援 DLC 的 Cray 超級電腦,讓高效能與 ESG 兼得

接著談到 HPE Cray Supercomputing,主要焦點落在 XD 系列超級電腦(含 4U 的 XD665、5U 的 XD670)。環顧超級電腦發展史,算是罕見擁有小體積、親民價位、強效節能等多重利基的獨特產品,可望促使更多企業投入超級運算技術,順勢取得 Exascale 百萬兆級強大效能、大規模 AI 模型(AI-at-scale)功能,更游刃有餘地處理資料密集型且高效能需求的工作負載,從而以最快速度獲得洞察力、解決問題與進行創新。

 

其中 XD665 可承載 4 張 NVIDIA H100 80G SXM GPU加上 2 顆 AMD Genoa CPU,適用於混合 CPU/GPU 的應用情境,像是全連接稀疏資料集(如推薦器)、依順序的 ML 工作(如 RNN 或時間序列資料)、處理高端 HPC CPU 及 GPU 模擬工作量,或是涉及圖神經網路(GNN)、地理空間的應用場景。此外它也適用於小型模型或遷移學習,譬如 LLAMA 或PocketLLM 等大型語言模型(LLM)、用於概念驗證(PoC)及快速定製的遷移學習。

 

而 XD670 可承載 8 張 NVIDIA H100 94G SXM GPU加上 2 顆 Intel Sapphire Rapids CPU,擅於支持 GPU 密集型或高度可並行化的 LLM 或 DL 任務,比方說氣候建模、基因組學、萊迪思 QCD、8K 3D FFTs2,或用於模型訓練/重新訓練/關鍵部署時、當任務高度平行化時。另外它亦適用在訓練超大尺寸模型或「從頭開始」訓練的場景。值得一提, XD670 支援直接液冷(Direct-liquid Cooling;DLC)散熱方式,有助提高能源效率,這對於既想推升 AI 運算效能、又想減少碳足跡的企業組織來說,確實具有莫大誘因。

 

最後論及 HPE SimpliVity 380 Gen10 Plus,相比於一般 SimpliVity 380 超融合系統,可支援更多的 GPU 選擇,以及能承載更大量的記憶體,故定位於高效能機種,更加勝任 AI 訓練工作負載。

 

綜觀 SimpliVity 380 Gen10 Plus 能夠支援的 GPU,大致落在基於 NVIDIA Ampere 架構的 A16、A40 或 A30,其中 A30 支援三款產品中最大的記憶體頻寬 933.1GB/s,可營造 165 TFLOPS 算力,適用於像是天文物理模擬、有限元素法模擬等應用場景。

身為 HPE 伺服器及儲存設備代理商的敦新科技,提供 IT 投資解決方案幫助您轉型為數位化業務,最新機種及服務歡迎洽詢: 0800-072-636