高性能計算(high-performance computing,HPC)用于處理海量數據,可實時或接近實時地解決當今最復雜的計算問題。 HPC的最大特征是使用大量并行工作的強大處理器集群,來處理海量多維數據集(大數據),并以極高的速度解決復雜問題。HPC系統的運行速度通常比最快的商用臺式機、筆記本電腦或服務器系統快100多萬倍。 幾十年來,HPC系統范式一直是超級計算機,這是一種專門構建的計算機,包含數百萬個處理器或處理器內核。超級計算機仍然和我們在一起;目前最快的超級計算機是美國的Frontier,處理速度為1.102 exaflops,即每秒千萬億次浮點運算(flops)。但是今天,越來越多的組織在本地或云中托管的高速計算機服務器集群上運行HPC解決方案。 HPC工作負載揭示了重要的新見解,這些見解可以增進人類知識并創造顯著的競爭優勢。例如,HPC用于對DNA進行測序,實現股票交易自動化,運行人工智能(AI)算法和模擬,如那些實現自動駕駛汽車的算法,實時分析來自物聯網傳感器、雷達和GPS系統的萬億字節數據流,以做出瞬間決策。 HPC是如何工作的? 標準計算系統主要使用串行計算來解決問題——它將工作負載劃分為一系列任務,然后在同一處理器上一個接一個地執行任務。 相比之下,HPC利用大規模并行計算。并行計算在多個計算機服務器或處理器上同時運行多個任務。大規模并行計算是使用數萬到數百萬個處理器或處理器核心的并行計算。 (1)計算機集群(也稱為HPC集群): HPC集群由多個聯網的高速計算機服務器組成,帶有一個管理并行計算工作負載的集中式調度程序。被稱為節點的計算機使用高性能多核CPU,或者今天更有可能使用GPU(圖形處理單元),非常適合進行嚴格的數學計算、機器學習模型和圖形密集型任務。一個HPC群集可以包含100,000個或更多節點。 (2)高性能組件: HPC群集中的所有其他計算資源(網絡、內存、存儲和文件系統)都是高速、高吞吐量和低延遲的組件,可以與節點保持同步,并優化群集的計算能力和性能。 高性能計算和云計算 就在十年前,由于高性能計算的高成本(包括擁有或租賃一臺超級計算機,或者在內部數據中心構建和托管一個高性能計算集群),大多數組織都無法實現高性能計算。 如今,云中的HPC(有時稱為HPC即服務,或HPCaaS)為公司利用HPC提供了一種速度更快、可擴展性更強、更經濟實惠的方式。HPCaaS通常包括對托管在云服務提供商數據中心的HPC集群和基礎架構的訪問,以及生態系統功能(如人工智能和數據分析)和HPC專業知識。如今,云計算中的HPC受到三種趨勢的推動: (1)需求激增。各行各業的組織越來越依賴于實時洞察和競爭優勢,這些優勢來自于解決只有HPC應用才能解決的復雜問題。例如,信用卡欺詐檢測——事實上我們所有人都依賴它,而且我們大多數人都曾經經歷過——越來越依賴HPC來更快地識別欺詐并減少惱人的誤報,即使欺詐活動在擴大,欺詐者的策略也在不斷變化。 (2)低延遲、高吞吐量RDMA網絡的普及。RDMA(遠程直接內存訪問)使一臺聯網的計算機能夠訪問另一臺聯網計算機的內存,而不涉及任何一臺計算機的操作系統或中斷任何一臺計算機的處理。這有助于最小化延遲和最大化吞吐量。新興的高性能RDMA結構,包括Infiniband、虛擬接口架構和融合以太網RDMA(RoCE)從本質上使基于云的高性能計算成為可能。 (3)廣泛的公共云和私有云HPCaaS可用性。如今,每個領先的公共云服務提供商都提供HPC服務。雖然一些組織繼續在內部運行高度管控或敏感的HPC工作負載,但許多組織正在采用或遷移到由硬件和解決方案供應商提供的私有云HPC解決方案。 HPC使用案例 HPC應用已經成為人工智能應用的代名詞,特別是機器學習和深度學習應用。如今,大多數HPC系統都考慮到了這些工作負載,這些HPC應用正在推動以下領域的持續創新。 醫療保健、基因組學和生命科學。人類基因組測序的第一次嘗試花了13年時間,如今的HPC系統可以在不到一天的時間內完成這項工作。醫療保健和生命科學中的其他HPC應用包括藥物發現和設計、快速癌癥診斷和分子建模。 金融服務。除了自動交易和欺詐檢測(如上所述),HPC還支持蒙特卡羅模擬(Monte Carlo simulation)和其他風險分析方法中的應用。 政府和國防。該領域中兩個日益增長的HPC使用案例是天氣預測和氣候建模,這兩個案例都涉及處理大量的歷史氣象數據和數百萬與氣候相關的數據點的每日變化。其他政府和國防應用包括能源研究和情報工作。 能源。在一些與政府和國防重疊的情況下,與能源相關的HPC應用包括地震數據處理、油藏模擬和建模、地理空間分析、風模擬和地形測繪。(Donna Zhang,張底剪報)
|