NVIDIA集成AI超算中心經(jīng)驗，打造AI就緒型數(shù)據(jù)中心

linhuijia 2025-03-21 百度 39 次瀏覽 0個評論

文|智東西

傳統(tǒng)數(shù)據(jù)中心向人工智能（AI）轉(zhuǎn)型已是大勢所趨。

一方面，從智能客服、智能安防、智能風(fēng)控、智能運維到智能質(zhì)檢，愈加豐富的智能化應(yīng)用致使存儲需求呈現(xiàn)指數(shù)級增長，并對數(shù)據(jù)中心的算力提出新的挑戰(zhàn)。

另一方面，AI 正打破傳統(tǒng)數(shù)據(jù)中心的管理和運營模式，完成更為精準的系統(tǒng)調(diào)優(yōu)、故障預(yù)判等任務(wù)，替代更多人力，減少能耗和資源浪費，更大程度釋放生產(chǎn)力。

作為 AI 時代的基礎(chǔ)設(shè)施，AI 硬件正成為越來越多數(shù)據(jù)中心擴容建設(shè)的關(guān)鍵所在。尤其是能源、銀行、保險、制造、電信、醫(yī)療等重度存儲用戶，急需加速 AI 的基礎(chǔ)架構(gòu)方案。

當超強計算力成為數(shù)據(jù)中心的剛需，NVIDIA GPU 憑借強大的并行計算和浮點能力突破了深度學(xué)習(xí)的算力瓶頸，成為 AI 硬件的首選。

然而，對于許多傳統(tǒng)數(shù)據(jù)中心而言，部署包含 AI 硬件的基礎(chǔ)設(shè)施，需要耗費許多時間與人力。

對此，NVIDIA 基于 GPU 軟硬件生態(tài)系統(tǒng)，提供了一站式交付節(jié)點解決方案 DGX POD。

這一方案可以大大節(jié)省構(gòu)建基礎(chǔ)設(shè)施所花費的時間，幫助數(shù)據(jù)中心輕松快速進行 AI 部署，為擴展多 GPU 服務(wù)器節(jié)點提供更多支持。

本期的智能內(nèi)參，我們推薦《NVIDIA DGX POD 數(shù)據(jù)中心參考設(shè)計》白皮書，從傳統(tǒng)數(shù)據(jù)中心的 AI 轉(zhuǎn)型之困著手，結(jié)合 DGX POD 的應(yīng)用實例，解讀 NVIDIA DGX POD 交付節(jié)點的核心亮點，為亟待快速轉(zhuǎn)型 AI 的數(shù)據(jù)中心架構(gòu)師，以及準備構(gòu)建 AI 就緒型數(shù)據(jù)中心提供參考。如需查閱此白皮書《NVIDIA DGX POD 數(shù)據(jù)中心參考設(shè)計》，可直接點擊：NVIDIA DGX POD 數(shù)據(jù)中心參考設(shè)計白皮書 - 白皮書下載 - 英偉達AI計算專區(qū) - 智東西下載。

以下為智能內(nèi)參整理呈現(xiàn)的干貨：

數(shù)據(jù)中心 AI 轉(zhuǎn)型遭遇困局

大數(shù)據(jù)、AI 與云計算等新興技術(shù)卷起新的浪潮，在各類數(shù)據(jù)中心中形成連鎖反應(yīng)。海量數(shù)據(jù)處理任務(wù)涌入數(shù)據(jù)中心，面對人工智能應(yīng)用的訓(xùn)練和推理，令傳統(tǒng)的CPU 服務(wù)器難以招架。

深度學(xué)習(xí)算法屬于計算密集型算法，與 NVIDIA GPU 計算架構(gòu)十分契合。過去 CPU 需要花數(shù)十天完成的計算任務(wù)，通用 GPU 只用幾小時就能完成，這大幅提升深度學(xué)習(xí)等并行處理數(shù)據(jù)方法的計算效率，使得以 GPU 為基礎(chǔ)的設(shè)備日漸成為各大數(shù)據(jù)中心進行深度學(xué)習(xí)訓(xùn)練的首選。

然而，即便部署了強大的硬件設(shè)備，也不意味著數(shù)據(jù)中心的 AI 轉(zhuǎn)型計劃就萬事俱備了，還有一個關(guān)鍵問題擺在眼前——架構(gòu)設(shè)計。

數(shù)據(jù)中心需要考慮的因素遠不止算力，還需兼顧網(wǎng)絡(luò)、存儲、電源、散熱、管理和軟件等方面問題。

硬件組合不是簡單粗暴的積木堆疊，并不是說計算節(jié)點越多，性能就會隨之線性增長。其計算性能會受制于高速互聯(lián)網(wǎng)絡(luò)，一旦出現(xiàn)數(shù)據(jù)擁堵，整機系統(tǒng)的效率都可能被拖累。另外，過多計算硬件堆疊，可能導(dǎo)致功耗過大，不利于日后的運營。

因此，數(shù)據(jù)中心必須思考如何打造了降本增效的最佳方式，將各種硬件資源協(xié)同組合，在穩(wěn)定安全的狀態(tài)下，以超低延遲和高帶寬訪問數(shù)據(jù)集。

這對于缺乏 AI 部署經(jīng)驗的傳統(tǒng)數(shù)據(jù)中心而言，無疑是個不小的挑戰(zhàn)。如果 DIY GPU 計算節(jié)點，不僅需要耗費人力和時間成本，還要考慮計算、存儲、交換機等各種硬件設(shè)備的集成兼容問題。

對于這一痛點，NVIDIA 提供了一個頗有吸引力的解決方案。

它通過與領(lǐng)先的存儲、網(wǎng)絡(luò)交換技術(shù)提供商合作，提供一系列 DGX POD 數(shù)據(jù)中心交付節(jié)點設(shè)計參考架構(gòu)，將 NVIDIA 長期積累的超大規(guī)模數(shù)據(jù)中心 AI 部署經(jīng)驗，轉(zhuǎn)化為可復(fù)制方案，無論是大中小型數(shù)據(jù)中心，均可以直接參考使用。

NVIDIA AI 超級計算機構(gòu)建經(jīng)驗轉(zhuǎn)換

DGX POD 交付節(jié)點（Point of Delivery）是一種經(jīng)優(yōu)化的數(shù)據(jù)中心機架，包含多臺 DGX-1 或 DGX-2 服務(wù)器、存儲服務(wù)器和網(wǎng)絡(luò)交換機等最佳實踐。

▲ DGX POD 參考架構(gòu)正面圖

這是 NVIDIA 構(gòu)建大量超大規(guī)模 GPU 加速計算節(jié)點的經(jīng)驗之集大成者。NVIDIA 曾建立了大型的 AI 數(shù)據(jù)中心，包含數(shù)千臺領(lǐng)先的 DGX 服務(wù)器加速計算節(jié)點。

今年6月，NVIDIA 宣布推出全球速度排名第22位的超級計算機 DGX SuperPOD，為企業(yè)快速部署自動駕駛汽車項目，提供同等大小的超算無法匹敵的 AI 性能。

SATURNV 亦是 NVIDIA 基于 DGX 系統(tǒng)構(gòu)建的 AI 超級計算機，支持自動駕駛汽車、機器人、顯卡、HPC 等多領(lǐng)域的 NVIDIA 內(nèi)部 AI 研發(fā)。早在2016年推出之際，DGX SATURNV 就登上 Green 500 超算榜第一，被評為全球最經(jīng)濟高效的超算，整體運算速度位列第28位，是最快的 AI 超算。

基于使用 SATURNV 所遵循的設(shè)計原則和架構(gòu)，NVIDIA 在短短三周內(nèi)就打造出一套基于 NVIDIA DGX-2 配置的全新系統(tǒng) DGX SuperPOD。近期 NVIDIA 借助一套基于 DGX-2 的配置在 MLPerf 基準測試中創(chuàng)下六項 AI 性能記錄。

在將 DGX SATURAN 打造成所有企業(yè)都可復(fù)制的、經(jīng)驗證的設(shè)計過程中，NVIDIA 經(jīng)過實地檢驗積累了豐富的經(jīng)驗，并將計算、網(wǎng)絡(luò)、存儲等多方面的最佳實踐，集中于 NVIDIA DGX POD 的設(shè)計之中。

如今，包括 Arista、思科、DDN、Dell EMC、IBM Storage、Mellanox、NetApp 和 Pure Storage 等在內(nèi)的業(yè)內(nèi)數(shù)據(jù)中心領(lǐng)導(dǎo)者已圍繞 DGX POD，推出了基于其各自特有技術(shù)的相關(guān)產(chǎn)品。

這些集成系統(tǒng)均為客戶提供經(jīng)過經(jīng)驗驗證的可靠方法，這意味著，每個企業(yè)都能量身定制完全適配自身需求的 AI 超算中心。

例如，基于 DGX POD，NetApp 推出了 NetApp ONTAP AI 融合基礎(chǔ)架構(gòu)。其由 NVIDIA DGX-1 服務(wù)器、 NetApp 云互聯(lián)存儲系統(tǒng)提供支持，是 NVIDIA 和 NetApp 聯(lián)合開發(fā)和驗證的架構(gòu)。

借助這一架構(gòu)，企業(yè)可以從小規(guī)模起步進行無縫擴展，智能管理跨邊緣、核心和云以及反向數(shù)據(jù)傳輸?shù)耐暾疃葘W(xué)習(xí)數(shù)據(jù)管道，簡化 AI 部署。

圍繞 NVIDIA DGX POD 參考架構(gòu)和 NetApp ONTAP AI，英國劍橋咨詢公司構(gòu)建了一套專門的 AI 研究設(shè)施，用于訓(xùn)練一個能即刻準確識別各種音樂流派的 AI “狂熱愛好者”。

借助參考框架，其 AI 項目所帶來的對計算、存儲、網(wǎng)絡(luò)設(shè)施的需求均得到滿足。經(jīng)過在16臺 NVIDIA GPU 上接受數(shù)百小時的音樂訓(xùn)練，這位特殊的音樂愛好者，在“聽音識流派”的準確度上，甚至超越了人類和傳統(tǒng)編程。

AI 軟件：調(diào)優(yōu) DGX 硬件，降低管理門檻

除了設(shè)計優(yōu)化的 DGX 服務(wù)器、存儲服務(wù)器和網(wǎng)絡(luò)交換機組合，DGX POD 上還運行一整套適配的 NVIDIA AI 軟件堆棧，極大簡化 DGX POD 的日常操作與維護，為大規(guī)模多用戶 AI 軟件開發(fā)團隊提供高性能的深度學(xué)習(xí)訓(xùn)練環(huán)境。

▲ NVIDIA AI 軟件堆棧

NVIDIA AI 軟件包括 DGX 操作系統(tǒng)（DGX OS）、集群管理和協(xié)調(diào)工具、工作負載調(diào)度器、來自 NVIDIA GPU Cloud (NGC) 容器注冊表的和優(yōu)化容器，可以為使用者提供優(yōu)化的操作體驗。

DGX POD 管理軟件可根據(jù)需要，自動創(chuàng)新安裝 DGX OS。DGX OS 是 NVIDIA AI 軟件堆棧的基礎(chǔ)，基于優(yōu)化版 Ubuntu Linux 操作系統(tǒng)構(gòu)建，并專門針對 DGX 硬件進行調(diào)優(yōu)，支持各種 NVIDIA 庫和框架及 GPU 的容器進行時。

▲ DGX POD 管理軟件層

DGX POD 管理軟件層由 Kubernete 容器協(xié)調(diào)框架上運行的各項服務(wù)組成，可通過網(wǎng)絡(luò)（PXE）為動態(tài)主機配置協(xié)議（DHCP）和全自動 DGX OS 軟件配置提供服務(wù)。

通過使用其簡單的用戶界面，管理員可在由 Kubernetes 和 Slurm 管理的域中移動 DGX 服務(wù)器。未來 Kubernetes 增強功能預(yù)計在純 Kubernetes 環(huán)境中，支持所有 DGX POD 用例。

DGX POD 上的 NVIDIA AI 軟件可借助 Ansible 配置管理工具進行管理，白皮書中有提供其開源的軟件管理堆棧和文檔在 Github 上的鏈接。

智東西認為，DGX POD 一站式交付節(jié)點解決方案，不僅能加速數(shù)據(jù)中心的 AI 部署效率，同時也通過提供更強大的算力，大幅度提升數(shù)據(jù)的利用效率。

當前，很多數(shù)據(jù)中心剛剛踏入或計劃踏入 AI 的大門，而當下主流的深度學(xué)習(xí)算法必須配備專業(yè)的 AI 基礎(chǔ)設(shè)施?；?NVIDIA DGX POD 的架構(gòu)方案，對于快速構(gòu)建大規(guī)模 AI 計算集群非常具有參考價值。隨著此類基礎(chǔ)架構(gòu)逐漸普及，更多數(shù)據(jù)中心將得以消除設(shè)備與資本預(yù)算之間的鴻溝。

這只是 NVIDIA 打造 AI 就緒型數(shù)據(jù)中心宏圖的重要版面之一，利用 DGX-1、DGX-2 服務(wù)器和NVIDIA GPU 大規(guī)模計算架構(gòu)的發(fā)展進步，NVIDIA 正將機器學(xué)習(xí)、深度學(xué)習(xí)和高性能計算（HPC）擴展到更多的數(shù)據(jù)中心，為金融、能源、制造、電信、醫(yī)療、科學(xué)計算等更多行業(yè)的生產(chǎn)力提升提供動力引擎。

轉(zhuǎn)載請注明來自浙江中液機械設(shè)備有限公司 ，本文標題：《NVIDIA集成AI超算中心經(jīng)驗，打造AI就緒型數(shù)據(jù)中心》

linhuijia 353篇文章站點微博

每一天，每一秒，你所做的決定都會改變你的人生！

澳門一碼一肖一特一中是合法的嗎_揭秘,警惕虛假宣傳-浙江中液機械設(shè)備有限公司
王中王資料大全料大全1_揭秘,警惕虛假宣傳-浙江中液機械設(shè)備有限公司
2025年新澳門正版免費_揭秘,警惕虛假宣傳-浙江中液機械設(shè)備有限公司
2025澳門精準正版免費四不像_揭秘,警惕虛假宣傳-浙江中液機械設(shè)備有限公司
最準一肖一碼一孑一特一中_揭秘,警惕虛假宣傳-浙江中液機械設(shè)備有限公司
新澳天天開獎資料大全正版_揭秘,警惕虛假宣傳-浙江中液機械設(shè)備有限公司
新澳精準免費提供網(wǎng)料站_揭秘,警惕虛假宣傳-浙江中液機械設(shè)備有限公司
2024澳門特馬今晚開獎138期_揭秘,警惕虛假宣傳-浙江中液機械設(shè)備有限公司

發(fā)表評論取消回復(fù)

評論列表（暫無評論，39人圍觀）參與討論

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

super_admin管理員

最新文章

文章歸檔

網(wǎng)站收藏

NVIDIA集成AI超算中心經(jīng)驗，打造AI就緒型數(shù)據(jù)中心

發(fā)表評論取消回復(fù)

還沒有評論，來說兩句吧...

最近發(fā)表

友情鏈接

文章目錄

super_admin管理員

最新文章

文章歸檔

網(wǎng)站收藏

NVIDIA集成AI超算中心經(jīng)驗，打造AI就緒型數(shù)據(jù)中心

雞東疫情視頻最新消息，全面防控與積極應(yīng)對的最新進展，雞東疫情最新進展，全面防控與積極應(yīng)對的視頻更新消息

預(yù)防醫(yī)學(xué)招聘最新，預(yù)防醫(yī)學(xué)招聘最新動態(tài)及趨勢分析

粟海集團最新消息全面解讀，發(fā)展動態(tài)、創(chuàng)新突破及未來展望，粟海集團最新發(fā)展動態(tài)全面解讀，創(chuàng)新突破、發(fā)展展望與未來路徑

隨心刷最新版，暢享無憂——隨心刷最新版體驗

渝長廈高鐵最新消息，進展順利，未來交通更便捷，渝長廈高鐵進展順利，未來交通更便捷，最新消息匯總

魏縣最新新聞，魏縣最新新聞報道

最新釣鯽魚新聞，最新釣鯽魚新聞發(fā)布

最新的數(shù)字單位，最新數(shù)字單位概覽

澳門一碼一肖一特一中是合法的嗎_揭秘,警惕虛假宣傳-浙江中液機械設(shè)備有限公司

王中王資料大全料大全1_揭秘,警惕虛假宣傳-浙江中液機械設(shè)備有限公司

2025年新澳門正版免費_揭秘,警惕虛假宣傳-浙江中液機械設(shè)備有限公司

2025澳門精準正版免費四不像_揭秘,警惕虛假宣傳-浙江中液機械設(shè)備有限公司

最準一肖一碼一孑一特一中_揭秘,警惕虛假宣傳-浙江中液機械設(shè)備有限公司

新澳天天開獎資料大全正版_揭秘,警惕虛假宣傳-浙江中液機械設(shè)備有限公司

新澳精準免費提供網(wǎng)料站_揭秘,警惕虛假宣傳-浙江中液機械設(shè)備有限公司

2024澳門特馬今晚開獎138期_揭秘,警惕虛假宣傳-浙江中液機械設(shè)備有限公司

發(fā)表評論取消回復(fù)

還沒有評論，來說兩句吧...

最近發(fā)表

友情鏈接

文章目錄

NVIDIA集成AI超算中心經(jīng)驗，打造AI就緒型數(shù)據(jù)中心

雞東疫情視頻最新消息，全面防控與積極應(yīng)對的最新進展，雞東疫情最新進展，全面防控與積極應(yīng)對的視頻更新消息

預(yù)防醫(yī)學(xué)招聘最新，預(yù)防醫(yī)學(xué)招聘最新動態(tài)及趨勢分析

粟海集團最新消息全面解讀，發(fā)展動態(tài)、創(chuàng)新突破及未來展望，粟海集團最新發(fā)展動態(tài)全面解讀，創(chuàng)新突破、發(fā)展展望與未來路徑

渝長廈高鐵最新消息，進展順利，未來交通更便捷，渝長廈高鐵進展順利，未來交通更便捷，最新消息匯總

魏縣最新新聞，魏縣最新新聞報道

最新的數(shù)字單位，最新數(shù)字單位概覽

還沒有評論，來說兩句吧...