“現(xiàn)在選擇冷板式的液冷初投資已經低于風冷?!痹诮诘囊粓霭l(fā)布會上,曙光數(shù)創(chuàng)副總裁張鵬表示,經過公司內部的建設測算,即便是浸沒式液冷系統(tǒng),運行4.5年也將出現(xiàn)TCO低于風冷系統(tǒng)的拐點。
成本的優(yōu)化——乃至相對風冷形成優(yōu)勢,意味著液冷方案將正式進入市場拓展階段。同時當前在算力以及經濟節(jié)能需求提升背景下,液冷方案在算力中心高功率密度場景中的部署必要性凸顯。
(資料圖片)
▍高密度算力加速液冷方案推廣
AI大模型帶來了更高密度、更大規(guī)模的數(shù)據(jù)中心建設需求。實際我國算力與存力建設一直處于高速發(fā)展階段,截至2022年底,國內算力總規(guī)模達180EFLOPS,存力總規(guī)模超過1000EB。
在數(shù)據(jù)中心建設規(guī)模與密度都在不斷加快和提升的情況下,當前液冷技術的推廣投用有兩大驅動因素,一是算力需求提升,計算中心形成更加剛性的散熱需求;二是出于節(jié)能經濟層面的考慮。
“算力芯片功率不斷提高,用戶對機柜部署密度的要求也在越來越高?!笔锕鈹?shù)創(chuàng)總裁何繼盛表示,在單機柜功率密度達到20KW以上,繼續(xù)增加投資都不能滿足數(shù)據(jù)中心散熱需求。液冷已經成為一種更有效的解決數(shù)據(jù)中心高密度散熱的新型技術。
張鵬表示,“現(xiàn)在風冷方案在大于10KW之后經濟性很差,冷板目前部署過的項目有做到60多KW的,之后隨著AI需求下對GPU的更多投用,機柜功率密度可能更高,相變浸沒甚至能做到150KW”。
天風證券以英偉達DGX A100 640GB為例,指出其配置了8片A100 GPU,系統(tǒng)功耗最大6.5千瓦,未來隨著A100服務器應用增多,數(shù)據(jù)中心機柜功耗或將進一步提升,單機柜的功率或將超過30KW,更適宜應用液冷冷卻方案,從而帶動數(shù)據(jù)中心液冷應用需求。
計算中心機柜密度提升后,還將會帶來制冷系統(tǒng)造價成本的提升。
從賽迪顧問的數(shù)據(jù)中心能耗分析數(shù)據(jù)來看,過去傳統(tǒng)數(shù)據(jù)中心建成后,電費占運維總成本的60%-70%;數(shù)據(jù)中心有一半以上的電能用于計算機等IT設備,有近三分之一的電能則是用于冷卻系統(tǒng)。
張鵬表示,相比風冷,“冷板式液冷的節(jié)能效率將能夠降低25%的用電,相變浸沒則是到30%以上”。
實際上,算力中心的耗能成本水平,可用能效比這一概念更加直觀地去衡量。從數(shù)據(jù)中心模式誕生起,高耗能便成為一項“原罪”,PUE則被用來衡量數(shù)據(jù)中心消耗的所有能源與IT負載使用能源的比例。PUE越接近1,代表能效水平越好。
據(jù)了解,行業(yè)頭部冷板式液冷方案的PUE值可小于1.20,曙光數(shù)創(chuàng)浸沒相變式液冷PUE可進一步小于1.04。高算力、低PUE,以及用戶對于成本控制的需求,讓性能、能耗、成本的三元關系平衡,成為當前每個數(shù)據(jù)中心建設者、管理者和運營者面臨的難題和挑戰(zhàn)。液冷方案幾乎成為無可質疑的選擇。
在算力壓力和成本壓力雙雙攀升的同時,行業(yè)政策對數(shù)據(jù)中心能效提出更高要求。今年6月,多部門聯(lián)合印發(fā)的《綠色數(shù)據(jù)中心政府采購需求標準》施行,其中明確要求,2023年6月起數(shù)據(jù)中心PUE不高于1.4,2025年起數(shù)據(jù)中心PUE不高于1.3。與此同時北京、上海、深圳等地方亦分別出臺相關標準。
▍液冷成本初現(xiàn)比較優(yōu)勢 運營商籌劃規(guī)模落地
從近年國家出臺的多項算力中心發(fā)展指導政策來看,“更加強調算力運行效率,強調企業(yè)個人責任”。工信部旗下研究機構賽迪顧問分析師袁鈺表示,不僅要求企業(yè)竭盡全力為自身帶來最大利潤,同時也要對整個行業(yè)、生態(tài)負起一定的責任,“算力建設不能按照原先那種比較粗放的方式進行推廣了”。
根據(jù)國家發(fā)布的算力總規(guī)模的情況,預計到2025年將會有超過300EFLOPS的算力規(guī)模,而考慮到AI大模型這一今年以來的最重要變量,賽迪顧問測算后,預計到2025年可以超過1000EFLOPS的算力需求。
袁鈺表示,國家政策層面的基礎設施一體化、地區(qū)算力平衡化,將催生數(shù)據(jù)中心集群的重大散熱需求。目前新建數(shù)據(jù)中心中,按照曙光數(shù)創(chuàng)方面統(tǒng)計和估算,有5%到8%采用的是液冷方案,張鵬認為,到2025年這一數(shù)字將會是30%。
賽迪顧問《2023中國液冷應用市場研究報告》顯示,國內液冷數(shù)據(jù)中心市場近三年來飛速發(fā)展,市場部署規(guī)模達到111.6MW。但實際上,成本一直是液冷方案在過去難以大范圍推廣、發(fā)展進展受限的最核心因素。
不過目前有行業(yè)信號顯示,液冷投入成本得到了有效改善。
以曙光數(shù)創(chuàng)為例,公司副總裁張鵬近期表示,經過公司自己內部的建設測算,現(xiàn)在選擇冷板式的液冷投資已經低于風冷,浸沒式液冷系統(tǒng)運行4.5年后也將出現(xiàn)TCO低于風冷系統(tǒng)的拐點。
張鵬接受記者采訪表示,隨著液冷應用的越來越廣泛,產業(yè)鏈上游到下游肯定會有越來越多的供應商會去往這個方向投入,成本隨著行業(yè)大家共同努力也會有降低。
從行業(yè)來看,液冷正在有計劃地大規(guī)模落地。今年6月,中國移動、中國電信、中國聯(lián)通三大運營商聯(lián)合發(fā)布《電信運營商液冷技術白皮書》。其中提到的三年發(fā)展愿景指出,三大運營商將于2023年開展技術驗證;2024年開展規(guī)模測試,新建項目10%規(guī)模試點液冷技術;2025年開展規(guī)模應用,50%以上項目應用液冷技術,共同推進形成標準統(tǒng)一、生態(tài)完善、成本最優(yōu)、規(guī)模應用的高質量發(fā)展格局。
不僅如此,字節(jié)跳動等對數(shù)據(jù)中心有大量布設需求的互聯(lián)網公司,也在推動以冷板液冷為主的技術方案。日前火山引擎相關負責人在一場演講中表示,冷板液冷是高功率密度和高效散熱平衡的絕佳解決方案,適合于大多數(shù)地區(qū)氣候條件,具備極高性價比。
▍液冷行業(yè)標準暫缺
不可忽視的是,成本因素之外,目前液冷技術推廣還面臨其他挑戰(zhàn)。
近期,曙光數(shù)創(chuàng)副總裁張鵬接受等媒體采訪表示,目前公司液冷部署的客戶服務案例,既包括新增業(yè)務,也有存量改造。他提到,部分原有機房大多按照風冷數(shù)據(jù)中心進行設計,機房承重對部署液冷設備會有一些困難,同時老舊機房用電容量并沒有液冷數(shù)據(jù)中心這么大、沒有按照高功率密度的部署方式考慮,都會對存量市場業(yè)務提出一些挑戰(zhàn)。
另外,液冷行業(yè)標準各異,兼容、互通較為困難。
據(jù)了解,很多液冷廠商有自己的液冷產品以及基礎設施產品,目前華為、浪潮、曙光、阿里均在冷板式液冷或浸沒式液冷方案中具備交付或部署能力。但是不同品牌之間往往并不兼容,對于數(shù)據(jù)中心用戶來說,往往需要采購不同類型的產品,以此保證系統(tǒng)運行穩(wěn)定性。
張鵬表示,首先如果行業(yè)標準對于供水的溫度、溫差、壓力等能夠統(tǒng)一,對液冷成本進一步下降是非常有意義的,也是他們在實際落地中遇到的問題。
在實際業(yè)務開展過程中,張鵬也發(fā)現(xiàn),行業(yè)標準的不一,甚至滋生了損害社會經濟效益的行為。“業(yè)內存在為了達到PUE要求,人為把服務器的風扇設備功耗調高的情況。因為PUE本身衡量的是除服務器之外的液冷系統(tǒng)、配電系統(tǒng)的損耗多少,把分母做大、PUE就降低了?!?/strong>
這意味著沒有任何技術升級、社會效益沒有任何提升,單純?yōu)榱思埫鏀?shù)據(jù)而徒增耗能。張鵬表示:“其實這反映的是,新形勢下對數(shù)據(jù)中心或者對服務器能效評價是有問題的,都還需要標準更新、統(tǒng)一”。