微信公眾號
2023.09.07
如今,機器學(xué)習的興起導致數據中心的功率密度越來(lái)越高,在部署了大量服務(wù)器的數據中心中,每個(gè)機架的功率密度達到了30kW到50kW,這促使一些數據中心運營(yíng)商轉向液體冷卻而不再采用空氣冷卻技術(shù)。
雖然一些數據中心運營(yíng)商使用液體冷卻來(lái)提高其設施的效率,但其主要原因是需要冷卻更高功率密度的機架。
但是從空氣冷卻到液體冷卻的轉換并不簡(jiǎn)單。以下是在數據中心采用液體冷卻技術(shù)所遇到的一些主要障礙:
1.需要采用兩種冷卻系統
歐洲托管數據中心巨頭Interxion公司數據中心首席技術(shù)程官LexCoors表示,對于現有的數據中心來(lái)說(shuō),一次性轉換為液體冷卻幾乎沒(méi)有意義,而很多數據中心設施的運維團隊將不得不管理和運營(yíng)兩種冷卻系統,而不是一種。
這使得液體冷卻成為新建數據中心或需要進(jìn)行重大改造的數據中心的更好選擇。
但總有例外,對于超大規模制造商來(lái)說(shuō)尤其如此,其獨特的數據中心基礎設施問(wèn)題往往需要獨特的解決方案。
例如,谷歌公司目前正將其許多現有數據中心的空氣冷卻系統轉換為液體冷卻系統,以應對其最新機器學(xué)習的TPU3.0處理器的功率密度。
2.缺乏行業(yè)標準
缺乏液體冷卻的行業(yè)標準是該技術(shù)很難廣泛采用的主要障礙。“客戶(hù)首先必須配備自己的IT設備,以便進(jìn)行液體冷卻。”Coors說(shuō),“而且液體冷卻技術(shù)的標準化并沒(méi)有完善,組織不能簡(jiǎn)單地采用并讓它運行。”
3.觸電危險
許多液體冷卻解決方案主要依賴(lài)于介電液體,其介質(zhì)應該不導電并且不存在觸電危險。但有些組織可能會(huì )使用冷水或溫水進(jìn)行冷卻。
4.腐蝕
與任何涉及液體管道的系統一樣,腐蝕是液體冷卻技術(shù)面臨的一個(gè)主要問(wèn)題。
“管道的腐蝕是一個(gè)大問(wèn)題,這是人們需要解決的問(wèn)題之一。”Coors說(shuō)。液體冷卻制造商正在改進(jìn)管道以降低泄漏風(fēng)險,并在發(fā)生泄漏時(shí)自動(dòng)密封管道。
5.運營(yíng)的復雜性
采用液體冷卻的最大風(fēng)險可能是運營(yíng)復雜性增加,該公司計劃在明年年初在高性能云計算數據中心推出液體冷卻服務(wù)。當采用液體冷卻技術(shù)為芯片冷卻時(shí),液體流經(jīng)服務(wù)器中的每個(gè)CPU或GPU,就需要為冷卻過(guò)程添加很多組件,這增加了失敗的可能性。