地址:北京市密云區(qū)高嶺鎮(zhèn)政府辦公樓
王經(jīng)理 13393261468
Q Q:514468705/1049705527
郵箱:jhcxkj@163.com
Uptime Institute的一項調(diào)查研究顯示,高達十分之一的機柜運行在溫度高于設備可靠性指導原則所推薦的允許范圍。目前數(shù)據(jù)中心的機柜功率密度不斷攀升,平均每臺機柜的功率密度達到5kW甚至更高,因此,預計受熱點困擾的機柜數(shù)量將與日俱增,很快超過上述比例。
如果熱點遲遲無法消除,時間一久便可能帶來嚴重的威脅,不僅危及IT設備的可靠性與性能,還會影響硬件制造商的保修或維護協(xié)議。因此,數(shù)據(jù)中心運維人員需盡早采取有效措施,避免出現(xiàn)此類風險。
1. 什么是熱點
許多IT專業(yè)人員經(jīng)常查看熱通道的溫度,或在冷通道的錯誤位置查看溫度,一旦發(fā)現(xiàn)溫度過高,便自認為發(fā)現(xiàn)了熱點。然后,他們會采取各種應對措施,但結果可能令人失望,非但未能消除熱點,反而引發(fā)更多的熱點。搞清究竟什么是熱點、熱點的根本起因以及如何識別熱點對于根除熱點至關重要。
(1) 熱點的定義
不能將數(shù)據(jù)中心內(nèi)隨機測得的任何高溫點都視作熱點。我們將熱點定義為:當IT設備進風口的溫度高于ASHRAETC9.9所推薦的期望值,即視作熱點。一般機柜頂部的位置最容易產(chǎn)生熱點。美國供熱、制冷與空調(diào)工程師學會(ASHRAE)的熱指南給出了服務器進風口處溫度的推薦值及允許值范圍。
(2) 熱點產(chǎn)生的根源
數(shù)據(jù)中心所安裝制冷裝置的制冷量經(jīng)常供大于求,特別是當制冷量完全由IT設備“銘牌”上的額定值所決定。倘若如此,那么為何還會出現(xiàn)熱點?究其原因,熱點的產(chǎn)生并非是制冷量不足或熱負荷過大,而是制冷量未能得到充分的使用,換句話說,制冷量是充足的,但未能在需要制冷的區(qū)域提供充分的制冷量,這是由于缺乏氣流管理所造成的。
圖1是一個制冷量未被充分利用的例子,這是來自施耐德電氣對一個真實案例的研究。圖中顯示了一個采用房間級制冷的傳統(tǒng)典型數(shù)據(jù)中心,它的高架地板和吊頂用作送風和回風通道。機房空調(diào)先是以一定的壓力和速度將冷風送入地板通道。然后,冷風通過高架地板中的穿孔地板(占機房空調(diào)氣流的54%)和地板上線纜切口(占機房空調(diào)氣流的46%)從地板通道進入IT空間(即泄漏氣流)。
地板上線纜切口的泄漏氣流會導致制冷量的損失,因為氣流無法到達IT設備的前方,而是繞過了設備。事實上,這些氣流并未帶走任何熱量,而是又繞回到制冷單元。
通過穿孔地板的大部分氣流(占穿孔地板風量的96.29%)都流經(jīng)IT機柜中的設備,但由于缺乏氣流管理,并非全部氣流都通過設備。一小部分冷風(占穿孔地板風量的3.71%)繞過IT設備又返回到制冷單元。與泄漏氣流相同,這些旁通氣流也會造成制冷量損失。同時,某些“亟需冷卻”的IT設備無法獲得足夠的冷量,而不得不從機柜后部吸入設備排出的熱風(占IT氣流量的7.15%),這經(jīng)常在“亟需冷卻”的IT設備的前方造成熱點。簡而言之,用于減少氣流泄漏、旁通與再循環(huán)的措施將有助于熱點的消除。
(3) 如何識別熱點
盡早發(fā)現(xiàn)熱點對于防止IT設備過熱和故障至關重要。我們可以通過以下三種方法發(fā)現(xiàn)熱點:
其他有助于識別或預防潛在熱點的建議包括利用計量型機柜式PDU識別并檢查高密度(功率密度在5kW以上的)機柜——因為這些機柜出現(xiàn)熱點的可能性更高。在決定進行移動、添加和更改機柜操作后或在數(shù)據(jù)中心設計階段,利用CFD軟件預測熱點。CFD模擬技術可以提供機柜前部溫度與壓力云圖以及機柜周圍氣流分布的詳細三維分析,從而發(fā)現(xiàn)潛在熱點。該工具的強大之處在于可以發(fā)現(xiàn)哪些區(qū)域的制冷量被浪費,哪些區(qū)域存在冷熱氣流混合,導致制冷量未被充分利用。
2. 評估所采取的傳統(tǒng)措施
當發(fā)現(xiàn)熱點,數(shù)據(jù)中心運維人員會采取各種應對措施。不過,并非所有的措施都會奏效。下文將介紹一些傳統(tǒng)的應對措施,并闡述這些措施奏效/無效的原由。請注意大部分措施對于減少氣流旁通或再循環(huán)根本無濟于事。
(1) 調(diào)低制冷單元的溫度設定值
調(diào)低送風溫度有助于減少熱點的說法貌似合乎邏輯,但在處理熱點時實為不得已而為之的下下之策,因為這會降低整個制冷系統(tǒng)的效率和制冷量。這種方法的效果取決于機房空調(diào)的工作狀態(tài)。如果制冷系統(tǒng)尚有多余容量(即工作負載不足100%,未達到制冷極限),那么調(diào)低溫度設定值的做法具有積極的效果。對于靠近機房空調(diào)位置的熱點,調(diào)低溫度設定值可以降低熱點處的溫度。但倘若機房空調(diào)正以最大容量(100%滿負載)運行,由于系統(tǒng)已達到制冷極限,調(diào)低溫度設定值是沒有效果的,所以無法消除熱點。每個制冷系統(tǒng)在給定環(huán)境條件下都有固定的最大制冷容量。溫度設定值調(diào)低后,“最大”制冷容量也隨之降低。
(2) 在熱通道中放置穿孔地板
有人認為這方法很好,這是因為他們不了解冷通道/熱通道布局設計的優(yōu)勢,而將所有高溫現(xiàn)象都視作熱點。事實上,這種方法非但不能消除冷通道中的熱點,還有可能引發(fā)更多熱點。此外,在熱通道中放置穿孔地板(即造成氣流旁通)還會減少可用的制冷量。冷通道/熱通道布局設計是最為行之有效的方法,因此熱通道中根本不存在熱點。由于冷通道是IT設備獲取制冷量的“冷量容器”,對于IT設備而言,在冷通道內(nèi)保持低溫至關重要。在風冷型大型設備盛行初期,往往通過高架地板提供冷量,制冷單元根據(jù)回風溫度進行控制。這種方法之所以奏效是因為室內(nèi)空氣溫度均一,冷熱氣流充分混合。而如今,冷通道/熱通道的布局設計中特意分別建立冷熱兩個溫度區(qū),形成回風溫度的不均一。習慣于均一室內(nèi)溫度設計的人員可能會在熱通道中放置穿孔地板,認為這樣做就可以解決熱點問題。
(3) 將機柜和穿孔地板緊靠制冷單元
有人會覺得將機柜和穿孔地板盡量緊靠制冷單元的做法不錯,這是因為他們假定放置在距離制冷單元幾英尺范圍的機柜和穿孔地板能獲得較多的制冷量。但事實上,效果恰恰相反。它可能導致IT設備出現(xiàn)供冷不足的現(xiàn)象,且無法持續(xù)消除熱點。雖然這一做法可以幫助收集大部分排熱,但不具有可預測性,并不是解決熱點的高效做法。而這種做法導致IT設備出現(xiàn)供冷不足現(xiàn)象的原因在于,從制冷單元送出的氣流具有很高的速度,導致該片區(qū)域內(nèi)的靜壓很低。這也就是說,該片區(qū)域內(nèi)安裝的穿孔地板的供冷量很小,甚至可能會將房間內(nèi)的氣流吸入地板通道內(nèi)。
確定高架地板下的氣流是否存在問題有一個很簡單的做法,那就是在穿孔地板上方放置一小紙片。如果紙片被吸向穿孔地板內(nèi),則應將穿孔地板更換為實心地板,以平衡高架地板下的通道壓力。
(4) 將落地扇置于熱點機柜前
有人認為此舉可將氣流直接集中在某個熱點的前方,因此是一種消除熱點的好方法。但是,這種方法只能在緊急狀況下臨時使用,如IT設備即將發(fā)生制冷中斷時。這種做法可以降低設備的運行溫度從而消除熱點,但成本極高。落地扇的作用基本相當于一個氣流混合器,將設備排出的熱風與冷風混合,使氣流的溫度介于低送風溫度和高排風溫度之間。這還會增加通過設備的氣流量。冷熱風的混合還會降低制冷系統(tǒng)效率,造成增加除濕/加濕負擔,制冷系統(tǒng)容量利用不充分,并可能因制冷冗余造成損失。此外,落地扇還會成為數(shù)據(jù)中心內(nèi)的附加熱源。
(5) 將氣流吹過冰并送入冷通道
有人認為用冰降溫是一種簡單易行的好方法。雖然此方法有助于緩解熱點問題,但冰融化后會變成水,可能溢出容器,造成嚴重后果。即便使用包裝好的冰袋,這種方法也并非上策,因為還有很多更簡單有效的方法。我們將在下文中詳細討論這些方法。
(6) 推入便攜式制冷單元
有人認為這是一種解決問題的好方法,因為此舉可將冷風直接集中在某個熱點的前方。但這種方法只能在緊急狀況下臨時使用,如IT設備即將發(fā)生制冷中斷時。遺憾的是,人們經(jīng)常將這種方法用作永久性解決方案。便攜式制冷單元一般是在失去制冷的情況下應急使用,因為數(shù)據(jù)中心工作人員可以很方便地將其推入到位。然而,對于如何妥善解決遍布數(shù)據(jù)中心的熱點問題,下面所討論的最佳方法才是首選的永久性解決方案,不但成本低廉而且非常奏效。
(7) 增加更多制冷單元
有人很自然地將熱點問題與制冷量不足關聯(lián)起來,因此認為增加制冷單元不失為一種理想方法。然而,在多數(shù)情況下,制冷量非常充足,只是由于缺乏氣流管理,導致到達制冷需求點的制冷量未達到要求的水平。此外,這種方法并非萬能,而且在解決熱點問題的同時還會產(chǎn)生大量費用支出。Uptime Institute的一項調(diào)查研究顯示,雖然某些IT機房的制冷量已高達需求量的15倍,但機房中仍有7%到20%的機柜存在熱點。究其原因,竟是送入的冷風繞過了IT設備的進風口。正確的解決方案是采用下面所討論的最佳方法,然后再核定是否需要增加制冷單元。
3. 消除熱點的新方法
以上方法司空見慣,但我們大都不推薦使用,因為這些方法對于造成熱點的兩個主要起因(即氣流旁通與再循環(huán))無能為力。如要杜絕氣流旁通與再循環(huán)現(xiàn)象,必須將冷熱氣流完全分離,這樣熱點就根本不會存在。下面的前四種最佳實踐之所以有效,正是因為這些實踐解決了氣流旁通或再循環(huán)問題,或同時解決了這兩個問題。最后一個新方法只有在氣流管理完全落實到位之后方可采用。
(1) 管理機柜氣流
許多熱點的出現(xiàn)是因為設備排出的熱風在機柜內(nèi)部或機柜周圍發(fā)生再循環(huán)。因此,改善機柜氣流管理對于解決熱點至關重要。開放的機柜U空間和進出線口是造成熱風再循環(huán)的主要原因,直接導致熱點產(chǎn)生。改善機柜氣流狀況最簡單、最經(jīng)濟有效的方法之一是利用盲板封堵未使用的機柜U空間,并在機柜的進出線口位置安裝毛刷。企業(yè)應更新數(shù)據(jù)中心運行流程,規(guī)定凡有移動、添加和更改操作,便要安裝盲板和毛刷。
某些類型的交換機和路由器采用側向氣流。如果在安裝這些設備的數(shù)據(jù)中心內(nèi),機柜氣流采用從前向后的傳統(tǒng)模式,則交換機/路由器的排出的熱風可能返回進風口并造成熱點。
我們可以利用機柜側向氣流分配單元以可預測方式直接向側向氣流設備送入冷風,而不會造成熱點。如果平均制冷總量充足,但在功率密度高于均值的機柜中產(chǎn)生熱點,此時可以增加風機輔助型設備,通過改進氣流狀況和增加制冷量來改善制冷效果。風機輔助型設備設備可有效地從功率密度為3kW以下負載的相鄰機柜“借用”氣流以支持機柜負載。此方法可最大限度地降低機柜頂部和底部間的溫差,并防止設備排出的熱風再循環(huán)至機柜的進風口。所有排風設備在部署時必須十分小心,以確保來自相鄰空間的氣流不會造成相鄰機柜溫度過高。這些設備應使用UPS供電,避免設備在斷電期間發(fā)生制冷中斷。在高密度環(huán)境中,啟動備用發(fā)動機期間也可能發(fā)生過熱現(xiàn)象。
(2) 管理機房氣流
在改善機柜氣流管理后,下一個重要步驟是改善機房內(nèi)的氣流管理。首先,是密封高架地板中所有的開口。使用毛刷密封機柜后部和PDU下面的進線口。導致意外氣流泄漏大都由這些開口造成。還可利用空氣阻尼泡沫或軟墊密封制冷單元周圍的縫隙和其他地板空隙,在地板缺損的部位鋪上實心地板,找出造成氣流旁通的穿孔地板并改用實心地板。例如,如果一個空機柜前鋪了穿孔地板,則應將其換為實心地板。此外,還可遵照側欄中的操作程序?qū)Φ匕逑碌臍饬鬟M行重新平衡。正確鋪設地板并密封高架地板中的縫隙有助于回收利用損失的制冷量。
另一個導致熱點問題的因素是機柜頂部上方和機柜行末端周圍發(fā)生的冷熱氣流混合。解決這一問題的一個最佳實踐是通過遏制通道和/或機柜氣流將冷熱氣流分開。通道氣流遏制不僅有助于消除熱點,與傳統(tǒng)的非氣流遏制數(shù)據(jù)中心設計相比還更加節(jié)能。
可以用一個送風設備替換機柜的后門,從而將其變?yōu)橐粋€主動式風管機柜。需注意這些設備將使機柜的總深度增加大約250mm,這可能會增大每兩行相鄰機柜之間的間距。通常情況下排入熱通道的熱風會被收集起來并向上推送,然后沿管道進入回風通道。此舉可防止氣流在機柜進行再循環(huán)并提升制冷系統(tǒng)的效率和制冷量。主動式獨立垂直風管系統(tǒng)中的風扇可支持高達12kW的機柜功率密度,并能克服不佳通道壓力或因服務器排風口線纜過度密集而導致的壓降。但主動式垂直風管系統(tǒng)很容易為數(shù)據(jù)中心的其他區(qū)域帶來意想不到的問題,因此在部署安裝時應格外小心。在這些設備中必須使用盲板和機柜側面板。主動式風管系統(tǒng)是耗電設備,因此需要監(jiān)控和維護。
(3) 轉(zhuǎn)移問題負載
如上所述,轉(zhuǎn)移問題負載的方法是在發(fā)現(xiàn)“問題”負載之后將其轉(zhuǎn)移到低密度機柜,從而消除熱點。為機房配備制冷設備,讓機房冷卻到低于機柜潛在峰值的一個平均值,并將負載分攤到幾個機柜,從而將任何負載超過設計平均值的機柜負載分流。請注意,將設備負載分攤到多個機柜會使機柜內(nèi)出現(xiàn)大量未使用的垂直空間。必須用盲板將這些空間密封,防止制冷性能降低。如果可以拆除一臺服務器或其它關鍵性設備,此舉幾乎毫無成本卻可解決熱點問題。
(4) 改變溫濕度傳感器的位置
在多數(shù)陳舊的數(shù)據(jù)中心,都是在機房空調(diào)回風氣流中安裝溫度探測器,使得氣流具有不可預測性。此舉還會導致機房空調(diào)負載不均衡,從而使服務器進風口的溫度發(fā)生波動。將溫度探測器轉(zhuǎn)移到送風氣流中(這里的送風可控制而且可預測)可使IT設備進風口的溫度更加平穩(wěn)。如果與氣流遏制方法結合使用,改變溫度探測器的位置還能提高送風溫度,從而減少制冷系統(tǒng)的能耗,同時無需擔心送風溫度是否會有大幅波動。
(5) 利用數(shù)據(jù)中心基礎設施管理軟件控制制冷單元的氣流
有些系統(tǒng)可以根據(jù)IT機柜前方的溫度控制單個機房的制冷單元。這些系統(tǒng)可使用模糊算法動態(tài)預測和調(diào)整制冷單元的風扇轉(zhuǎn)速,并測算哪些制冷單元可關閉。通過控制進入數(shù)據(jù)中心的風量可以限制旁通氣流量。Vigilent制冷系統(tǒng)就是這種系統(tǒng)的一個典型。
4. 結束語
熱點會嚴重影響服務器的可靠性和性能,甚至會造成服務器的損壞。熱點通常出現(xiàn)在IT設備的進風口位置,原因包括低效的氣流管理,如冷氣流泄漏(即氣流旁通)和設備排出的熱風再循環(huán)等問題。巡視感知溫度、手動測量溫度或自動監(jiān)測是三種識別熱點的主要方法。
數(shù)據(jù)中心運維人員為消除熱點,采用了許多應對措施,但大都不盡人意,有的僅能作為應急情況使用,而有的卻無濟于事,有的甚至會使問題雪上加霜。消除熱點的最佳實踐包括機柜和機房的氣流管理、氣流遏制、問題設備轉(zhuǎn)移、改變溫度傳感器位置以及通過數(shù)據(jù)中心物理基礎設施管理軟件控制制冷單元的氣流。用這些方法解決熱點問題不僅簡單易行,而且成本低廉,行之有效。
來源:機房空調(diào) http://preweds.com/