資料來源:
901 Tryens Road, Aston, PA 19014
877-373-2700
contact@sensaphone.com
早期檢測策略有助於保護關鍵設備
IT
專業人員使用能夠警覺駭客和病毒跡象的系統保護數據中心。網路安全對於保護 IT
基礎設施,及其支持軟體和硬體十分重要。然而除了網路攻擊之外,數據中心還潛伏著不太複雜的威脅。這些威脅往往被忽視,直到為時已晚。
溫度過高、氣流不當、濕度不受控制、電源中斷和漏水等環境風險可能會損壞數據中心設備。反過來隨著
IT人員修復損壞,這些問題可能會導致公司大量停機。此外路由器、服務器和列表機等硬體可能會出現故障。網路連接可能會斷開連接或變得脆弱和不可靠。
如果您負責管理數據中心,則無法控制環境條件的意外變化,或是設備故障。但是當事件發生時,您可以立即收到警報,以便您可以立即採取行動。
以下是保持數據中心持續正常運行時間的六個技巧。
一、溫度監測
如果不加以控制,過熱會迅速使功能齊全的數據中心完全關閉。溫度升高還可能顯示各種問題,例如 CRAC/CRAH
或冷卻裝置故障,冷卻劑管線洩漏,公用電源中斷或空氣流通受限。它是可以證明需要額外的冷卻來處理最近增加的服務器 pod。
溫度每升高一度,服務器崩潰的可能性就會顯著增加,而且崩潰可能不會立即發生。由於過熱會削弱組件,因此系統的許多部分在過熱事件後可能會變得容易出現故障。
數據中心有這麼多設備,預測工作負載和產生熱量是很棘手的。傳統上電腦房具有與工作時間表和工作量相關的可預測的熱量模式。如今,數據中心擁有更多動態工作負載。應用程序可以很容易地從一台服務器移動到另一台服務器,從而導致
CPU 使用率的變化,熱量則由從服務器轉移到服務器,和行到行。監測溫度的最佳方式取決於房間的大小、單元的數量、空間的空調和熱源的集中度。
使用適當放置的溫度感測器,此遠程監控系統可以幫助檢測整個數據中心特定區域的過熱。為了區分冷空氣不足和服務器過熱,應該將溫度感測器放置在冷空氣供應處、靠近服務器的機架內,以及中性區域以獲取平均讀數。如果只監控空調系統,當檢測到空調單元出現問題時,要挽回機房設備的損壞可能已經太遲。通過監測房間內不同位置的溫度讀數,將知道何時出現問題並能夠識別可能的來源。
推薦的溫度感測器放置位置
1.在控制室溫的恆溫器旁邊
2.每個機架前門上有兩個感測器
3.每個機架背面中間有一個感測器
4.每個增壓室有一個感測器
二、氣流監測
僅靠空調不足以保護您的 CRAC/CRAH
系統。監控氣流十分重要,以確保冷空氣進入服務器進氣口,並且將服務器發出的熱空氣被正確排出。適當的氣流可控制靜電,並防止電腦風扇上的灰塵堆積而可能導致設備崩潰。
氣流減少可以提醒注意過濾器堵塞、鼓風機電機故障或風扇不平衡等問題。越早得知通風故障,就可以越快採取行動防止服務器性能下降、設備損壞和完全關閉。
使用帶有監控系統的氣流感測器,有助於確定冷卻效率的潛在問題,並量測氣流速率以衡量環境的整體健康狀況。氣流感測器檢測冷空氣是否流動,並且可以在過熱問題發生之前,發現潛在的低效問題。
這些感測器可以提供相對氣流,並且可以利用現有的網路佈線基礎設施。它們對於及早發現氣流故障十分重要。還可用於進行趨勢分析,幫助確定是否需要調整數據中心配置以改善氣流。
推薦的氣流感測器位置
1.在每個供應冷空氣
2.每個回流熱空氣
三、濕度監測
濕度是一種經常被忽視的環境條件。但對數據中心而言,它與溫度一樣重要。高濕度會導致冷凝。長期的冷凝問題將導致數據中心環境中的組件腐蝕和損壞。然而過低的濕度會在關鍵部件,例如
CPU、RAM 驅動器、硬碟驅動器和主機板上,產生靜電放電。
正確保持正確濕度水準的唯一方法是對其進行監控。許多外部因素會改變數據中心的內部濕度水準,尤其是在使用空氣側節能器系統的情況。當從外部引入冷空氣以冷卻數據中心時,空氣需要經過加濕或除濕過程。
監控系統可以跟踪 0%-100%
的濕度水準。濕度感測器對於任何規模的服務器機房都很重要。可以防止設備和組件的潛在劣化。由於整個數據中心的濕度水準可能不同,因此應該改變感測器的位置。考慮將它們放置在服務器入口的頂部、中間和底部,靠近機房空調以及遠離設備和
HVAC 通風口的房間中性位置。
推薦的濕度感測器位置
1.每 5 個機架有 1 個
2.在每個空氣返回口附近
3.靠近濕度控制系統
四、電源監控
電源不可避免地會發生故障。這時數據中心中的不間斷電源 (UPS)
會維護服務器,直到自動轉換開關 (ATS) 需要發電機供電。即使有 DCIM,也最好有一個備用監控系統,該系統可以立即通知來自UPS、配電單元
(PDU) 和其他關鍵設備的警報。
每個服務器機架通常都有一個由 PDU 供電的插座板,每個插座的負載由
PDU 本身監控。 PDU 有一個內置報警面板。當檢測到任何這些stripes或主 PDU 出現電源問題時,該面板將觸發輸出繼電器。
監控系統可以很容易地整合到 PDU
警報面板中,以便電源中斷立即通知。對於備用監控,可以將外部功率感測器插入每個條帶以監控電壓下降。此備份將確保每個條帶都通電。如果 PDU
未能觸發繼電器或發送警報,您可以立即從監控系統獲取所需資訊。
每個 UPS
都整合了自我檢測功能。此自我檢測提供對電池容量、AC/DC
負載和充電系統的診斷。它還可以提供電源故障模擬。如果這些內部測試中的任何一個失敗,警報面板將顯示故障並啟動繼電器輸出。為 UPS
上的一般警報輸出配備監控系統將立即生成警報通知,以便採取糾正措施。在電源故障期間只能獲得一以通知,並且系統需要完美運行。
備用電源的另一個關鍵組件是 ATS。 ATS
將負載轉移到備用發電機,還可以建議發電機啟動。通常情況下會有延遲,在此期間,UPS
單元應保持為數據中心供電。大多數轉換開關都包括專門用於報警目的的輔助幹觸點。監控系統無縫整合到此警報輸出中。
推薦的報警觸點監控
1.空氣處理器,CRAC/CRAH 報警面板
2.UPS和PDU報警面板
3.火災報警面板
4.自動轉換開關
五、漏水監測
數據中心上方和下方發生的事情不應該是個謎。但是由於管道爆裂,空調機組和冷卻系統洩漏,自動噴水滅火系統出現故障。在不知情的情況下,滴水問題通常會在活動地板下方或吊頂上方惡化一段時間。早期檢測為您提供足夠的提前期以防止重大停機。
正確放置監測系統的滿水感測器是關鍵。水往往會在地板的最低點以及管道接頭和空調裝置下方形成水坑。在發生嚴重洪水之前,將感測器放置得太高不會觸發警報。
高架地板下的整個周邊都應安裝洩漏檢測繩,以及通過數據中心輸送流體的任何管道,尤其是管道內的任何閥門或配件下方。
推薦的滿水感測器位置
1.在活動地板的周邊下
2.在每個CRAC單元下,在貫穿數據中心的任何管道下
潛在的水源
1.空調漏水/冷凝
2.水冷服務器機架
3.冷凝
4.天然水/地下水
5.本地管道:廁所、水槽、下水道
六、IP設備監控
由於服務器可能由於多種原因而崩潰,因此必須立即知道通信傳輸何時變慢或完全停止。而且需要確切知道哪些連接已關閉。路由器、Web
服務器、電子郵件服務器、DNS 服務器、數據庫服務器和網路開關在任何給定時間都容易發生故障。
為了能夠快速採取行動,請確保監控系統包含 IP
警報功能。這使系統能夠通過 ping 和端口是否可用來監視任何具有 IP
地址的設備。如果服務器或服務停止反應,系統會立即使用預編程指令通知指定人員。
為獲得最大效率,監控系統應包含所有條件的單窗格視圖,以便可以通過一次登錄查看所有環境和 IP 條件。
七、控制環境威脅和設備故障
監控系統可幫助 IT
專業人員保持恆定、不間斷的數據中心正常運行。如果您的中心定期添加新設備,那麼使用可擴展的監控系統會很有幫助。尋找支持多個擴展節點設備的主機單元。每個主機單元和節點都會有多個感測器的輸入。
當環境條件發生變化時,遠程監控系統會立即向現場和非現場人員發出警報,以便他們迅速採取行動解決問題。這些系統還可以根據需要,為操作員提供所有監控條件的即時狀態。監控系統使查看多個感測器點變得容易,並提供即時和歷史洞察力,以幫助操作員避免代價高昂的停機時間。 |