美信時代
發布時間:2025-10-31
每秒處理千條數據!某港口集裝箱碼頭用監控易保障24小時作業不中斷
導語
港口集裝箱碼頭有著“物流樞紐心臟”之稱,服務器、存儲以及虛擬化等各類 IT 設備為調度、報關業務提供支撐,溫濕度、水浸、配電等動環設備則保障機房處于穩定狀態,然而一旦 IT 設備或者動環設備出現問題,就有可能致使集裝箱吞吐出現中斷情況,某港口集裝箱碼頭曾經由于 IT 與動環分屬于兩套不同系統,故障響應較為遲緩,直至引入監控易 IT 與動環一體化監控平臺之后,才實現了“故障早發現、業務零中斷”的目標。
一、項目背景(匿名化)
某港口集裝箱碼頭作為區域內極為關鍵的物流樞紐,每天所處理的吞吐業務數量超過了1萬標準箱,其核心所依賴的方面主要有:
IT設備:包含千臺服務器,這些服務器用于支撐調度系統以及報關系統,另外以及存儲設備,以及虛擬化環境,其中虛擬化環境涉及VMware以及華為云。
動環設備:包含機房的溫濕度變送器、水浸探測器、用于檢測漏水情況的檢測線以及三相電量儀,三相電量儀主要用于監測配電負荷。
此前運維痛點突出:
1.IT運用“傳統監控工具”,而動環采用“獨立采集器”,致使數據出現割裂狀況,比如說,調度服務器出現卡頓現象時,難以迅速判定究竟是CPU過載,還是機房溫度過高所導致的。
2. 設備規模大,人工巡檢需2小時/次,故障發現滯后;
3. 碼頭設置了作業部與運維部,然而權限方面較為混亂,作業部無法看到與業務系統相關聯的 IT 狀態,運維部也很難及時同步故障所帶來的影響。

二、核心需求
1.IT 與動環統一監控:其涉及的范圍涉及服務器、操作系統、應用程序、存儲設備以及虛擬化等構成的 IT 全棧,同時還包括溫度濕度、水浸情況以及配電等動環全量數據。
2. 大規模設備承載:可支持超過1000個監控對象,采集頻率可以達到秒級,并且在數據處理時不會出現卡頓現象。
3. 分級管理以及智能告警:依據部門來分配權限,減少無效告警的出現,一旦發生故障便可快速將其推送至責任人處。
4. 專業的落地服務要求進行上門實施調試工作,以此來保證可適配港口存在的高電磁干擾以及潮濕的環境狀況。
三、監控易解決方案:一個平臺搞定港口“IT+動環”全管控
監控易憑借其高性能的自研數據庫以及分布式架構,構建出了一套可適配港口場景的一體化方案。
1. 全棧IT+動環無縫接入
- IT監控模塊:
服務器硬件:借助IPMI或者Redfish協議來監測CPU以及內存以及磁盤的健康狀況,可支持華為、浪潮等多個品牌。
虛擬化:可實時查看VMware虛擬機啟動與停止的狀態以及資源占用情況,同時也能查看華為云實例的性能表現。
應用業務:主要涉及監控調度系統的響應時間以及報關系統接口的成功率,當出現異常情況時,系統可自動對受到影響的作業環節進行標記。
- 動環監控模塊:
接入了MFM 920E溫濕度變送器以及RS-WS-NO1-1A-0水浸變送器,對采集算法加以優化,以適配港口的潮濕環境,防止出現誤報情況。
依靠運用RS-SJ-NO1RO1-4漏水檢測線對機房地板給予全面覆蓋,同時借助ASC1100三相電量儀來監測配電負荷情況,一旦出現超閾值的狀況便會馬上發出告警信號。
一個平臺展示:IT性能與動環狀態在同一個界面實現聯動,當點擊“調度服務器異常”這個選項時,便可以查看與之對應的機房的溫濕度以及空調狀態。
2. 大規模設備高效管控
運用監控易BigRiver超融合數據庫,一臺服務器可監控1000個對象,采集輪詢頻率最快為5秒/次,即便同時處理數量眾多達到上萬的設備數據,系統也不會出現卡頓現象。
自動發現設備:借助SNMP協議來掃描網絡,在10分鐘的時間里可完成所有IT設備以及動環設備的接入工作,減少手工配置所需要的工作量。

3. 分級管理與智能告警
權限分級:運維部有全量監控的權限,而作業部只能查看“調度系統 - 關聯服務器 - 對應動環”的簡化視圖,以此來防止出現信息過載的情況。
- 智能告警模塊:
告警歸并:當同一交換機出現故障致使多臺服務器斷網時,只會推送1條“核心交換機故障”的告警信息。
分級推送:當出現重大故障時,例如存儲離線這種情況,會將相關信息推送給運維總監以及作業經理,而當出現一般告警時,比如溫濕度接近閾值這種狀況,則會把信息推送給運維專員。
多渠道通知:方式覆蓋短信、釘釘以及郵件,可保證碼頭在24小時內隨時有人進行響應。

4. 現場定制化實施
- 監控易實施顧問全程上門服務:針對港口存在的高電磁干擾環境這一情況,對動環設備的接線以及屏蔽措施進行優化。
- 對漏水檢測線的靈敏度展開調試工作,以此防止出現因地面水漬而引發誤報的情況。
- 培訓運維團隊使用平臺,確保3天內獨立上手。
四、產品競爭力:港口場景的“專屬適配”
1. 高性能優勢:自研數據庫有卓越性能,相比傳統Oracle速度快達3倍之多,可支持超大規模設備在極短時間內實現秒級采集,完全契合港口那種設備密集且數據量龐大的實際需求。
2. 環境適配性:動環采集算法是針對潮濕以及高電磁干擾環境進行優化的,經過優化后漏水檢測線的誤報率降低到了0.1%,這一誤報率遠遠超過了行業的平均水平。
3. 業務聯動性:首次達成了“作業業務、IT設備以及動環環境”這三者之間的關聯,作業部可直觀地知曉“調度系統運行緩慢”究竟是由IT方面的問題所導致,還是動環方面的問題所引發,降低了部門之間的溝通成本。

五、項目價值與客戶反饋
- 業務連續性:故障響應時間原本是30分鐘,如今縮短到了5分鐘,在此期間,沒有出現任何一起因為IT或者動環問題而致使作業中斷的情況,吞吐效率也有所提高,提升幅度為15%。
- 運維成本:人工巡檢的工作量下降了50%,報表自動生成取代了手工統計,每年節約的運維成本超過10萬元。
- 客戶評價:監控易有出色的管理能力,它可對服務器以及存儲設備進行有效的管理,還可將水浸情況、電量狀況等一系列環境問題納入監控范疇,借助分級管理的方式,使得各個部門可明確自身職責,各自履行相應的職能,這種管理模式與港口24小時不間斷作業的需求高度契合,可很好地契合港口在這方面的實際需求。