中國的基礎網(wǎng)絡(luò )環(huán)境之復雜堪居世界各國之首,隨著(zhù)視頻、直播、游戲、語(yǔ)音、電商等流量大、用戶(hù)體驗要求高、用戶(hù)分布地域廣的互聯(lián)網(wǎng)應用場(chǎng)景,以單點(diǎn)部署方式早已無(wú)法滿(mǎn)足業(yè)務(wù)的需求,分布式應用部署方式已經(jīng)成為保障業(yè)務(wù)高可用的必然之選。隨之而來(lái)的可用性監控成為分布式系統的一大難題。
以某頂級IDC服務(wù)商同時(shí)也是國內最大的第三方獨立數據中心運營(yíng)商為例,該服務(wù)商將全國的數據中心劃分為三個(gè)層次,即以北上廣等核心城市為核心層,以互聯(lián)網(wǎng)大省、骨干城市為骨干層,以二三級城市為邊緣層。其客戶(hù)根據應用等級及用戶(hù)分布區域,通過(guò)在全國范圍的科學(xué)選點(diǎn),將應用分別部署在不同層級的城市數據中心,以降低總部署成本,提升用戶(hù)體驗,同時(shí)在自身IT運維和客戶(hù)服務(wù)保障過(guò)程中積累了豐富的分布式系統高可用監控經(jīng)驗。
簡(jiǎn)單易用的內部應用系統監控
眾所周知,當企業(yè)部署了分布式系統,IT設備數量和系統規模就會(huì )呈幾何級數迅速增長(cháng),運維部門(mén)規模往往落后于系統增速,而原有單點(diǎn)監控系統的轉型并非易事。下面就以這家IDC服務(wù)商為例,從內、外兩個(gè)維度探討一下高可用IT監控系統的建設。
在內網(wǎng)監控方面,注重的是內部IT設備的可用性。運維部門(mén)陸續使用過(guò)Smokeping,Open-falcon,cacti之類(lèi)監控系統,最終都不了了之:Smokeping依賴(lài)的包、組件過(guò)多,安裝搭建配置繁瑣,圖形參數較多,需要查閱大量文檔;Open-falcon部署測試了0.2.0版本,雖然機制不錯,但易用性有待提高;cacti主要用于收集歷史數據和畫(huà)圖,但在監視大量服務(wù)器上跑的服務(wù)是否正常、告警方面,雖有插件支持,但效果很不理想。
之后,運維部門(mén)選擇了入門(mén)容易、上手簡(jiǎn)單、開(kāi)源免費的Zabbix。Zabbix易于管理和配置,減輕日常管理的工作量,豐富的數據采集方式和API接口可以讓用戶(hù)靈活進(jìn)行數據采集,而分布式系統架構可以支持監控更多的IT設備。
通過(guò)Zabbix監控大網(wǎng)出口對全國ping延遲的綜合匯總頁(yè)面:
用Grafana簡(jiǎn)單包裝一下,可以看到服務(wù)器的詳細運行數據:
內外兼修的外網(wǎng)高可用監控
云計算、虛擬化技術(shù)的廣泛應用,分布式系統的后端IT設備和服務(wù)的穩定性逐步提高,而復雜的用戶(hù)網(wǎng)絡(luò )接入環(huán)境、IDC機房鏈路、CDN加速等環(huán)節對業(yè)務(wù)質(zhì)量的影響越來(lái)越大。很多時(shí)候,造成用戶(hù)體驗<a href="http://in1hour.com">安防器材批發(fā)佳和服務(wù)不可用的原因都是外部的,而這是部署在IT系統內部的Zabbix無(wú)法監控的。
因此,運維部門(mén)需要一套更準確、更全面的入向監控(外部監控)來(lái)保障業(yè)務(wù)的高可用。監控寶是享譽(yù)國內運維圈的IT性能監控神器,通過(guò)覆蓋全國所有省份和世界主要國家的300多個(gè)分布式監測節點(diǎn),對外部網(wǎng)絡(luò )鏈路進(jìn)行穩定性和可用性的實(shí)時(shí)監控和秒級告警服務(wù)。監控寶支持http/https、ping、udp、tcp、smtp、traceroute等主流數據傳輸協(xié)議,能夠準確測量鏈路質(zhì)量、CDN效果及DNS狀態(tài),為企業(yè)的互聯(lián)網(wǎng)業(yè)務(wù)進(jìn)行全網(wǎng)、全地域性能趨勢分析。
監控寶除了網(wǎng)站監控外,還包含服務(wù)器監控、API監控、中間件和數據庫監控,無(wú)需部署,無(wú)任何侵入式插件,即可獲得第一手全面實(shí)時(shí)的監控數據。同時(shí),監控寶覆蓋最全面的告警通知方式,包括郵件、短信、電話(huà)語(yǔ)音、App Push、URL回調等。而且,監控寶根據每月監測數據,出具權威的第三方SLA證書(shū),幫助企業(yè)對CDN質(zhì)量、云服務(wù)質(zhì)量和業(yè)務(wù)質(zhì)量進(jìn)行有效評估。
除此之外,監控寶通過(guò)API實(shí)現Zabbix等監控平臺的告警<a href="http://in1hour.com">安防器材批發(fā)據的接入和聚合,并在定制化開(kāi)發(fā)的可視化大屏上進(jìn)行統一監控和統一告警,從而實(shí)現IT系統健康和業(yè)務(wù)監控的統一管理。得益于監控寶和Zabbix,這家中國最大的第三方獨立數據中心運營(yíng)商實(shí)現了分布式系統高可用監控的內外兼修。