女老师在线,东京按摩,宋佳和靳东演的电视剧

首頁
產(chǎn)品中心
智慧園區(qū)可視化

智慧城市可視化

數(shù)據(jù)中心可視化

IOC智能運營中心

數(shù)字孿生中臺

架構(gòu)管理可視化

企業(yè)級架構(gòu)管理平臺

森工廠一站搞定真孿生

低代碼

零代碼

森園區(qū)
森城市

森大屏

森展廳

森拓撲

森數(shù)據(jù)
森模型

森插件

森BIM
森視頻

森友會

森大陸
開發(fā)平臺
ThingJS 低代碼數(shù)字孿生開發(fā)平臺

ThingJS-X 零代碼數(shù)字孿生交付平臺
解決方案
金融
數(shù)據(jù)中心可視化 IT架構(gòu)可視化管理數(shù)字化智慧園區(qū) 數(shù)字化運營企業(yè)架構(gòu)資產(chǎn)管理金融業(yè)科技信息報送系統(tǒng) 金融一體化運維金融安保可視化
能源
智慧工廠智慧礦山數(shù)字電網(wǎng) 智慧管網(wǎng) 智慧變電站智慧加油站智慧綜合能源能源智慧園區(qū) 電網(wǎng)一體化運維智慧運營中心
通信
云化資源管理數(shù)據(jù)中心運營重大活動保障通信監(jiān)控大屏
教育
智慧校園綠色校園平安校園智慧教研校園地下管網(wǎng) 數(shù)字孿生教育實訓平臺教育數(shù)字孿生中臺多網(wǎng)融合管理平臺
醫(yī)療
智慧醫(yī)院醫(yī)院智能運營醫(yī)院運營可視化醫(yī)院運營集成中心
企業(yè)
智慧園區(qū) 智慧工廠智慧場館智慧農(nóng)業(yè) 智慧鋼鐵污水處理
政府
智慧城市智慧社區(qū) 產(chǎn)業(yè)園區(qū) 智慧水文
交通
軌道交通智慧地鐵智慧港口智慧機場
應急
消防應急預案消防應急一張圖
公安
公安機房可視化公安架構(gòu)可視化公安運維可視化監(jiān)所可視化
軍隊
智慧軍營軍隊運維可視化
成功案例
合作伙伴
關于優(yōu)锘
了解UINO
聯(lián)系我們

CEO專欄

新聞動態(tài)
技術分享

加入我們

IT告警風暴的隱性成本

2020-10-10

by uino

10.3K 技術分享

**IT告警管理的現(xiàn)狀
**

IT系統(tǒng)良好穩(wěn)定的運行，離不開系統(tǒng)監(jiān)控報警。監(jiān)控為整個IT系統(tǒng)提供了更好的可用性，如果能配置正確警報策略，可以使得IT團隊更快地響應事件，消滅潛在故障。以上理念在IT系統(tǒng)的相互獨立的時代是百分百正確的。但是，隨著企業(yè)規(guī)模的增長IT環(huán)境也隨之擴張，您如果有辦法應對即將到來的告警風暴——否則您很快就會被各種告警信息所淹沒，以至于無法正常工作。

更加不幸的是，隨著時間的推移，未來會有越來越多的系統(tǒng)可以產(chǎn)生告警，而且它們的速度會更快，數(shù)量也會更多。目前大多數(shù)IT團隊的告警都是自動生成的，然而告警處理卻是人工的。更要命的是，他們所處理的告警都是孤立的很少進行過關聯(lián)或歸并處理。

目前在收到大量警報的IT機構(gòu)（告警數(shù)量1000次／日以上）中，只有17％能夠在24小時內(nèi)完成故障排查和修復。大量分散的且不相關的告警，讓企業(yè)別無選擇只能增派工程師來解決。即使是增派了人員來處理，但是仍然有告警會被忽視，造成響應不及時，業(yè)務停機時間持續(xù)增長。因此告警風暴會為企業(yè)帶來個多方面的損失。

IT告警風暴是如何產(chǎn)生的？

在討論告警風暴所帶來的支出增長之前，讓我們先仔細分析下導致告警風暴的原因：

首先，當今的IT系統(tǒng)環(huán)境比以前更加復雜

IT部門只需要監(jiān)控少數(shù)幾臺服務器的日子已經(jīng)一去不復返了，現(xiàn)在IT團隊必須處理更加復雜的虛擬機、多云、容器等等IT環(huán)境。因此監(jiān)控的IT系統(tǒng)的規(guī)模以及產(chǎn)生的告警的數(shù)量也要比五年前大一個數(shù)量級。

與此同時，應用程序的結(jié)構(gòu)也越來越分散

應用程序分解為各種“微服務”組件的做法已經(jīng)成為主流。當然微服務也有很多優(yōu)點，它們使代碼更加模塊化和動態(tài)化，也避免了IT系統(tǒng)的單點故障，但是在告警方面，采用微服務架構(gòu)加劇了告警噪音問題，因為一套IT系統(tǒng)現(xiàn)在有數(shù)十甚至數(shù)百個組件，它們的健康狀態(tài)同時也必須得到持續(xù)監(jiān)控。

再次，“立體化”監(jiān)控成為標配

IT基礎架構(gòu)和軟件架構(gòu)在過去十年中發(fā)生了巨大變化，因此20世紀遺留的基礎監(jiān)控工具已無法滿足現(xiàn)代IT環(huán)境的需求，于是各公司開始采用一種新的監(jiān)控體系：使用各種不同專業(yè)工具針對IT棧中不同層面進行“立體化”監(jiān)控。在“立體化”監(jiān)控工具體系中，至少會使用六個以上的監(jiān)控工具，例如：系統(tǒng)監(jiān)控、應用監(jiān)控、跟蹤誤差、日志分析、APM、異常檢測、業(yè)務性能監(jiān)控、云監(jiān)控、自動化部署監(jiān)控、協(xié)作工具、工單系統(tǒng)等。然而所有這些不同的工具都會導致更多數(shù)量的告警產(chǎn)生；同時它們輸出的大量混亂不一的告警，也使得發(fā)現(xiàn)相互之間的關聯(lián)關系變得更加困難，從而無法發(fā)現(xiàn)嚴重的問題，至于查找故障的根本原因更是妄想。

此外，隨著組織轉(zhuǎn)向持續(xù)集成/持續(xù)交付，開發(fā)周期比以往任何時候都更加敏捷。

雖然基礎設施和代碼的變化還是在預定的窗口系統(tǒng)中進行，但是已經(jīng)由過去的月度，季度甚至每半年度變化一次，演變?yōu)楝F(xiàn)在每天都在不斷的進行版本迭代。當版本更新順利時，可以進行更快的新功能上線、提高更好的客戶滿意度。但是，基礎架構(gòu)和代碼中變化的速度越快，變更就越多，告警的數(shù)量也越多。

以上因素加起來就不可避免的產(chǎn)生了告警風暴，為企業(yè)造成了大量隱形的生產(chǎn) 成本

1.停機成本

因為維護人員的擴充永遠趕不IT系統(tǒng)所產(chǎn)生的數(shù)據(jù)和報警的指數(shù)級增長速度，所以如果不改變?nèi)斯み\維的方式，將使得IT部門陷入癱瘓。

事實上，維護人員無法跟隨數(shù)據(jù)和告警的指數(shù)級增長而隨時擴充，當他們用傳統(tǒng)的手工方式去解決告警風暴的時候，關鍵的告警可能會掩蓋在海量數(shù)據(jù)之下。因此，當找到這些關鍵問題之前，IT故障造成的業(yè)務中斷將會一直存在。所以，告警風暴帶來的第一個隱形成本就是業(yè)務中斷時間。

根據(jù)IDC估算，一般的基礎環(huán)境故障每小時的成本約為10萬美元，而關鍵的應用程序的故障每小時損失高達50萬到100萬美元。實際上停電造成的故障中有1/3的都持續(xù)1至12個小時，17%的基礎設施故障以及13%的應用程序故障會持續(xù)了一整天。每年IT中斷的成本是1000萬到25億美元之間。

以星巴克為例。由于“例行系統(tǒng)更新的故障”，這家咖啡巨頭在美國和加拿大的銷售網(wǎng)點都遭遇了大規(guī)模的業(yè)務中斷，無法進行收銀結(jié)算。這家零售商被迫免費贈送了數(shù)千杯咖啡，從而造成了300萬美元的損失。300萬美元不是因為安全漏洞，而是因為一個錯誤，一個常規(guī)的程序更新帶來的故障。

2.事故解決成本

當組織發(fā)現(xiàn)自己被淹沒在告警中時，通常的反應是投入更多的人來解決問題，也就是更多的工程師和更多的工作時間。這種方法雖然簡單，但成本高昂而且效率低下。近年來，機器數(shù)據(jù)和告警的數(shù)量以指數(shù)級速度增長，對于告警的檢測、處理、分析和糾正的需求已經(jīng)遠遠超過了IT團隊的能力了。盡管許多企業(yè)已經(jīng)將其NOC和IT團隊的規(guī)模擴大了一倍，但他們?nèi)匀粺o法跟上不斷增長的設備所生成事件和警報。雖然錢花了，但問題仍然存在——這意味著把錢打了水漂。

3.客戶滿意度

DevOps和CI/CD(持續(xù)集成/持續(xù)交付)的目標是減少IT中的摩擦。這樣做可以使產(chǎn)品更快地進入市場，并在不斷創(chuàng)新改進的過程中提高客戶滿意度。但是告警風暴的問題已經(jīng)成為IT工作流中新的瓶頸。一方面CI/CD允許開發(fā)周期更快迭代，同時云自動化使得基礎設施擴展的速度更快，但是告警管理仍然是手動的。這樣造成的結(jié)果就是：服務的質(zhì)量下降也變的更頻繁(系統(tǒng)迭代更加頻繁，同時停機更加頻繁)，而且問題也經(jīng)常很長時間才被發(fā)現(xiàn)，甚至是被客戶投訴后才發(fā)現(xiàn)。這種故障會帶來切實的財務后果，也會損害客戶滿意度和品牌聲譽。當客戶如果不信任您服務的可用性和可靠性時，他們必將轉(zhuǎn)向競爭者。

告警治理行動

顯然，處理機器生成的數(shù)據(jù)的問題不應該用人工的方案來解決，人類根本無法處理持續(xù)增長的海量告警。公司應該將精力集中在利用機器處理上，以提高他們將信號與噪音分離的能力。好的方法是通過應用一個自動化的解決方案來識別不同的監(jiān)控系統(tǒng)之間的相關告警。告警關聯(lián)是一種將高度相關的警報分組到高級別事件的方法，這些事件被按照各種各樣的參數(shù)合并，包括：

拓撲

主機、主機組、服務、應用程序、云或其他發(fā)出警報的基礎設施元素，當來自基礎設施的相同區(qū)域時，告警更有可能是存在關聯(lián)關系的。

時間

關聯(lián)警報發(fā)生的時間窗口，在同一時間段內(nèi)發(fā)生的警報更有相關性，而不是時間間隔很遠的告警。

上下文

告警指標的類型。一些告警指標類型會暗示了它們和其他告警之間存在關系，當然也有部分告警類型是獨立的，與其他告警無關。

優(yōu)锘智能事件管理平臺（Tarsier-EIM）的告警關聯(lián)的技術可以幫助客戶避免受到海量告警的影響，可以科學的自動完成警報關聯(lián)。這有助于IT團隊更快地發(fā)現(xiàn)和解決關鍵事件，并減少人力資源的占用。

優(yōu)秀實踐案例

在國內(nèi)某股份制銀行，通過優(yōu)锘智能事件管理平臺（Tarsier-EIM）的告警的關聯(lián)能力對告警進行壓縮，壓縮率超過97%。

因此，運維工程師們不再盯著7套監(jiān)控工具的57000個日常提醒，而是集中處理240個高度關聯(lián)的事件。告警關聯(lián)功能已經(jīng)將最初孤立混亂的警報，變成了運維工程師可以輕松處理的故障隊列。在使用優(yōu)锘智能事件管理平臺（Tarsier-EIM）的前三個月，客戶的故障處理的平均時間(MTTR)減少53%。與此同時，運維團隊發(fā)現(xiàn)，在不到一半的時間內(nèi)，他們能夠解決兩倍多的突發(fā)事件，同時員工數(shù)量和資源并沒有變化。隨著IT規(guī)模不斷擴大，雖然產(chǎn)生了更多的告警，但他們的故障處理能力反而提高了。

文章分類

CEO專欄

新聞動態(tài)

技術分享

公之淫手_韩国电影邻居的老婆_HD中文字幕在线播放,禁止的爱善良的小姨子,妹妹的味道在线观看,爱的精灵在线观看

智慧園區(qū)可視化

智慧城市可視化

數(shù)據(jù)中心可視化

IOC智能運營中心

數(shù)字孿生中臺

架構(gòu)管理可視化

企業(yè)級架構(gòu)管理平臺

低代碼

零代碼

森園區(qū)

森城市

森大屏

森視頻

森拓撲

森數(shù)據(jù)

森模型

森Max

森BIM

森友會

森大陸

森工廠一站搞定真孿生

ThingJS 低代碼數(shù)字孿生開發(fā)平臺

ThingJS-X 零代碼數(shù)字孿生交付平臺

森工廠一站搞定真孿生

公之淫手_韩国电影邻居的老婆_HD中文字幕在线播放,禁止的爱善良的小姨子,妹妹的味道在线观看,爱的精灵在线观看

智慧園區(qū)可視化

智慧城市可視化

數(shù)據(jù)中心可視化

IOC智能運營中心

數(shù)字孿生中臺

架構(gòu)管理可視化

企業(yè)級架構(gòu)管理平臺

低代碼

零代碼

森園區(qū)

森城市

森大屏

森視頻

森拓撲

森數(shù)據(jù)

森模型

森Max

森BIM

森友會

森大陸

森工廠 一站搞定真孿生

ThingJS 低代碼數(shù)字孿生開發(fā)平臺

ThingJS-X 零代碼數(shù)字孿生交付平臺

森工廠 一站搞定真孿生

森工廠一站搞定真孿生

森工廠一站搞定真孿生