企業(yè)從信息化到互聯(lián)網(wǎng)化、數(shù)字化的過(guò)程中,對(duì)IT運(yùn)維提出了越來(lái)越高的要求。原來(lái)是技術(shù)驅(qū)動(dòng)IT運(yùn)維的發(fā)展,現(xiàn)在是通過(guò)數(shù)據(jù)驅(qū)動(dòng),運(yùn)維不再單純考慮IT可用性問(wèn)題,而是從決策、管理和解決業(yè)務(wù)問(wèn)題的角度為企業(yè)發(fā)展提供支持。企業(yè)在數(shù)字化轉(zhuǎn)型的同時(shí),運(yùn)維也在不斷地?cái)?shù)字化,使決策更加便捷,管理更加高效,解決問(wèn)題更加精準(zhǔn)。
什么是業(yè)務(wù)運(yùn)維
云智慧的業(yè)務(wù)運(yùn)維是一個(gè)以大數(shù)據(jù)技術(shù)為基礎(chǔ)的平臺(tái)化解決方案,完整覆蓋企業(yè)所有業(yè)務(wù)系統(tǒng)和IT系統(tǒng),通過(guò)全鏈路監(jiān)控、端到端應(yīng)用性能管理,以及實(shí)時(shí)的運(yùn)維大數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)關(guān)聯(lián)分析與可視化展示等,持續(xù)提升業(yè)務(wù)效率和IT管理效率,有效連接IT與業(yè)務(wù)。平臺(tái)包含了基礎(chǔ)設(shè)施監(jiān)控、用戶體驗(yàn)監(jiān)控、應(yīng)用性能監(jiān)控、網(wǎng)絡(luò)性能監(jiān)控、業(yè)務(wù)監(jiān)控、日志分析和智能故障預(yù)警。
場(chǎng)景一:IT故障的快速定位和根因分析
在企業(yè)中,大家常會(huì)看到這樣的場(chǎng)景:發(fā)現(xiàn)業(yè)務(wù)系統(tǒng)無(wú)法登陸,或營(yíng)業(yè)數(shù)據(jù)出現(xiàn)異常波動(dòng),打電話到IT部門(mén)詢問(wèn),IT運(yùn)維人員立刻開(kāi)始手忙腳亂地用各種工具排查故障原因……
業(yè)務(wù)系統(tǒng)健康、穩(wěn)定運(yùn)行是業(yè)務(wù)正常開(kāi)展的前提,也是IT部門(mén)的基本職責(zé)。對(duì)IT部門(mén)來(lái)說(shuō),先于業(yè)務(wù)部門(mén)發(fā)現(xiàn)故障,就可以提前向業(yè)務(wù)部門(mén)發(fā)出警示,或在接到業(yè)務(wù)部門(mén)質(zhì)詢電話的時(shí)候,給出更放心、更準(zhǔn)確的答復(fù),從而有效提高業(yè)務(wù)部門(mén)的工作效率和質(zhì)量。
云智慧業(yè)務(wù)運(yùn)維系統(tǒng)是實(shí)現(xiàn)業(yè)務(wù)故障早發(fā)現(xiàn)、早處理和根因分析呢?
首先,業(yè)務(wù)運(yùn)維系統(tǒng)憑借自身的平臺(tái)化能力,將原本割裂的各種監(jiān)控?cái)?shù)據(jù),如網(wǎng)絡(luò)設(shè)備狀態(tài)、業(yè)務(wù)網(wǎng)站性能、關(guān)鍵業(yè)務(wù)API及事務(wù)流程、CDN加速效果、云主機(jī)狀態(tài)等,通過(guò)智能數(shù)據(jù)過(guò)濾、關(guān)鍵數(shù)據(jù)識(shí)別對(duì)關(guān)鍵的性能指標(biāo)數(shù)據(jù)進(jìn)行匯總,實(shí)現(xiàn)運(yùn)維監(jiān)控?cái)?shù)據(jù)的統(tǒng)一管理。
然后,依據(jù)事先設(shè)置好的告警策略,對(duì)告警事件進(jìn)行優(yōu)先級(jí)和重要程度排序,并將故障信息第一時(shí)間發(fā)送給IT部門(mén)。故障信息的通知方式是多種多樣的,包括移動(dòng)App、短信、語(yǔ)音、郵件、URL回調(diào)等,確保信息及時(shí)、準(zhǔn)確地送達(dá)。
最后,運(yùn)維人員利用業(yè)務(wù)運(yùn)維平臺(tái)提供的"故障快照"功能,可以準(zhǔn)確還原故障現(xiàn)場(chǎng),進(jìn)行IT故障的快速定位和根因分析。
有了業(yè)務(wù)運(yùn)維系統(tǒng)的快速排障能力,業(yè)務(wù)系統(tǒng)的可用性大大提高,IT部門(mén)的工作更加從容有序,避免了過(guò)去四處救火、疲于奔命的狀態(tài)。
場(chǎng)景二:跨應(yīng)用系統(tǒng)的關(guān)聯(lián)分析
在很多企業(yè),特別是大型集團(tuán)企業(yè)中,核心業(yè)務(wù)往往不是由單一系統(tǒng)支撐的,一個(gè)業(yè)務(wù)的完整流程需要訪問(wèn)多個(gè)平臺(tái)、不同語(yǔ)言開(kāi)發(fā)的應(yīng)用系統(tǒng)。同一業(yè)務(wù)的多個(gè)支撐系統(tǒng),往往是由不同的開(kāi)發(fā)團(tuán)隊(duì)或外包服務(wù)商提供的,代碼規(guī)范性和一致性較差,后續(xù)的支持和維護(hù)也由不同的運(yùn)維團(tuán)隊(duì)來(lái)完成的。
這就為企業(yè)帶來(lái)了巨大的挑戰(zhàn)。首先,多個(gè)支撐系統(tǒng)各自為政,使企業(yè)很難了解業(yè)務(wù)的完整流程和全局狀態(tài);第二,當(dāng)出現(xiàn)問(wèn)題時(shí),業(yè)務(wù)人員協(xié)調(diào)各應(yīng)用系統(tǒng),分別進(jìn)行自查分析,缺乏協(xié)同管控,導(dǎo)致業(yè)務(wù)問(wèn)題遲遲不能解決;第三,傳統(tǒng)的監(jiān)控管理工具,只能解決單一系統(tǒng)的性能或故障問(wèn)題,無(wú)法解決跨系統(tǒng)問(wèn)題追蹤的難題。
云智慧業(yè)務(wù)運(yùn)維平臺(tái)以企業(yè)現(xiàn)有IT監(jiān)控系統(tǒng)和日志數(shù)據(jù)為基礎(chǔ),使用智能數(shù)據(jù)采集器從應(yīng)用性能管理軟件、系統(tǒng)日志、Zabbix、ITSM等多種監(jiān)控管理系統(tǒng)中獲取性能相關(guān)指標(biāo)數(shù)據(jù),通過(guò)大數(shù)據(jù)平臺(tái)的建模、處理和指標(biāo)關(guān)聯(lián)后,用大數(shù)據(jù)方法將業(yè)務(wù)流程完整地梳理和展現(xiàn)出來(lái),幫助企業(yè)了解業(yè)務(wù)處理過(guò)程中各應(yīng)用系統(tǒng)的調(diào)用關(guān)系、業(yè)務(wù)運(yùn)行狀態(tài)及性能表現(xiàn)。
建立業(yè)務(wù)關(guān)鍵指標(biāo)及性能之間的關(guān)聯(lián)模型,從采集的海量歷史數(shù)據(jù)中分析性能與業(yè)務(wù)之間的非線性多因素關(guān)系,從事后的影響評(píng)估、事前的What-if預(yù)測(cè)分析等多個(gè)方面來(lái)考慮性能問(wèn)題對(duì)性能的影響,甚至可從業(yè)務(wù)的角度反向驅(qū)動(dòng)業(yè)務(wù)對(duì)性能的要求。
例如,國(guó)內(nèi)某大型物流集團(tuán)企的業(yè)務(wù)流程非常復(fù)雜,涉及到供應(yīng)鏈管理、庫(kù)存管理、審批流等等,每筆交易都很關(guān)鍵,一旦某個(gè)業(yè)務(wù)環(huán)節(jié)出現(xiàn)問(wèn)題就會(huì)造成嚴(yán)重后果。云智慧業(yè)務(wù)運(yùn)維幫助客戶將整個(gè)業(yè)務(wù)流程完整地串起來(lái),并將跨系統(tǒng)的業(yè)務(wù)拓?fù)渫ㄟ^(guò)大屏幕清晰地展現(xiàn)出來(lái),客戶能夠直觀地看到業(yè)務(wù)的完整流程和運(yùn)行狀態(tài),及時(shí)知曉到并解決業(yè)務(wù)問(wèn)題。
過(guò)去,這家企業(yè)在業(yè)務(wù)出現(xiàn)問(wèn)題時(shí),往往需要一兩周時(shí)間才能排查出問(wèn)題,而云智慧運(yùn)維系統(tǒng)將問(wèn)題處理時(shí)間縮短到一個(gè)小時(shí)。
場(chǎng)景三:企業(yè)IT資源一體化管控
隨著"互聯(lián)網(wǎng)+"轉(zhuǎn)型的深入,企業(yè)不斷加大數(shù)據(jù)中心、虛擬資源、網(wǎng)絡(luò)、應(yīng)用、安全、運(yùn)維服務(wù)等IT資源的投入,使整個(gè)IT系統(tǒng)的規(guī)模越來(lái)越大,復(fù)雜度越來(lái)越高。隨之而來(lái)的,是企業(yè)越來(lái)越難以掌握IT資源的運(yùn)行狀況和利用率,IT資源的規(guī)劃和決策也缺乏全面、真實(shí)數(shù)據(jù)的支撐。在這樣的背景下,IT資源的一體化管控,就成為了一個(gè)非,F(xiàn)實(shí)的問(wèn)題。
云智慧業(yè)務(wù)運(yùn)維建立的統(tǒng)一IT數(shù)據(jù)采集、管理和分析平臺(tái),實(shí)現(xiàn)各分散IT系統(tǒng)數(shù)據(jù)的集中采集、統(tǒng)一管理和統(tǒng)一展現(xiàn)。通過(guò)大屏幕,企業(yè)的IT管理者可以多維度、多視角地了解各類(lèi)IT資源的運(yùn)行狀況和利用情況。
同時(shí),業(yè)務(wù)運(yùn)維平臺(tái)可以統(tǒng)計(jì)出不同應(yīng)用系統(tǒng)功能模塊和所調(diào)用服務(wù)、使用時(shí)間、頻次、處理耗時(shí)等指標(biāo)。依據(jù)這些分析數(shù)據(jù),企業(yè)可以對(duì)臃腫的業(yè)務(wù)功能模塊進(jìn)行合理有效的"瘦身"和優(yōu)化,從而大幅提高系統(tǒng)的運(yùn)行效率。
在及時(shí)了解全局業(yè)務(wù)狀態(tài)的基礎(chǔ)上,企業(yè)可以不斷改進(jìn)業(yè)務(wù)流程,優(yōu)化IT資源配置,從而讓運(yùn)營(yíng)更高效,讓決策更科學(xué)。
總結(jié):智能業(yè)務(wù)運(yùn)維平臺(tái)的數(shù)字化價(jià)值
企業(yè)的數(shù)字化程度越高,運(yùn)維的管理難度也越大,云智慧智能業(yè)務(wù)運(yùn)維解決方案能夠幫助企業(yè)有效降低運(yùn)維難度,讓IT更好的支撐業(yè)務(wù)。通過(guò)平臺(tái)化帶來(lái)的可擴(kuò)展性,充分滿足企業(yè)數(shù)字化進(jìn)程中不斷變化的運(yùn)維需求,實(shí)現(xiàn)IT引領(lǐng)業(yè)務(wù)、引領(lǐng)創(chuàng)新的目標(biāo)。
隨著人工智能技術(shù)的不斷成熟,云智慧將賦予業(yè)務(wù)運(yùn)維平臺(tái)更多AI和大數(shù)據(jù)的能力,打造新一代的智能運(yùn)維體系(AIOps),為中國(guó)企業(yè)的數(shù)字化轉(zhuǎn)型提供更聰慧、更有力的支持。