江蘇移動(dòng)與華為聯(lián)合研發(fā)智能故障治理平臺(tái),從實(shí)驗(yàn)室到生產(chǎn)實(shí)際應(yīng)用的跨越

江蘇移動(dòng)與華為聯(lián)合研發(fā)的智能故障治理平臺(tái)實(shí)現(xiàn) 9 個(gè)月穩(wěn)定運(yùn)行,標(biāo)志著基于大模型的云原生運(yùn)維技術(shù)完成從實(shí)驗(yàn)室驗(yàn)證到生產(chǎn)部署的關(guān)鍵跨越。該平臺(tái)通過跨模態(tài)數(shù)據(jù)融合治理,構(gòu)建“大模型推理決策+小模型異常檢測(cè)”的雙引擎架構(gòu),系統(tǒng)性重構(gòu)故障處置全流程。經(jīng)生產(chǎn)驗(yàn)證,其智能診斷準(zhǔn)確率提升顯著,MTTR 縮短 37%(同比降 17 分鐘),形成“數(shù)據(jù)治理-智能診斷-知識(shí)反哺”的增強(qiáng)閉環(huán),為復(fù)雜系統(tǒng)故障治理提供可工程化復(fù)制的 AI 轉(zhuǎn)型路徑。一、故障處理困境1. 多云架構(gòu)日均產(chǎn)生億級(jí)運(yùn)維數(shù)據(jù),分散在監(jiān)控大盤、調(diào)用鏈等異構(gòu)平臺(tái),傳統(tǒng)固定規(guī)則難以識(shí)別指標(biāo)毛刺類隱患,人工監(jiān)控需高頻切換界面進(jìn)行數(shù)據(jù)交叉驗(yàn)證,存在故障發(fā)現(xiàn)延遲。2. 由于多代異構(gòu)技術(shù)形成的超復(fù)雜的動(dòng)態(tài)連接,故障傳播路徑冗長(zhǎng),分層逐個(gè)定位的運(yùn)維方法效率低下,故障定位時(shí)長(zhǎng)難以有效收斂;3. 非結(jié)構(gòu)化故障報(bào)告缺乏可復(fù)現(xiàn)性,人工維護(hù)的知識(shí)庫更新滯后且復(fù)用率不足,疊加人員流動(dòng)影響,經(jīng)驗(yàn)傳承形成斷層。二、破局之道針對(duì)上述痛點(diǎn),以“構(gòu)建故障全生命周期治理能力”為目標(biāo),通過多源運(yùn)維數(shù)據(jù)融合、異常指標(biāo)權(quán)重?cái)M合、大模型根因推理等技術(shù)突破,打造覆蓋“故障感知-診斷-歸檔-經(jīng)驗(yàn)復(fù)用”的閉環(huán)體系?傮w方案:構(gòu)建覆蓋故障全生命周期的智能化運(yùn)維體系1. 事前通過標(biāo)準(zhǔn)化數(shù)據(jù)治理,建立統(tǒng)一運(yùn)維數(shù)據(jù)模型,實(shí)現(xiàn)跨系統(tǒng)(日志/指標(biāo)/追蹤)數(shù)據(jù)的采集、匯聚與管理,夯實(shí)分析底座;2. 事中聚焦用戶體驗(yàn)革新,打造低門檻感知診斷工具,運(yùn)用 AI 算法關(guān)聯(lián)多源數(shù)據(jù),將復(fù)雜指標(biāo)翻譯為可視化的系統(tǒng)健康評(píng)分并自動(dòng)完成根因定位,使新手可 5 分鐘內(nèi)完成故障處置;3. 事后建立故障資產(chǎn)閉環(huán),將案例歸檔融入到故障處理流程中,數(shù)字化且結(jié)構(gòu)化的故障數(shù)據(jù)(如故障指標(biāo),案例報(bào)告,故障圖譜)反哺到故障發(fā)現(xiàn)和診斷能力的提升。最終形成“數(shù)據(jù)治理-智能診斷-知識(shí)反哺”的增強(qiáng)式運(yùn)維飛輪。創(chuàng)新點(diǎn) 1:基于多維度系統(tǒng)健康度量化評(píng)估模型,構(gòu)建系統(tǒng)健康曲線,實(shí)現(xiàn)全層級(jí)系統(tǒng)異常實(shí)時(shí)感知與可視化構(gòu)建統(tǒng)一指標(biāo)智能分析能力,通過動(dòng)態(tài)閾值、短長(zhǎng)時(shí)差分,機(jī)器學(xué)習(xí)等方法對(duì)多種不同類型的指標(biāo)數(shù)據(jù)進(jìn)行多維度的健康分析,識(shí)別關(guān)鍵異常指標(biāo),通過指標(biāo)歸一化及權(quán)重計(jì)算形成一條系統(tǒng)健康曲線,直觀感知系統(tǒng)綜合異常;跉v史案例數(shù)據(jù)的多維度指標(biāo)特征歸一化處理與動(dòng)態(tài)加權(quán)策略,構(gòu)建具有時(shí)序特征工程的機(jī)器學(xué)習(xí)訓(xùn)練集,通過集成學(xué)習(xí)框架完成模型訓(xùn)練后,結(jié)合實(shí)時(shí)采集的多源監(jiān)測(cè)數(shù)據(jù),運(yùn)用訓(xùn)練完成的分類模型進(jìn)行在線特征匹配與模式識(shí)別,實(shí)現(xiàn)實(shí)時(shí)指標(biāo)與歷史案例庫的相似度匹配,通過指標(biāo)特征權(quán)重計(jì)算系統(tǒng)健康指數(shù)。與傳統(tǒng)的多平臺(tái)輪巡收集離散指標(biāo)監(jiān)測(cè)的方式相比,運(yùn)維人員


掃碼關(guān)注5G通信官方公眾號(hào),免費(fèi)領(lǐng)取以下5G精品資料

本周熱點(diǎn)本月熱點(diǎn)

 

  最熱通信招聘

業(yè)界最新資訊


  最新招聘信息