為不斷保持和提高全省業(yè)務支撐網的運營維護和管理水平,江西移動業(yè)務支撐系統(tǒng)部開展了一系列技術攻關活動,并形成了獨特的“IT基礎架構的資源配置動態(tài)管理”流程,在一定程度上提升了IT支撐工作的管理質量。
一、實現“IT基礎架構的資源配置動態(tài)管理”的理由
如圖1所示。
二、目標設定
1.IT資源配置項目信息可根據IT基礎架構(如主機設備)的類別、型號、主要應用、物理位置等關鍵索引進行分類瀏覽,實現服務流程管理平臺的統(tǒng)一。
2.IT資源配置管理界面可展現IT基礎架構配置項的實時性能指標,包括CPU利用率、內存利用率、I/O等待率等,可通過工單提取最近一次設備重啟時間和健康檢查時間,并可進一步查看工單的詳細信息,如當前處理人等。
3.IT資源配置管理平臺產生的告警信息可實時、自動地發(fā)送給維護人員,以便及時處理突發(fā)事件,建立用于故障評價和防范的歷史知識庫,減少系統(tǒng)停頓服務時間,加強系統(tǒng)可靠性和可維護性。
4.IT資源配置管理流程的職責劃分:設備管理員負責管理IT基礎架構的基本信息,并實施具體的重啟、健康檢查、維修等各項操作;業(yè)務管理員負責分析IT基礎架構的業(yè)務性能,并在接到設備管理員的核查工單請求后,實施相關業(yè)務的核查處理。
5.IT資源配置管理平臺可支持多種輸入方式,如動態(tài)數據采集或手工數據錄入等,同時保留現有手工修改方式(暫時不考慮自動修改配置信息),并支持多種查詢方式。
通過對現有流程不足之處的詳細分析,同時借鑒國內外服務流程的成功經驗,我們有充分理由相信,設計一套符合江西移動實際情況的IT基礎架構資源配置動態(tài)管理流程是完全可以實現的。
三、原因分析
通過運用“頭腦風暴法”,對IT基礎架構的資源配置管理中存在問題的原因進行關聯(lián)分析,結果如圖2所示。
四、要因確認
通過分析論證,共找出13個末端因素。要因確認如表一所示。
[table]
序號 | 末端因素 | 確認內容 | 確認方法 | 確認標準 |
1 | 200網站數據庫存放部分配置信息 | 配置信息是否存在于200網站數據庫 | 查閱200網站數據庫 | 200網站數據庫中存放了配置信息 |
2 | BOSS網管數據庫存放部分配置信息 | 配置信息是否存在于BOSS網管數據庫 | 查閱BOSS網管數據庫 | BOSS網管數據庫中存放了配置信息 |
3 | 未定期檢查資產配置狀況 | 查看上一次資產配置狀況記錄的內容 | 調查對比 | 上一次資產配置狀況記錄的內容與事實不符 |
4 | 未及時更新設備維修操作記錄 | 查看上一次設備維修操作記錄的時間 | 調查對比 | 上一次設備維修操作記錄的時間與事實不符 |
5 | 配置項目未展現實時性能指標 | 查看資產瀏覽模塊 | 有否實時KPI展現 | 配置項未與KPI關聯(lián)展現 |
6 | 設備重啟工單只能人工發(fā)起 | 分析設備重啟工單 | 查閱工單發(fā)起條件 | 只能通過人工發(fā)起設備重啟工單 |
7 | 健康檢查工單只能人工發(fā)起 | 分析健康檢查工單 | 查閱工單發(fā)起條件 | 只能通過人工發(fā)起健康檢查工單 |
8 | 出現告警時未自動發(fā)送短信通知 | 查看短信通知平臺 | 查詢短信發(fā)送條件 | 沒有通過短信平臺發(fā)送告警 |
9 | 指標超過閥值時未自動觸發(fā)應用核查 | 分析告警是否觸發(fā)應用核查工單 | 查閱工單記錄 | 根據告警證實未觸發(fā)應用核查工單 |
10 | 沒有建立故障處理歷史知識庫 | 查看是否存在故障歷史知識庫 | 查閱系統(tǒng)數據庫 | 沒有歷史故障知識庫數據 |
11 | 配置信息自動調整的溝通渠道不暢 | 分析配置調整是否自動觸發(fā)工單 | 查閱工單記錄 | 根據配置調整證實未自動觸發(fā)工單 |
12 | 人員職責不清晰 | 查看工單的職責設計 | 查閱工單 | 未明確說明人員職責分工 |
13 | 工單信息不詳盡 | 查看工單的包含信息 | 查閱工單 | 未包含足夠的流轉位置信息 |
對各要因進行進一步分析。
1.200網站數據庫存放部分配置信息
雖然200網站數據庫中存放了部分配置信息,但這并不影響實現IT基礎架構的資源配置動態(tài)管理流程,并且還可以通過數據遷移的技術方式,與BOSS網管系統(tǒng)數據庫融合。不是要因。
2.BOSS網管數據庫存放部分配置信息
BOSS網管數據庫中存放了部分配置信息,但同樣這也并不影響實現IT基礎架構的資源配置動態(tài)管理流程,并且還可以將200網站數據遷移至BOSS網管數據庫中,實現配置信息的整合。不是要因。
3.未定期檢查資產配置狀況
反映了配置信息日常的正確性檢查機制欠缺,但是資產配置狀況的更新頻度較小、范圍較窄,對實現IT基礎架構的資源配置動態(tài)管理流程的影響較小。不是要因。
4.未及時更新設備維修操作記錄
反映了配置信息日常的正確性檢查機制欠缺,無法保證其準確性,對實現IT基礎架構的資源配置動態(tài)管理流程有較大影響。是要因。
5.配置項目未展現實時性能指標
反映了配置信息偏重于靜態(tài)應用,無法識別系統(tǒng)性能瓶頸,不能提出有針對性的系統(tǒng)優(yōu)化或擴容實施方案,因此無法實現IT基礎架構的資源配置動態(tài)管理。是要因。
6.設備重啟工單只能人工發(fā)起
設備重啟工單只能人工發(fā)起,使得配置信息的更新僅限于提交變更時,但該類工單較少更新IT基礎架構的資源配置信息,對實現IT基礎架構的資源配置動態(tài)管理流程的影響較小。不是要因。
7.健康檢查工單只能人工發(fā)起
情況與6相似。不是要因。
8.出現告警時未自動發(fā)送短信通知
反映了系統(tǒng)缺乏自動發(fā)送告警信息機制,極易造成突發(fā)事件處理響應速度慢,嚴重影響了生產系統(tǒng)的平穩(wěn)運行。是要因。
9.指標超過閥值時未自動觸發(fā)應用核查
表明配置信息的數據維護能力不足,導致無法自動提交給應用人員進行核查,對實現IT基礎架構的資源配置動態(tài)管理流程有較大影響。是要因。
10.沒有建立故障處理歷史知識庫
表明系統(tǒng)尚未具備對問題原因進行深入分析、總結和提煉的手段,但是歷史知識庫屬于靜態(tài)數據范疇,對實現IT基礎架構的資源配置動態(tài)管理流程的影響較小。不是要因。
11.配置信息自動調整的溝通渠道不暢
表明各專業(yè)組之間尚未形成有效的信息溝通渠道,且不能衡量配置信息處理流程的時效性,對實現IT基礎架構的資源配置動態(tài)管理流程有較大影響。是要因。
12.人員職責不清晰
人員職責不清晰雖然造成配置信息的處理過程不可控,無法衡量流程的時效性,但是并不對IT基礎架構的資源配置動態(tài)管理流程產生實質性的影響。不是要因。
13.工單信息不詳盡
情況與12相似。不是要因。
五、對策制定
根據確定的要因,我們制定以下對策措施。如表二所示。
[table]
序號 | 要因 | 對策 | 目標 | 措施 |
1 | 未及時更新設備維修操作記錄 | 通過流程記錄設備維修操作 | 及時記錄設備維修情況 | 設計閉環(huán)、及時的設備維修操作記錄流程 |
2 | 配置項目未展現實時性能指標 | 添加配置項目的展現內容 | 展現配置項的實時KPI | 修改配置項目展現界面,增加動態(tài)KPI指標 |
3 | 出現告警時未自動發(fā)送短信通知 | 在短信平臺中添加觸發(fā)條件 | 實現告警短信自動發(fā)送 | 修改短信平臺發(fā)送條件的參數設置 |
4 | 指標超過閥值時未自動觸發(fā)應用核查 | 系統(tǒng)自動或人工發(fā)起超過閥值的工單 | 應用核查確認超過閥值是否影響運行 | 設計能夠自動觸發(fā)的應用核查工單流程 |
5 | 配置信息自動調整的溝通渠道不暢 | 通過流程實現各專業(yè)組之間的溝通 | 促進配置信息自動調整后的溝通 | 設計順暢的配置信息自動調整的溝通流程 |
六、對策實施
1.設計閉環(huán)、及時的設備維修操作記錄流程
本流程的維修操作工單由對應設備的設備管理員發(fā)起,填寫操作原由、操作內容、計劃操作時間和業(yè)務配合人(一般情況下為該設備的業(yè)務管理員),提交至設備組組長審核,若審核通過則進行相關操作并記錄維修結果,同時業(yè)務配合人記錄業(yè)務應用情況。審核通過后系統(tǒng)在將工單發(fā)送給設備管理員的同時,提醒業(yè)務配合人閱知。
應用管理員可以為多個,需要所有業(yè)務管理員均核查同意后工單才可以終止。只要其中一個應用管理員駁回,工單都會被駁回,重新進入操作人員執(zhí)行狀態(tài)。
2.修改配置項目展現界面,增加動態(tài)KPI指標
IT基礎架構的每個配置項目(CI)必須被有效管理、跟蹤和控制,以支持IT服務和基礎設施正常運行。一般而言,傳統(tǒng)的資源管理方式偏重于靜態(tài)應用,由于資源信息變更不及時,造成資源配置信息不準確;而資源配置的動態(tài)管理強調通過服務管理流程及時反映各類資源KPI(關鍵性能指標)實時狀態(tài)。以主機設備為例,從配置項目展現界面中,可知當前CPU利用率、內存利用率、IO等待率等KPI的實時狀態(tài)。
3.修改短信平臺發(fā)送條件的參數設置
設計告警短信自動發(fā)送的思路是:當生產系統(tǒng)IT基礎架構主要部件產生告警時,BOSS網管系統(tǒng)調用短信平臺的外部接口程序,并根據告警事件的分類進行判斷,然后從數據庫中查找到相應維護人員的手機號碼,最終成功發(fā)送短信通知。在系統(tǒng)中可以定義發(fā)送短信通知的告警級別以及修改接受短信人員的所屬組別和手機號碼,以便靈活調整。
4.設計能夠自動觸發(fā)的應用核查工單流程
本流程實現了系統(tǒng)一旦監(jiān)測到某一設備相關指標達到閥值時,自動觸發(fā)生成應用檢查工單并自動流轉至設備管理員的功能。設備管理員進行初步核查后將該工單流轉至業(yè)務管理員,以便進行業(yè)務應用檢查,記錄檢查情況并提出建議。本流程也支持人為發(fā)起工單方式,相關人員對某臺設備進行操作前,需要通知該設備的業(yè)務管理員知曉并確認。應用管理員可以為多個,在審核時,需要多個業(yè)務管理員都通過才能視為通過,流程才能進入下一狀態(tài)。
5.設計順暢的配置信息自動調整溝通流程
本流程為各業(yè)務組與設備組之間進行有關設備配置信息調整提供溝通處理渠道。因應用需要涉及設備資源信息變更和調整,必須手工發(fā)起需求調整工單,輸入設備IP地址、變更類型和具體需求主題、需求內容后,再經發(fā)起人所在組組長審核通過后提交至設備組組長進行審核,如確認可操作則指定具體操作人(一般情況下為設備管理員),由操作人記錄具體執(zhí)行情況。操作人員在執(zhí)行本次配置調整需求完畢后,必須通過配置管理模塊進行相關資產信息的調整,確保IT基礎架構資源配置信息的及時和準確。需求類型包括:增加空間、增加用戶、賦予權限、調整參數和調整業(yè)務等。
如果需求工單為業(yè)務組人員發(fā)起,需要業(yè)務組長審批通過方可發(fā)起審批,如果為設備組直接發(fā)起,則流程不需要業(yè)務組長審批。業(yè)務組長或設備組長認為變更不需要,也可以直接結束工單。
七、效果評估
本次活動取得了良好效果:在IT基礎架構的資源配置動態(tài)管理流程保障下,實現了告警自動短信通知,并改善了專業(yè)組之間配置信息溝通渠道,使得全省BOSS系統(tǒng)全年故障次數控制在預定目標值以下;利用關鍵性能指標的實時監(jiān)控界面,成功識別出系統(tǒng)性能瓶頸,并提出了系統(tǒng)優(yōu)化擴容方案,使得全省BOSS系統(tǒng)全年優(yōu)化擴容效果超過預定目標值。并為下一步有效地建立其它IT服務管理流程打下了基礎。
----《通信世界》