基于網(wǎng)管性能數(shù)據(jù)的KPI優(yōu)化方法

相關(guān)專題: 無線 中興通訊

摘要: 結(jié)合中興通訊在全球商用網(wǎng)的優(yōu)化案例,討論基于網(wǎng)管性能統(tǒng)計數(shù)據(jù)對網(wǎng)絡(luò)KPI進行優(yōu)化的思路和具體方法。對網(wǎng)絡(luò)日常優(yōu)化所需關(guān)注的主要KPI進行了介紹。

概述

隨著商用網(wǎng)絡(luò)規(guī)模的不斷擴大,單純采用路測優(yōu)化方式已經(jīng)不能滿足工作需求。在網(wǎng)絡(luò)成熟期,更多的情況是首先通過后臺網(wǎng)管的海量數(shù)據(jù)統(tǒng)計和分析,初步找出異常指標,繼而確定是RNC級的問題還是個別小區(qū)問題,再結(jié)合具體的優(yōu)化手段進行詳細分析。本文對基于后臺網(wǎng)管性能統(tǒng)計數(shù)據(jù)的KPI優(yōu)化手段進行初步的分析。

在傳統(tǒng)的基于DT和CQT數(shù)據(jù)的優(yōu)化過程中,數(shù)據(jù)的采集是一個比較費時的過程。為了復現(xiàn)某個問題,可能需要進行大量的路測,之后在對長時間的路測數(shù)據(jù)進行回放分析的過程中,定位到具體需要分析的問題點,然后從不同的角度進行分析,最終找到問題的解決方案。雖然在一些智能化的工具支持下,問題的定位與分析能在一定程度上簡化,但這仍然屬于對個案問題進行優(yōu)化的范疇,缺乏全網(wǎng)級的綜合信息加以支撐。而基于后臺網(wǎng)管性能數(shù)據(jù)的優(yōu)化則與之相反,這種優(yōu)化方法基于大量的性能統(tǒng)計數(shù)據(jù),強調(diào)各KPI指標之間的關(guān)聯(lián)性以及KPI指標與各種外在因素的密切聯(lián)系。工程師需要做的,是在相應(yīng)工具的支持下,從性能數(shù)據(jù)與配置數(shù)據(jù)、告警數(shù)據(jù)、地理信息、時間信息等入手,深入挖掘數(shù)據(jù)之間的聯(lián)系,從而定位KPI相關(guān)問題發(fā)生的原因,提出相應(yīng)的解決方案。

常用KPI簡介

根據(jù)各類計數(shù)器,可定義很多種性能指標。其中一部分是一般性能指標,可稱為GPI(General Performance Indicator)。一部分是常用的用于評價網(wǎng)絡(luò)質(zhì)量的指標,可認為是網(wǎng)絡(luò)關(guān)鍵指標。

KPI通常分為路測部分和后臺部分,本文中專門討論后臺部分的指標。后臺網(wǎng)管統(tǒng)計可分為RNC級統(tǒng)計和Cell級統(tǒng)計,針對不同的指標采用不同的統(tǒng)計范圍和粒度。

從實際應(yīng)用的角度,通常有以下幾類KPI,分為接入類、切換類、掉話類、資源類、速率類、質(zhì)量類等,其中很多指標可以進一步按業(yè)務(wù)等條件進行細分,構(gòu)成復雜的KPI體系。但在日常的KPI監(jiān)控和優(yōu)化的過程中,通常選取最重要的幾項指標,反映網(wǎng)絡(luò)的總體性能。當有必要時,才對描述細節(jié)性能的指標進行考察。這體現(xiàn)了問題分解、逐步求精的分析思路。從用戶的使用感受角度考慮,最重要的KPI指標應(yīng)該是掉話率,包括語音、可視電話、PS R99業(yè)務(wù)以及HSPA業(yè)務(wù)的掉話率,而CS業(yè)務(wù)的掉話相對PS業(yè)務(wù)來說帶來的負面體驗更嚴重。其次一個重要的KPI類別是接入類指標,這反映了用戶是否能在任何時間、任何地點及時地獲取高質(zhì)量的移動通信服務(wù)。接下來的重要指標包括質(zhì)量類指標、速率類指標等,這些是用戶直接能感受到并關(guān)心的。切換類、資源類指標則更多地為運營商所關(guān)注。

需要說明的是,在基于網(wǎng)管的KPI體系中,部分KPI指標比較難于體現(xiàn),典型的如呼叫建立時延,其信令點涉及對核心網(wǎng)消息的解碼,通常不在RNC內(nèi)完成,因此更多的是從路測途徑對時延KPI進行測試評估。

在基于網(wǎng)管數(shù)據(jù)的KPI優(yōu)化方式中,典型的KPI如下圖1所示。

圖1 典型網(wǎng)管KPI示意圖

網(wǎng)管KPI優(yōu)化

網(wǎng)管KPI優(yōu)化流程

網(wǎng)管KPI優(yōu)化是通過對OMC統(tǒng)計數(shù)據(jù)的分析來定位異常KPI的過程。異常KPI是指日常網(wǎng)絡(luò)運行監(jiān)控中網(wǎng)絡(luò)質(zhì)量報告輸出的KPI不滿足項,如接入成功率、掉話率、異系統(tǒng)切換成功率等。不同的KPI的分析方法可能有所不同,但總體流程是存在共性的,其分析思路是:

從面到點進行問題定位和分析,即從RNC級性能到小區(qū)級(Cell)性能,結(jié)合KPI之間的橫向分析,以及從KPI到相關(guān)PI的縱向分析。從RNC入手,可以了解整個WCDMA網(wǎng)絡(luò)的整體性能。如果RNC級的指標有異常,則要分別對每個小區(qū)的指標進行分析,確認指標異常是普遍現(xiàn)象還是個別現(xiàn)象:如果是普遍現(xiàn)象,需要從覆蓋、容量、干擾、傳輸、設(shè)備軟硬件、無線參數(shù)等方面進行分析;如果是個別小區(qū)異常,應(yīng)從相應(yīng)的小區(qū)性能統(tǒng)計項進行詳細分析。需要注意的是,在查看百分比類相對性指標時,還需要同時查看指標中的絕對次數(shù),因為百分比指標有時會掩蓋部分小區(qū)的問題。分兩種情況:一是百分比指標差,但采樣點少,不具備統(tǒng)計意義;二是失敗次數(shù)(分子)多,但由于總體樣本點(分母)更多,其百分比指標會很好,容易掩蓋一些問題,需要特別注意。

在網(wǎng)管KPI優(yōu)化過程中,純粹的OMC統(tǒng)計數(shù)據(jù)可能還不夠,這時就需要多元化的數(shù)據(jù)作為分析的輸入,如設(shè)備告警/設(shè)備日志數(shù)據(jù)、小區(qū)跟蹤數(shù)據(jù)。如果仍然無法定位問題,則進行相關(guān)小區(qū)的DT/CQT專項測試,結(jié)合UE側(cè)數(shù)據(jù)進行分析,直至問題的定位解決。圖2是網(wǎng)管KPI優(yōu)化流程,解析如下。

(1)后臺統(tǒng)計指標有RNC級的不合格指標時,明確是否突發(fā)性、可自愈性的異常。這類異常包括大風、大雨、冰雹等氣候變化,假日、集會、體育比賽等用戶集散變化,傳輸瞬斷現(xiàn)象,電源故障等,通常持續(xù)時間不長,但是對統(tǒng)計指標可能有很大影響,需記錄具體原因和提出相應(yīng)的改進建議;

(2)若不是突發(fā)、可自愈的指標異常,要做的第一件事是檢查設(shè)備告警信息,排除可能的設(shè)備告警,這點很重要。若設(shè)備無告警或告警消除后指標沒有恢復正常,進行下一步;

(3)將統(tǒng)計指標和話務(wù)量聯(lián)合起來進行過濾,列出所有指標不滿足的小區(qū),并進行地理化顯示;收集網(wǎng)絡(luò)當前的傳輸配置表、軟硬件版本和無線參數(shù)配置信息,分析篩選出的異常小區(qū)是否存在某些共性,如有則針對其共性進行專題分析。典型的共性特征包括:CN/RNC側(cè)重點檢查近期有無版本升級、CPU負荷、鏈路資源占用情況等;傳輸側(cè)檢查是否有傳輸節(jié)點中斷、傳輸誤碼率過高等;檢查硬件更新情況;檢查無線側(cè)網(wǎng)元有無軟件升級;查看小區(qū)上行接收功率指標,看是否存在上行干擾;檢查異常小區(qū)的幾個最常調(diào)整的無線參數(shù),看參數(shù)是否異常;查看異常小區(qū)統(tǒng)計指標惡化發(fā)生的時間段,查找有無規(guī)律;其他暫沒有列出的共性情況;

圖2 網(wǎng)管KPI優(yōu)化流程圖

(4)若異常小區(qū)沒有找到共性,或優(yōu)化后仍有不滿足指標的小區(qū),則進行單小區(qū)的異常指標分析。主要關(guān)注無線接通率、掉話率、軟切換成功率、2/3G互操作指標、PS業(yè)務(wù)速率等幾方面。

(5)上面所有步驟處理完畢后,若仍然有小區(qū)異常,并且確認是設(shè)備Bug或是系統(tǒng)實現(xiàn)問題,需要設(shè)備廠商相關(guān)技術(shù)人員解決。

無線接通率優(yōu)化

影響無線接通率的原因分析如下:

(1)覆蓋弱區(qū)發(fā)起接入使得信令流程無法完成導致接入失。

(2)接入時被叫手機發(fā)起位置更新使得尋呼不到手機導致接入失;

(3)小區(qū)重選不及時使得UE未在最優(yōu)小區(qū)發(fā)起接入導致接入失敗;

(4)隨機接入?yún)?shù)(前導功率、小區(qū)搜索窗長度等)設(shè)置不當使得RRC建立不成功導致接入失;

(5)LAC區(qū)交界處發(fā)起接入,由于小區(qū)更新導致的接入失敗;

(6)RAB建立失敗導致的接入失敗。RAB指派建立過程有兩個制約,一是RB建立,這是對UE的參數(shù)配置過程,一般不會發(fā)生問題;二是無線鏈路重配過程,主要完成對NodeB鏈路參數(shù)配置,相對容易發(fā)生失敗。常見的失敗原因有:無線鏈路重配準備失。ó擭odeB的資源出現(xiàn)問題,如發(fā)生實例吊死);無線鏈路重配取消(當RNC內(nèi)部資源或流程出現(xiàn)問題)。還有一種情況會導致RAB失敗,即小區(qū)負荷較高時RNC通過接納控制發(fā)出拒絕指令。

無線掉話率優(yōu)化

無線掉話率優(yōu)化的思路如下:

(1)分析RNC的掉話率指標,主要從整個RNC的整體掉話率指標上判斷掉話率指標是否正常。

(2)分析小區(qū)的掉話率指標。主要需要分析小區(qū)“AMR掉話率”、“VP掉話率”、“PS掉話率”、“硬切換掉話率”、“系統(tǒng)間切換掉話率”,對所有小區(qū)分別用以上的指標進行排序,選擇指標特別差的小區(qū)或者最差的一些小區(qū),進一步分析掉話原因。

(3)檢查小區(qū)是否異常。檢查小區(qū)告警,排除小區(qū)異常方面的原因。

(4)分析掉話原因,從覆蓋、切換、干擾幾方面考慮。如果失敗信令顯示用戶面或無線鏈路失敗,并且原因是“RLC不可恢復錯誤”的話,可能是覆蓋導致的掉話問題;分析該小區(qū)相關(guān)的切換指標(分析小區(qū)的切入成功率和切出成功率),確認是否由于切換失敗導致的掉話;通過分析小區(qū)總帶寬接收功率相關(guān)指標,分析在掉話率高的時段,是否相應(yīng)的上行干擾指標也很高,進一步確認是否上行干擾導致的掉話問題。

(5)通過路測重現(xiàn)問題。當通過后臺網(wǎng)管數(shù)據(jù)分析無法進一步解決掉話問題的時候,需要針對小區(qū)進行路測,跟蹤手機側(cè)和RNC的信令流程進行分析。

切換成功率優(yōu)化

影響切換成功率主要有以下幾個因素:切換區(qū)過小,切換參數(shù)設(shè)置不當,鄰區(qū)漏配。

(1)切換區(qū)過小。切換區(qū)過小會使UE沒有足夠的時間完成切換;

(2)切換參數(shù)設(shè)置不當。會導致鄰區(qū)增加/刪除不及時,或乒乓切換;

(3)鄰區(qū)漏配。這種情況是最常見的導致切換失敗的原因,而且對網(wǎng)絡(luò)性能影響較大。漏配的鄰區(qū)不但會直接造成掉話,還會給網(wǎng)絡(luò)帶來額外干擾,降低網(wǎng)絡(luò)容量。

其他指標

下面的這些指標不是優(yōu)化最關(guān)心的,但有時也需要結(jié)合它們對具體問題進行分析。尤其是當網(wǎng)絡(luò)用戶數(shù)達到一定程度后,會更經(jīng)常用到這些指標的統(tǒng)計。

(1)話務(wù)量與掉話率

單純從掉話率統(tǒng)計的絕對值無法準確判斷小區(qū)是否存在問題,必須結(jié)合小區(qū)話務(wù)量指標。只有小區(qū)話務(wù)量(呼叫次數(shù))足夠多時統(tǒng)計結(jié)果才有參考價值。

(2)RTWP

基站空載時,RTWP(Received Total Wideband Power,寬帶接收總功率)均值在-106~-104dBm之間屬正常;按照50%負載對應(yīng)3dB噪聲抬升,可知RTWP小于-100dBm基本屬于正常范圍。分析這個指標需要結(jié)合話務(wù)量。若在話務(wù)量正常的情況下出現(xiàn)RTWP異常抬升,則有可能是存在較嚴重的外部干擾,這是提示干擾存在的重要手段之一。

(3)碼資源利用率

碼資源利用率太高或太低都不好,現(xiàn)實中常見的是邊緣站點的碼資源利用率較低,而密集社區(qū)、寫字樓、商業(yè)區(qū)等地域的站點碼資源利用率很高,需要保持關(guān)注,防止因碼資源受限發(fā)生的網(wǎng)絡(luò)問題。

地理化分析方法

隨著Google Earth等現(xiàn)代GIS工具的廣泛普及,越來越多的優(yōu)化工具從中受益,使得優(yōu)化過程中能盡最大可能地利用地理化信息,輔助優(yōu)化方案的制訂。在KPI優(yōu)化的過程中,常見的地理化分析方法包括:

(1)利用各小區(qū)的關(guān)鍵KPI值對小區(qū)顏色進行渲染,直觀表達全網(wǎng)的KPI分布情況。統(tǒng)計指標的圖形化顯示對大規(guī)模網(wǎng)絡(luò)優(yōu)化分析的好處顯而易見,圖形化的分析結(jié)果直觀、清晰,且能夠表示出站點的相對位置,可以從宏觀層面來分析問題,便于分層次實施優(yōu)化。如圖3所示是某網(wǎng)絡(luò)中各小區(qū)的掉話率分布情況,不同顏色代表不同的掉話率等級。

圖3 小區(qū)掉話率分布圖

(2)對TopN問題小區(qū)的地理化關(guān)聯(lián)分析,就是將有問題的小區(qū)重點集中呈現(xiàn),以便發(fā)現(xiàn)地理上的共性。這樣不但有助于整理優(yōu)化思路,也有助于對一些隱藏問題的判斷,如潛在干擾的發(fā)現(xiàn)、傳輸問題的發(fā)現(xiàn)等。圖4是一個典型案例。黃色區(qū)域中包含的是12個掉話率最高的站點,紅色區(qū)域中的3個站點則是掉話率在前三位的,這表明這些站點在拓撲結(jié)構(gòu)上的很強的關(guān)聯(lián)性。后經(jīng)查實,這些站點是通過共同的傳輸接口板接入RNC的,接口板的安插不良導致了掉話率的突然提高,重新連接問題即告解決。

圖4 小區(qū)KPI的地理共性分析

小結(jié)

WCDMA網(wǎng)絡(luò)的優(yōu)化是一個復雜的過程,需要從大量數(shù)據(jù)中進行問題的分類、定位、分析和處理。中興通訊在全球成功部署大量WCDMA網(wǎng)絡(luò)的基礎(chǔ)上,形成了完善的KPI優(yōu)化流程和方法。很多網(wǎng)規(guī)網(wǎng)優(yōu)專家經(jīng)驗已固化到中興通訊網(wǎng)規(guī)網(wǎng)優(yōu)工具套件中,如ZXPOS CNT/CNA/CNO等,其中不少算法已經(jīng)申請相關(guān)專利。中興通訊將不斷積累經(jīng)驗,來提高網(wǎng)絡(luò)的質(zhì)量及用戶的滿意程度,為全球運營商打造WCDMA精品網(wǎng)絡(luò)。

作者:GU網(wǎng)規(guī)網(wǎng)優(yōu)部 尹建華   來源:C114中國通信網(wǎng)
微信掃描分享本文到朋友圈
掃碼關(guān)注5G通信官方公眾號,免費領(lǐng)取以下5G精品資料
  • 1、回復“YD5GAI”免費領(lǐng)取《中國移動:5G網(wǎng)絡(luò)AI應(yīng)用典型場景技術(shù)解決方案白皮書
  • 2、回復“5G6G”免費領(lǐng)取《5G_6G毫米波測試技術(shù)白皮書-2022_03-21
  • 3、回復“YD6G”免費領(lǐng)取《中國移動:6G至簡無線接入網(wǎng)白皮書
  • 4、回復“LTBPS”免費領(lǐng)取《《中國聯(lián)通5G終端白皮書》
  • 5、回復“ZGDX”免費領(lǐng)取《中國電信5GNTN技術(shù)白皮書
  • 6、回復“TXSB”免費領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解
  • 7、回復“YDSL”免費領(lǐng)取《中國移動算力并網(wǎng)白皮書
  • 8、回復“5GX3”免費領(lǐng)取《R1623501-g605G的系統(tǒng)架構(gòu)1
  • 本周熱點本月熱點

     

      最熱通信招聘

      最新招聘信息