2020年3月20號(hào)華為開(kāi)發(fā)者大會(huì)HDC.Cloud上,華為網(wǎng)絡(luò)人工智能NAIE將線上揭秘網(wǎng)絡(luò)AI領(lǐng)域10大公開(kāi)數(shù)據(jù)集的具體內(nèi)容和數(shù)據(jù)集構(gòu)建經(jīng)驗(yàn),歡迎大家關(guān)注公眾號(hào)【網(wǎng)絡(luò)人工智能園地】,點(diǎn)擊菜單【HDC】,接入我們的直播和專(zhuān)家線上探討交流!
一、網(wǎng)絡(luò)數(shù)據(jù)治理背景
網(wǎng)絡(luò)自動(dòng)駕駛的本質(zhì),是利用AI技術(shù)對(duì)存量網(wǎng)絡(luò)的海量數(shù)據(jù)進(jìn)行挖掘和分析,發(fā)現(xiàn)并解決復(fù)雜網(wǎng)絡(luò)環(huán)境下的痛點(diǎn)問(wèn)題。該方法可被用于網(wǎng)絡(luò)的規(guī)劃、建設(shè)、運(yùn)維和優(yōu)化等階段,基于AI應(yīng)用逐步實(shí)現(xiàn)網(wǎng)絡(luò)的智能化。
眾所周知,在AI應(yīng)用的開(kāi)發(fā)過(guò)程中,70%以上的工作都花費(fèi)在數(shù)據(jù)的采集、分析和處理。雖然AI技術(shù)發(fā)展至今,在圖片、語(yǔ)音和視頻等領(lǐng)域已經(jīng)有大量公開(kāi)的、準(zhǔn)確標(biāo)注的數(shù)據(jù),可被直接應(yīng)用用于AI開(kāi)發(fā),而網(wǎng)絡(luò)領(lǐng)域卻沒(méi)有太多公開(kāi)準(zhǔn)確高質(zhì)量的數(shù)據(jù)集,可供AI開(kāi)發(fā)者使用。原因除了網(wǎng)絡(luò)領(lǐng)域業(yè)務(wù)的專(zhuān)業(yè)性和安全等因素以外。網(wǎng)絡(luò)數(shù)據(jù)標(biāo)準(zhǔn)復(fù)雜,數(shù)據(jù)質(zhì)量不高需要大成本治理也是主要原因。
網(wǎng)絡(luò)的數(shù)據(jù)難治理主要原因如下:
1)數(shù)據(jù)格式差異大:不同設(shè)備、網(wǎng)管系統(tǒng)生產(chǎn)的數(shù)據(jù),其格式和內(nèi)容是不同的,這些數(shù)據(jù)往往只能被對(duì)應(yīng)的系統(tǒng)理解和使用,無(wú)法直接被端到端整網(wǎng)性的解決方案理解和使用,這樣往往導(dǎo)致開(kāi)發(fā)出來(lái)的AI模型部署、使用范圍有限,無(wú)法最大化的發(fā)揮AI模型的價(jià)值。
2)數(shù)據(jù)標(biāo)注難度大:網(wǎng)絡(luò)領(lǐng)域的數(shù)據(jù)與標(biāo)準(zhǔn)協(xié)議、業(yè)務(wù)規(guī)劃、網(wǎng)絡(luò)配置和運(yùn)行環(huán)境都有關(guān)系,只有將這些因素綜合考慮全面,才能實(shí)現(xiàn)準(zhǔn)確標(biāo)準(zhǔn)。導(dǎo)致網(wǎng)絡(luò)數(shù)據(jù)標(biāo)注門(mén)檻高,無(wú)法通過(guò)業(yè)界常用的眾籌和眾包等方式完成數(shù)據(jù)標(biāo)注。
本文以網(wǎng)絡(luò)故障類(lèi)數(shù)據(jù)集準(zhǔn)備為例,給大家介紹一下,華為網(wǎng)絡(luò)人工智能平臺(tái)NAIE做過(guò)的數(shù)據(jù)治理工作,和積累的數(shù)據(jù)標(biāo)注和數(shù)據(jù)質(zhì)量評(píng)估方法。
二、華為網(wǎng)絡(luò)人工智能NAIE數(shù)據(jù)治理方案
1、網(wǎng)絡(luò)故障處理的終極目標(biāo):一故障一工單
電信網(wǎng)絡(luò)技術(shù)經(jīng)過(guò)幾十年的不斷演進(jìn)和發(fā)展,加上網(wǎng)絡(luò)的持續(xù)擴(kuò)容和升級(jí),現(xiàn)在的電信網(wǎng)絡(luò)實(shí)際上是由不同技術(shù)產(chǎn)品組合而成,涵蓋了寬帶、無(wú)線、固話等多種業(yè)務(wù),區(qū)分為無(wú)線、傳送、數(shù)通、核心網(wǎng)等多個(gè)領(lǐng)域,且每個(gè)領(lǐng)域都有一系列技術(shù)產(chǎn)品,每一個(gè)產(chǎn)品都有特定的組網(wǎng)配置要求,它們的業(yè)務(wù)功能和技術(shù)指標(biāo)各不相同。這樣的組網(wǎng)特點(diǎn)導(dǎo)致電信網(wǎng)絡(luò)故障場(chǎng)景復(fù)雜,一旦故障就出現(xiàn)設(shè)備告警泛濫的痛點(diǎn)。
華為網(wǎng)絡(luò)人工智能平臺(tái)NAIE將AI技術(shù)引入電信網(wǎng)絡(luò)故障場(chǎng)景,構(gòu)建了“一故障一工單”方案——即基于大量的設(shè)備告警信息及運(yùn)維工單,結(jié)合網(wǎng)絡(luò)拓?fù)鋽?shù)據(jù),通過(guò)機(jī)器學(xué)習(xí)的方式完成故障定界和工單壓縮,從而減少故障定界的時(shí)間,降低運(yùn)維人力成本,避免派發(fā)不必要的維護(hù)工單,以提升運(yùn)維效率。
圖一、描述了一套完整的數(shù)據(jù)治理流程
2、“一故障一工單”方案中數(shù)據(jù)工作內(nèi)容
數(shù)據(jù)治理工作在AI項(xiàng)目中是貫穿始終的,可以將其分為六部分內(nèi)容:數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)標(biāo)注、數(shù)據(jù)質(zhì)量評(píng)估和數(shù)據(jù)集生成。數(shù)據(jù)工程師需要從業(yè)務(wù)出發(fā),充分了解數(shù)據(jù)內(nèi)容和特點(diǎn),依次完成數(shù)據(jù)的采集、清洗和轉(zhuǎn)換過(guò)程,最終生成AI算法需要的數(shù)據(jù)集,包括訓(xùn)練集、驗(yàn)證集和測(cè)試集。
2.1 數(shù)據(jù)采集
數(shù)據(jù)工程師需要從網(wǎng)元、網(wǎng)管和其他管理系統(tǒng)上采集到所需數(shù)據(jù)。數(shù)據(jù)采集是繁瑣枯燥而且困難的,過(guò)程中可能會(huì)遇到很多意想不到的問(wèn)題。而且數(shù)據(jù)采集首先必須經(jīng)過(guò)客戶(hù)的授權(quán),采集到的數(shù)據(jù)必須先對(duì)隱私和保密信息進(jìn)行脫敏或匿名化處理。
例如一故障一工單方案,如果要解決無(wú)線網(wǎng)絡(luò)的工單壓縮問(wèn)題,需要無(wú)線基站、承載接入、承載匯聚等領(lǐng)域多個(gè)設(shè)備的告警數(shù)據(jù)。
2.2 數(shù)據(jù)清洗
通常情況下,采集到的數(shù)據(jù)存在著格式雜亂、數(shù)據(jù)缺失、數(shù)據(jù)錯(cuò)誤等問(wèn)題,必須解析復(fù)雜的半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù),檢測(cè)和校正損壞或不準(zhǔn)確的數(shù)據(jù),識(shí)別出不完整、不正確和不相關(guān)的數(shù)據(jù),通過(guò)增補(bǔ)、替換、修改、刪除等方式來(lái)完善和修正數(shù)據(jù)。
數(shù)據(jù)清洗的基本動(dòng)作包括:特殊字符替換、空行剔除、重復(fù)數(shù)據(jù)剔除、無(wú)效數(shù)據(jù)剔除、數(shù)據(jù)類(lèi)型轉(zhuǎn)換、異常數(shù)據(jù)過(guò)濾和數(shù)據(jù)增補(bǔ)。
根據(jù)“一故障一工單”的業(yè)務(wù)要求和數(shù)據(jù)特點(diǎn),數(shù)據(jù)工程師除了上述數(shù)據(jù)清洗的基本動(dòng)作,還需要針對(duì)特定場(chǎng)景完成特定的數(shù)據(jù)清洗動(dòng)作。
例如:
?不同批次采集的原始告警,數(shù)據(jù)字段錯(cuò)位或不一致,需要先做歸一化處理;
?若告警數(shù)據(jù)的實(shí)體對(duì)象ID缺失,需要從實(shí)體對(duì)象名稱(chēng)及擴(kuò)展信息字段中提取并填充;
?對(duì)于無(wú)效及異常的數(shù)據(jù)內(nèi)容,如果通過(guò)業(yè)務(wù)關(guān)系可以還原恢復(fù)的,應(yīng)該盡量恢復(fù)為有效值,不能恢復(fù)的則直接剔除;
?復(fù)雜的拓?fù)湓紨?shù)據(jù)需要經(jīng)過(guò)再次解析,結(jié)合正則表達(dá)式采用通用的方式分解為多個(gè)字段信息,保證列的原子性,符合數(shù)據(jù)庫(kù)第一范式的要求。
2.3 數(shù)據(jù)轉(zhuǎn)換
為了在業(yè)務(wù)上進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)挖掘,原始數(shù)據(jù)需要通過(guò)特征選擇、數(shù)據(jù)標(biāo)準(zhǔn)化和數(shù)據(jù)關(guān)聯(lián)等操作轉(zhuǎn)換為主題域數(shù)據(jù)。華為NAIE主題模型規(guī)范包含了時(shí)空數(shù)據(jù)模型、測(cè)量數(shù)據(jù)模型、設(shè)備數(shù)據(jù)模型、拓?fù)鋽?shù)據(jù)模型、故障數(shù)據(jù)模型等。這些主題模型是各個(gè)業(yè)務(wù)領(lǐng)域的數(shù)據(jù)抽象和提煉,能夠完整的表達(dá)業(yè)務(wù)內(nèi)容或數(shù)據(jù)特征,去除了無(wú)關(guān)或冗余的數(shù)據(jù)信息。因此,根據(jù)華為NAIE主題模型規(guī)范構(gòu)建的主題數(shù)據(jù),可直接作為電信網(wǎng)絡(luò)的標(biāo)準(zhǔn)化數(shù)據(jù)。
2.4 數(shù)據(jù)標(biāo)注
數(shù)據(jù)標(biāo)注是指對(duì)數(shù)據(jù)樣本進(jìn)行標(biāo)記,增加一個(gè)有信息含義的標(biāo)簽。樣本標(biāo)簽可以是人工手動(dòng)標(biāo)注的,也可能基于業(yè)務(wù)系統(tǒng)已有的信息進(jìn)行整合,實(shí)現(xiàn)自動(dòng)化標(biāo)注。
在絕大多數(shù)情況下,如果沒(méi)有標(biāo)注的樣本數(shù)據(jù)標(biāo)簽,相關(guān)的算法性能指標(biāo)(平均絕對(duì)誤差、均方差、準(zhǔn)確率、精確率、召回率以及F1-score等)就無(wú)法計(jì)算,算法模型的性能沒(méi)有指標(biāo)進(jìn)行衡量,更不能進(jìn)行模型的優(yōu)化。所以說(shuō),數(shù)據(jù)標(biāo)注在數(shù)據(jù)工作中是非常重要的。
數(shù)據(jù)標(biāo)注的依據(jù)可以是人的經(jīng)驗(yàn)。比如,大面積的無(wú)線基站連接中斷告警加上某些傳輸節(jié)點(diǎn)上的連接丟失告警,經(jīng)驗(yàn)豐富的運(yùn)維專(zhuān)家很容易判斷出這是一個(gè)群障,很可能是市電掉電導(dǎo)致的,也有可能是光路中斷或者硬件故障。結(jié)合現(xiàn)網(wǎng)各類(lèi)故障的發(fā)生頻率和傳輸節(jié)點(diǎn)的數(shù)量和位置,運(yùn)維專(zhuān)家會(huì)給出最可能的原因,作為當(dāng)前故障的一個(gè)根因標(biāo)注。
數(shù)據(jù)標(biāo)注的依據(jù)也可以來(lái)自于產(chǎn)品文檔,比如,電信網(wǎng)絡(luò)是一個(gè)分段、分層構(gòu)建的,硬件層故障可能會(huì)導(dǎo)致系統(tǒng)層、應(yīng)用層的故障,應(yīng)用層故障不會(huì)影響到硬件層,產(chǎn)品文檔中記錄了層次關(guān)系,可以通過(guò)對(duì)文檔分析實(shí)現(xiàn)告警關(guān)系的提取和總結(jié),從而用于告警數(shù)據(jù)的標(biāo)注;
2.5數(shù)據(jù)質(zhì)量評(píng)估
不是所有的數(shù)據(jù)都有價(jià)值。錯(cuò)誤的、失衡的、失真的數(shù)據(jù)都會(huì)影響算法效果,甚至影響算法的建模,所以說(shuō)數(shù)據(jù)質(zhì)量會(huì)直接影響業(yè)務(wù)結(jié)果。在完成了上述的數(shù)據(jù)工作之后,我們需要系統(tǒng)的對(duì)治理后的數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估。
結(jié)合網(wǎng)絡(luò)領(lǐng)域運(yùn)維效率低、能源消耗高、資源利用率低等應(yīng)用場(chǎng)景,參照業(yè)界常用的數(shù)據(jù)質(zhì)量六性原則,華為網(wǎng)絡(luò)人工智能NAIE已形成網(wǎng)絡(luò)領(lǐng)域八大評(píng)估指標(biāo),分別是數(shù)據(jù)準(zhǔn)確性、可靠性、完整性、一致性、可理解性、可獲得性、相關(guān)性、時(shí)效性;華為網(wǎng)絡(luò)人工智能NAIE平臺(tái)匹配這些評(píng)估指標(biāo),積累了大量網(wǎng)絡(luò)領(lǐng)域數(shù)據(jù)質(zhì)量提升措施,實(shí)現(xiàn)在數(shù)據(jù)準(zhǔn)備階段對(duì)數(shù)據(jù)質(zhì)量的提升,縮短數(shù)據(jù)反饋流程,加速AI模型開(kāi)發(fā)。
2.6 數(shù)據(jù)集生成
針對(duì)具體的業(yè)務(wù)目標(biāo),通過(guò)對(duì)組合后的主題數(shù)據(jù)進(jìn)行特征提取、關(guān)聯(lián)和標(biāo)注,形成數(shù)據(jù)洞察所需的數(shù)據(jù)集,或者算法訓(xùn)練驗(yàn)證所需的數(shù)據(jù)集。
算法訓(xùn)練所需的數(shù)據(jù)集可以劃分為訓(xùn)練集、交叉驗(yàn)證集和測(cè)試集三類(lèi)。
監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的訓(xùn)練集必須有樣本標(biāo)簽,用于算法模型的訓(xùn)練(通過(guò)樣本標(biāo)簽計(jì)算模型誤差,利用梯度下降等方法迭代提升模型精度)。無(wú)監(jiān)督學(xué)習(xí)的訓(xùn)練集可以沒(méi)有樣本標(biāo)簽,但是驗(yàn)證集和測(cè)試集應(yīng)當(dāng)有樣本標(biāo)簽,用于模型的調(diào)優(yōu)和驗(yàn)證,以及模型效果的評(píng)估。
“一故障一工單”選擇了故障主題數(shù)據(jù)和拓?fù)渲黝}數(shù)據(jù)的部分特征,再將故障特征和拓?fù)涮卣鬟M(jìn)行關(guān)聯(lián),最后按照時(shí)空關(guān)系進(jìn)行故障集合劃分,就形成了基本數(shù)據(jù)集。然后按照一定的比例對(duì)數(shù)據(jù)集進(jìn)行劃分,劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
3、“一故障一工單”方案應(yīng)用
華為網(wǎng)絡(luò)人工智能NAIE “一故障一工單”數(shù)據(jù)集包含高質(zhì)量數(shù)據(jù)和高準(zhǔn)確的標(biāo)注,可以有效支撐AI模型的訓(xùn)練和驗(yàn)證,經(jīng)過(guò)已經(jīng)在現(xiàn)網(wǎng)多個(gè)局點(diǎn)的部署和應(yīng)用驗(yàn)證,可實(shí)現(xiàn)網(wǎng)絡(luò)故障工單減少21%。
未來(lái),華為網(wǎng)絡(luò)人工智能NAIE將持續(xù)構(gòu)建覆蓋類(lèi)型全、價(jià)值樣本多、數(shù)據(jù)質(zhì)量高的網(wǎng)絡(luò)運(yùn)維操作領(lǐng)域的數(shù)據(jù)集,供廣大網(wǎng)絡(luò)領(lǐng)域AI開(kāi)發(fā)者應(yīng)用
華為開(kāi)發(fā)者大會(huì)2020(Cloud)是華為面向ICT(信息與通信)領(lǐng)域全球開(kāi)發(fā)者的年度頂級(jí)旗艦活動(dòng)。大會(huì)旨在搭建一個(gè)全球性的交流和實(shí)踐平臺(tái),開(kāi)放華為30年積累的ICT技術(shù)和能力,以“鯤鵬+昇騰”硬核雙引擎,為開(kāi)發(fā)者提供澎湃動(dòng)力,改變世界,變不可能為可能。屆時(shí)在網(wǎng)絡(luò)人工智能將在線上有更多詳細(xì)內(nèi)容,我們期待與你共創(chuàng)計(jì)算新時(shí)代,在一起,夢(mèng)飛揚(yáng)!
網(wǎng)絡(luò)人工智能園地,力求打造運(yùn)營(yíng)商領(lǐng)域第一的人工智能交流平臺(tái),促進(jìn)華為iMaster NAIE理念在業(yè)界(尤其通信行業(yè))形成影響力!
線上直播鏈接:
https://www.hwtelcloud.com/externals/hdc-2020?from=singlemessage&isappinstalled=0