DevRun Live第四場:直達(dá)AI前沿,“攻城獅”們,Let’s go!

相關(guān)專題: 華為 大數(shù)據(jù) 無線

(計(jì)育青/文)最近天氣回暖,好消息也越來越多,中國“戰(zhàn)疫”不斷收復(fù)失地,大家的生活也在漸漸恢復(fù)正常。對于愛學(xué)習(xí)的“攻城獅”們來說,還有一個(gè)好消息,那就是華為“DevRun Live”開發(fā)者沙龍?jiān)?月20日再次上線。

這次沙龍活動也有三場直播,三位來自華為的技術(shù)大咖和一位特邀的合作伙伴專家分別介紹了AI在網(wǎng)絡(luò)故障數(shù)據(jù)分析中的應(yīng)用,以及基于聯(lián)邦學(xué)習(xí)的AI模型共建共享。既有高深的技術(shù)理論,也有生動的案例介紹,帶著愛學(xué)習(xí)的同學(xué)們直達(dá)網(wǎng)絡(luò)AI科技前沿。

1、揭秘網(wǎng)絡(luò)AI領(lǐng)域10大公開數(shù)據(jù)集應(yīng)用及標(biāo)準(zhǔn)

此次沙龍的第一場演講由華為云NAIE首席數(shù)據(jù)治理專家周堯主講,他揭秘了網(wǎng)絡(luò)AI領(lǐng)域10大公開數(shù)據(jù)集應(yīng)用及標(biāo)準(zhǔn),并介紹了如何獲取十大公開數(shù)據(jù)集、獲取后如何使用這些數(shù)據(jù)集。周堯還詳細(xì)說明了數(shù)據(jù)治理過程中要盡量避免的一些問題,以及典型數(shù)據(jù)集開發(fā)模型的價(jià)值。

如今文本、圖片、語音、視頻等領(lǐng)域的AI數(shù)據(jù)集雖多,但具體到網(wǎng)絡(luò)領(lǐng)域,卻很少有高質(zhì)量的數(shù)據(jù)集可用。這一方面與專業(yè)性和安全性有關(guān),另一方面,網(wǎng)絡(luò)數(shù)據(jù)也存在標(biāo)準(zhǔn)復(fù)雜、標(biāo)注難度大等問題,數(shù)據(jù)治理成本較高。

首先,數(shù)據(jù)采集的來源可能包括網(wǎng)元、網(wǎng)管和其他管理系統(tǒng)等。比如網(wǎng)絡(luò)故障場景就需要采集無線基站、承載接入、承載匯聚等領(lǐng)域多個(gè)設(shè)備的告警數(shù)據(jù)。這個(gè)過程非常繁瑣,而且需要慎重處理好隱私防護(hù)、數(shù)據(jù)安全問題。

其次,采集到的數(shù)據(jù)后,需要進(jìn)行數(shù)據(jù)清洗,解決數(shù)據(jù)缺損、謬誤、格式不同等問題。不同場景下往往還會有特定的數(shù)據(jù)清洗操作。

然后,為便于后續(xù)的數(shù)據(jù)分析,原始數(shù)據(jù)還需要根據(jù)用途轉(zhuǎn)換為相應(yīng)的主題模型,比如時(shí)空數(shù)據(jù)模型、設(shè)備數(shù)據(jù)模型、故障數(shù)據(jù)模型等,可以作為電信網(wǎng)絡(luò)的標(biāo)準(zhǔn)化數(shù)據(jù)用于深度挖掘。

接下來的流程是數(shù)據(jù)標(biāo)注,即對整理后的數(shù)據(jù)樣本添加一個(gè)標(biāo)簽,注明與該數(shù)據(jù)相關(guān)的重要信息。比如多個(gè)基站、傳輸節(jié)點(diǎn)出現(xiàn)連接中斷告警,運(yùn)維專家會判斷可能是斷電、光路故障或硬件故障,這些經(jīng)驗(yàn)可以作為故障數(shù)據(jù)的一個(gè)重要標(biāo)注。同時(shí),通信設(shè)備的產(chǎn)品文檔中也會給出內(nèi)在的層次邏輯關(guān)系,據(jù)此可以提取一些告警關(guān)系,用于告警數(shù)據(jù)的標(biāo)注。

華為從業(yè)務(wù)出發(fā),經(jīng)過數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)標(biāo)注、數(shù)據(jù)質(zhì)量評估和數(shù)據(jù)集生成六個(gè)步驟,獲得了涉及接入網(wǎng)、核心網(wǎng)、無線網(wǎng)、數(shù)據(jù)通信等多個(gè)領(lǐng)域的十大公開數(shù)據(jù)集。

2、打破數(shù)據(jù)孤島,聯(lián)邦學(xué)習(xí)技術(shù)AI模型上開發(fā)實(shí)踐

當(dāng)前運(yùn)營商網(wǎng)絡(luò)及企業(yè)專網(wǎng)的相關(guān)網(wǎng)絡(luò)數(shù)據(jù)無法上傳到公有云,數(shù)據(jù)存儲在各個(gè)分散的網(wǎng)絡(luò)局點(diǎn)機(jī)房。面對“數(shù)據(jù)孤島”難題,華為網(wǎng)絡(luò)AI架構(gòu)師江濤帶來了自己的“殺手锏”,這就是如何確保數(shù)據(jù)在客戶機(jī)房的情況下,使用聯(lián)邦學(xué)習(xí)技術(shù)開發(fā)訓(xùn)練出模型。

帶著口罩的江濤很有大師風(fēng)范,講演中隨手拈來、揮灑自如,技術(shù)大咖的風(fēng)度令人折服。通過這場沙龍,大家可以了解運(yùn)營商網(wǎng)絡(luò)及企業(yè)專網(wǎng)數(shù)據(jù)無法上云的原因,通信網(wǎng)絡(luò)聯(lián)邦學(xué)習(xí)的應(yīng)用架構(gòu)及關(guān)鍵組成,以及如何使用聯(lián)邦學(xué)習(xí)進(jìn)行模型開發(fā)和訓(xùn)練。

聯(lián)邦學(xué)習(xí)(Federated Learning)是一種多用戶共享的機(jī)器學(xué)習(xí)技術(shù),可以在不共享本地?cái)?shù)據(jù)的前提下,讓參與的用戶共建共享AI模型。這種技術(shù)的原理是各參與方在本地進(jìn)行模型訓(xùn)練,然后將訓(xùn)練結(jié)果加密上傳到云端,與其它參與方的訓(xùn)練結(jié)果匯聚形成一個(gè)公共模型,然后再將這個(gè)公共模型從云端下發(fā)給各參與方。

聯(lián)邦學(xué)習(xí)優(yōu)點(diǎn)在于可以在保護(hù)隱私的前提下,匯聚更多的數(shù)據(jù)資源用于機(jī)器學(xué)習(xí)。對于高度重視數(shù)據(jù)安全、隱私保護(hù)的電信行業(yè)來說,這一技術(shù)無疑極具實(shí)用價(jià)值。為此華為網(wǎng)絡(luò)AI引擎推出了聯(lián)邦學(xué)習(xí)服務(wù),并已經(jīng)被用于華為CloudMSE基于SA(Service awareness)技術(shù)的業(yè)務(wù)管理。

比如某國運(yùn)營商禁止使用VoIP業(yè)務(wù),但VoIP應(yīng)用種類多、版本更新頻繁,很多還是加密的,這就需要SA技術(shù)支持對VoIP軟件的檢測和控制。這種情況下,運(yùn)營商可以引入聯(lián)邦學(xué)習(xí)技術(shù)來迅速建立對VoIP應(yīng)用的智能識別能力。此外,聯(lián)邦學(xué)習(xí)還被華為用于識別不限流量套餐用戶與他人共享,P2P、VoIP應(yīng)用“惡意”占用大量網(wǎng)絡(luò)資源等,使得運(yùn)營商可以利用SA技術(shù)控制網(wǎng)絡(luò)流量的異常增加。

為避開SA技術(shù)的流量檢測和控制,很多VPN和VoIP服務(wù)采用了DomainFronting技術(shù),大大增加了流量識別的難度。不過華為聯(lián)邦學(xué)習(xí)平臺解決了數(shù)據(jù)流量有安全防護(hù)情況下的分布式訓(xùn)練問題,大大提升了流量識別的準(zhǔn)確率。

目前華為聯(lián)邦學(xué)習(xí)服務(wù)內(nèi)置有聯(lián)邦匯聚、梯度分叉、多方計(jì)算、壓縮算法等能力,這些算法可以通過共同訓(xùn)練獲得優(yōu)于單獨(dú)訓(xùn)練的效果。用戶只需要從華為NAIE的聯(lián)邦學(xué)習(xí)平臺上下載一個(gè)客戶端,就可以加入聯(lián)邦學(xué)習(xí)實(shí)例,并能夠查看可視化訓(xùn)練狀態(tài),共享訓(xùn)練的成果。

現(xiàn)實(shí)中很多應(yīng)用場景都可以輕松改造成華為聯(lián)邦學(xué)習(xí)平臺模式,借助其隱私保護(hù)和分布式訓(xùn)練的能力,大大加快AI模型的訓(xùn)練速度。

3、跨域網(wǎng)絡(luò)故障根因告警識別效率提升達(dá)40%的秘密

近年來,網(wǎng)絡(luò)性能越來越強(qiáng)、功能越來越多,但隨之而來的是網(wǎng)絡(luò)結(jié)構(gòu)越來越復(fù)雜,運(yùn)維越來越困難,而智能運(yùn)維技術(shù)被認(rèn)為是面向未來的解決之道。在第三場演講直播中,來自華為的AI算法專家劉天賜就分享了“跨域網(wǎng)絡(luò)故障根因告警識別效率提升達(dá)40%的秘密”。這次演講還邀請到了來自重慶環(huán)聯(lián)科技的大數(shù)據(jù)專家唐旭,介紹了與華為合作開發(fā)網(wǎng)絡(luò)故障識別方案的成果和經(jīng)驗(yàn)。

華為AI算法專家劉天賜

從華為的實(shí)踐經(jīng)驗(yàn)來看,運(yùn)用知識圖譜、機(jī)器學(xué)習(xí)等AI技術(shù),結(jié)合網(wǎng)絡(luò)拓?fù)鋵Ω婢瘮?shù)據(jù)進(jìn)行分析、快速聚合,從而實(shí)現(xiàn)對故障的快速定位和精準(zhǔn)識別。據(jù)測算,跨域網(wǎng)絡(luò)故障根因告警識別效率可以因此提升40%,整體運(yùn)維效率可以因此提升約30%。

開發(fā)者們從中不僅可以了解到跨域復(fù)雜網(wǎng)絡(luò)故障定位的難點(diǎn)、典型網(wǎng)絡(luò)故障的特征及業(yè)務(wù)問題以及如何應(yīng)用網(wǎng)絡(luò)拓?fù)洹⒏婢瘮?shù)據(jù)和知識圖譜等AI技術(shù)結(jié)合開發(fā)出故障識別模型。

重慶環(huán)聯(lián)科技大數(shù)據(jù)專家唐旭

在3月13日舉行的第三期沙龍活動中,華為云自然語言處理技術(shù)專家鄭毅曾介紹過知識圖譜的構(gòu)建流程及方法,F(xiàn)在的問題是,知識圖譜既然可以讓AI可以像人一樣理解世界,那么能不能讓AI像網(wǎng)絡(luò)專家一樣理解網(wǎng)絡(luò),解決復(fù)雜網(wǎng)絡(luò)的智能運(yùn)維問題呢?華為在這一領(lǐng)域做了很多探索。

首先要明確一點(diǎn),通信網(wǎng)絡(luò)知識圖譜與一般知識圖譜有很大的差異。比如在內(nèi)容上,前者更注重知識深度和完備性,在交互方式上更關(guān)注面向問題的目標(biāo)導(dǎo)向性問答,而后者則更像是開放式的聊天問答。歸根結(jié)底,人們需要AI像網(wǎng)絡(luò)運(yùn)維專家那樣,可以透過故障表象推測出可能存在于多個(gè)環(huán)節(jié)的問題根源。更進(jìn)一步,人們需要AI能實(shí)現(xiàn)高度智能化的網(wǎng)絡(luò)自動駕駛,大大減輕運(yùn)維人員的值守壓力和應(yīng)急任務(wù)量。

目前華為已經(jīng)建立起了一套網(wǎng)絡(luò)運(yùn)維知識圖譜的方法論和標(biāo)準(zhǔn)規(guī)范,大致上可以劃分成知識來源、知識建模、知識存儲、知識抽取、知識表示和知識融合幾個(gè)方面。

從知識來源來看,網(wǎng)絡(luò)運(yùn)維知識蘊(yùn)藏在告警信息、數(shù)據(jù)采集以及配置、日志等文檔中,也蘊(yùn)藏在使用手冊、故障案例、交流論壇以及專家的腦海中。要將這一切融入知識圖譜,就需要配備相應(yīng)的信息抓取工具,并能夠從這些來源不同、結(jié)構(gòu)不同的數(shù)據(jù)源中獲取知識語料。

提取到知識語料之后,要從中提取到有價(jià)值的知識,必須事先設(shè)計(jì)知識模型,建立知識圖譜的數(shù)據(jù)模式(schema)。在具體操作時(shí),可以采用自上而下的方法,由專家利用建模工具來手工編輯schema;也可以采用自下而上的方法,根據(jù)源數(shù)據(jù)的結(jié)構(gòu)、語料的規(guī)范標(biāo)準(zhǔn)等,將數(shù)據(jù)中蘊(yùn)含的信息以知識圖譜的形式表達(dá)出來。以故障傳播知識圖譜為例,不但需要涵蓋故障位置、故障表現(xiàn)、故障表現(xiàn)間的傳遞和依賴關(guān)系等等,還需要補(bǔ)齊語義知識。比如應(yīng)該把“NE”自動等同于“網(wǎng)元”,把“Pod起不來”這樣的語句自動識別為一種故障現(xiàn)象。

網(wǎng)絡(luò)故障知識的存儲需要數(shù)據(jù)庫,這種數(shù)據(jù)庫不僅要具備圖查詢、圖計(jì)算功能,也需要有語義關(guān)聯(lián)庫、支持故障問答的符號化知識等。因此需要在圖數(shù)據(jù)庫的基礎(chǔ)上開發(fā)一些特定功能。

知識抽取是一個(gè)比較復(fù)雜的問題,因?yàn)橹R往往蘊(yùn)含在不同來源、不同格式的數(shù)據(jù)和文檔中,從中提取、識別知識都需要開發(fā)相應(yīng)的技術(shù)和工具。要知道,僅文本信息的識別、信息提取就是一個(gè)非常復(fù)雜的科學(xué)問題。

知識表示和知識融合是產(chǎn)生知識圖譜的關(guān)鍵環(huán)節(jié)。抽取到的知識往往是缺乏關(guān)聯(lián)的,要形成完善的知識圖譜,還需要利用多種算法來發(fā)現(xiàn)各個(gè)實(shí)體間的關(guān)系,包括各種故障特征之間的傳導(dǎo)關(guān)系等。

需要強(qiáng)調(diào)的是,作為華為開發(fā)者大會(Cloud)旗下的線上開發(fā)者沙龍活動,DevRun Live并不是一次性的科技秀,而是持續(xù)上百次的大型直播沙龍,華為將與多家合作媒體一起,在平臺上展示各種豐富的技術(shù)內(nèi)容,為開發(fā)者進(jìn)行全面的技術(shù)加持。

華為開發(fā)者大會2020(Cloud)將于2020年3月27日-28日通過華為云以網(wǎng)上直播的方式呈現(xiàn),這是華為面向ICT(信息與通信)領(lǐng)域全球開發(fā)者的年度頂級旗艦活動。

大會旨在搭建一個(gè)全球性的交流和實(shí)踐平臺,開放華為30年積累的ICT技術(shù)和能力,以“鯤鵬+昇騰”硬核雙引擎,為開發(fā)者提供澎湃動力,改變世界,變不可能為可能。我們期待與你在一起,夢飛揚(yáng)!


微信掃描分享本文到朋友圈
掃碼關(guān)注5G通信官方公眾號,免費(fèi)領(lǐng)取以下5G精品資料
  • 1、回復(fù)“YD5GAI”免費(fèi)領(lǐng)取《中國移動:5G網(wǎng)絡(luò)AI應(yīng)用典型場景技術(shù)解決方案白皮書
  • 2、回復(fù)“5G6G”免費(fèi)領(lǐng)取《5G_6G毫米波測試技術(shù)白皮書-2022_03-21
  • 3、回復(fù)“YD6G”免費(fèi)領(lǐng)取《中國移動:6G至簡無線接入網(wǎng)白皮書
  • 4、回復(fù)“LTBPS”免費(fèi)領(lǐng)取《《中國聯(lián)通5G終端白皮書》
  • 5、回復(fù)“ZGDX”免費(fèi)領(lǐng)取《中國電信5GNTN技術(shù)白皮書
  • 6、回復(fù)“TXSB”免費(fèi)領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解
  • 7、回復(fù)“YDSL”免費(fèi)領(lǐng)取《中國移動算力并網(wǎng)白皮書
  • 8、回復(fù)“5GX3”免費(fèi)領(lǐng)取《R1623501-g605G的系統(tǒng)架構(gòu)1
  • 本周熱點(diǎn)本月熱點(diǎn)

     

      最熱通信招聘

      最新招聘信息