2016年4月20日,“中國(guó)信息通信大數(shù)據(jù)大會(huì)”于北京召開。在本次大會(huì)上,工業(yè)和信息化部通信發(fā)展司司長(zhǎng)聞庫(kù)、中國(guó)通信信息化部副總經(jīng)理兼CTO范濟(jì)安、中國(guó)電信云計(jì)算中心主任趙慧玲等嘉賓出席了本次大會(huì)。
以下是中國(guó)移動(dòng)浙江分公司資深架構(gòu)師湯人杰演講實(shí)錄:
浙江移動(dòng) 湯人杰
浙江公司以前有信息技術(shù)部和網(wǎng)管中心兩大部分,分別建了若干個(gè)大數(shù)據(jù)平臺(tái),每個(gè)部門都建了若干個(gè),基本每個(gè)應(yīng)用一個(gè)。建了無(wú)數(shù)多的平臺(tái),這里就存在一個(gè)很大的問(wèn)題,數(shù)據(jù)冗余,
我們可以想象一下光我們我們以往的數(shù)據(jù)一天有100G,固網(wǎng)數(shù)據(jù)有600多T,地域數(shù)據(jù)也很多,表接口有幾千張,我們反復(fù)抽取四五遍,會(huì)帶來(lái)質(zhì)量不高,數(shù)據(jù)標(biāo)準(zhǔn)化程度也會(huì)很低,這樣反過(guò)來(lái)制約了應(yīng)用的創(chuàng)新。因此,我們需要借助云計(jì)算,借助PAAS技術(shù),把所有的大數(shù)據(jù)平臺(tái)整合成一個(gè)具備多租戶能力的PAAS平臺(tái)。
數(shù)據(jù)的匯聚,我們要從傳統(tǒng)的以結(jié)構(gòu)化數(shù)據(jù)為主轉(zhuǎn)向多結(jié)構(gòu)化。如果真的沒(méi)有結(jié)構(gòu)的話,任何東西都識(shí)別不出來(lái),就算文本也是有結(jié)構(gòu)的,如何從標(biāo)準(zhǔn)的二維表結(jié)構(gòu)展現(xiàn)多種結(jié)構(gòu)的識(shí)別,數(shù)據(jù)的抽取,這是我們?cè)诩夹g(shù)構(gòu)建上要考慮的問(wèn)題。
另外一塊,比如UL,我們?nèi)绾瓮ㄟ^(guò)UL最后來(lái)獲取到用戶的行為偏好呢?這里涉及到很復(fù)雜的技術(shù),比如通過(guò)某種分類的算法,了解這篇文章到底是什么樣的語(yǔ)義,包括有些字段語(yǔ)言的識(shí)別。另外這只是我們講的數(shù)據(jù)的抽取技術(shù),或者數(shù)據(jù)的趴取技術(shù)。數(shù)據(jù)獲取到了怎么去處理?我們數(shù)據(jù)的處理,運(yùn)營(yíng)商大多采用的技術(shù)是小型機(jī)加存儲(chǔ)的方式。你沒(méi)有很好的橫向拓展,因?yàn)闄C(jī)器達(dá)到頂配了,速度也不夠快。解決方案是什么呢?很簡(jiǎn)單,就一句話,分布式,就是云。要講到分布式,我們必須講CAP理論,在CAP理論里面,我們認(rèn)為在網(wǎng)絡(luò)發(fā)生分裂的時(shí)候,要加個(gè)前提條件,在這種條件下,我們CAP只能三者選其二,大多數(shù)是選CA的,你選擇了P,分區(qū)容忍性,必然要放棄一致性。這就帶來(lái)了什么呢?我們說(shuō)傳統(tǒng)的一種單一的數(shù)據(jù)處理的架構(gòu)要轉(zhuǎn)化成三種架構(gòu)同時(shí)針對(duì)不同的業(yè)務(wù)層,比如我們會(huì)在數(shù)據(jù)的知識(shí)分布快速的交互式查詢的情況下,我們有個(gè)APP的數(shù)據(jù)庫(kù)。通過(guò)扁平化的分布式的架構(gòu),來(lái)提升數(shù)據(jù)的處理能力,打破數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)處理的瓶頸。
另外一塊,大數(shù)據(jù)整個(gè)分析思維會(huì)有一個(gè)變化。從傳統(tǒng)的樣本的分析方法轉(zhuǎn)變到我們對(duì)全局?jǐn)?shù)據(jù)對(duì)特定問(wèn)題的分析,通過(guò)分析,我們會(huì)構(gòu)建一個(gè)客戶畫像,這個(gè)客戶畫像可能是我們很基礎(chǔ)的一個(gè)共享的模式。同時(shí)我們會(huì)引入大量的分析算法,除了傳統(tǒng)的回歸、聚類,包括我們一些傳統(tǒng)的分析方法以外,比如會(huì)引入時(shí)序分析,對(duì)用戶經(jīng)過(guò)的基站經(jīng)過(guò)時(shí)序分析。比如做六度很分析,我們做了兩度的交往圈的分析,來(lái)分析一些傳播的問(wèn)題。
我們?cè)谛畔⒄宫F(xiàn)上也會(huì)做一些突破,用更好的形式,更交互式的,更讓人體驗(yàn)更好的形式來(lái)進(jìn)行信息的展現(xiàn)。總的來(lái)講,我們的規(guī)劃思路就是12個(gè)字,數(shù)據(jù)整合、能力共享、應(yīng)用創(chuàng)新。實(shí)現(xiàn)我們數(shù)據(jù)統(tǒng)一的開放共享,這個(gè)統(tǒng)一的開放共享必然要實(shí)現(xiàn)我PAAS層的資源整合,再構(gòu)建能力層的開放和應(yīng)用層的開放。
我們來(lái)看我們平臺(tái)具體是怎么建設(shè)的,我們浙江移動(dòng)的平臺(tái)今年主要是PAAS層的建設(shè),主要是兩塊,一塊是PAAS層的建設(shè),一塊是BUS層的建設(shè),PAAS分了三層,我們共建了一個(gè)數(shù)據(jù)交換中心,包括內(nèi)部的數(shù)據(jù)采集和數(shù)據(jù)趴取,數(shù)據(jù)進(jìn)來(lái)以后,我們通過(guò)數(shù)據(jù)處理層,數(shù)據(jù)處理層主要建立了兩個(gè)大的資源池,一個(gè)是在線資源池,一個(gè)是離線資源池,在線通過(guò)流處理技術(shù),我們做了一些創(chuàng)新,我們用了開源的數(shù)據(jù)庫(kù),把它改造成可以動(dòng)態(tài)的分布式的形態(tài)。因?yàn)槲覕?shù)據(jù)庫(kù)內(nèi)存可能不夠,結(jié)合流計(jì)算的技術(shù)。在離線資源池主要用了MPP和Hadoop,在上層加了一層數(shù)據(jù)展現(xiàn)層,讀寫分析,把分析結(jié)果沉淀到上面的數(shù)據(jù)開放層。
我們今年主要做的就是PAAS這一層,把所有的硬件資源,所有的技術(shù)組件全部都整合了。我們認(rèn)為我們底層都是基于容器技術(shù),統(tǒng)一的資源調(diào)度,同一套的技術(shù),把資源全部經(jīng)過(guò)多租戶的整合。上面我們引入的數(shù)據(jù),構(gòu)建了DAAS,是統(tǒng)一的一套數(shù)據(jù)模式,后續(xù)的應(yīng)用開發(fā)基于統(tǒng)一的數(shù)據(jù)模型,把數(shù)據(jù)的問(wèn)題解決了。應(yīng)用一定是基于問(wèn)題的,同時(shí)我們有云管理平臺(tái),包括調(diào)度,包括運(yùn)維,運(yùn)維自動(dòng)化我們參考了藍(lán)鯨。我們內(nèi)部到底是使用了一些什么樣的技術(shù),比如我們是兩部分,一個(gè)是爬蟲,一個(gè)是分子檢索,流處理平臺(tái)承載了客流分析,這是政法委要求的。包括我們的精確營(yíng)銷,我們整個(gè)Hadoop平臺(tái)承載了三億的融客模型,在數(shù)據(jù)讀寫分離這一層,我們主要采用了一些多維的數(shù)據(jù)庫(kù)。這是我們整體大的數(shù)據(jù)流向,我們同時(shí)支撐在線和離線的數(shù)據(jù),包括我們數(shù)據(jù)挖掘可以同時(shí)支持在線和離線。
我們講一下我們這次做了采集,我們OBM3一共1600多個(gè)系統(tǒng),我們剛剛講了,我們以往的數(shù)據(jù)一天將近有100T,固網(wǎng)的數(shù)據(jù)有600多T,地域系統(tǒng)有三十多個(gè)系統(tǒng),固網(wǎng)目前還有一部分沒(méi)有采集,確實(shí)是量太大了,平臺(tái)需要擴(kuò)容。我們?cè)诮y(tǒng)一建模里面參考了規(guī)范,覆蓋了參與人、服務(wù)、資源、營(yíng)銷管理等七個(gè)主題。為對(duì)外變現(xiàn)夯實(shí)了基礎(chǔ),我們這個(gè)平臺(tái)的建設(shè)有如下幾個(gè)亮點(diǎn),第一個(gè)亮點(diǎn),我們是在運(yùn)營(yíng)商里面首次實(shí)現(xiàn)了基于容器技術(shù)進(jìn)行資源隔離的數(shù)據(jù)中心級(jí)資源調(diào)度。第二,我們?cè)谶\(yùn)營(yíng)商里面,在大數(shù)據(jù)組建上我們首次了完全字段式的數(shù)據(jù)隔離,整個(gè)PAAS平臺(tái)每個(gè)租戶都是可以實(shí)現(xiàn)字段式的數(shù)據(jù)隔離。我們首次實(shí)現(xiàn)了浙江移動(dòng)三域數(shù)據(jù)大融合,同時(shí)提供了SAAS、PAAS、DAAS三個(gè)層面的平臺(tái)開放。我們構(gòu)建了我們的安全網(wǎng)端,和合作方合作,通過(guò)一系列的審計(jì),一系列的安全網(wǎng)關(guān),對(duì)外輸出我們的變現(xiàn)能力。
這是強(qiáng)調(diào)我們的運(yùn)維,我們的運(yùn)維完全也是實(shí)時(shí)的,基于流式的數(shù)據(jù)挖掘。我們接入所有的數(shù)據(jù),進(jìn)行一個(gè)數(shù)據(jù)的傳輸,我們對(duì)數(shù)據(jù)的指標(biāo)做了關(guān)聯(lián)分析,是用了機(jī)器學(xué)習(xí)和實(shí)時(shí)回歸的算法,不是離線的回歸,是實(shí)時(shí)的回歸算法,我們預(yù)測(cè)指標(biāo)之間的關(guān)系,并且我們分析故障之間的關(guān)聯(lián)關(guān)系。這是大數(shù)據(jù)平臺(tái)數(shù)據(jù)資產(chǎn)的架構(gòu),數(shù)據(jù)平臺(tái)所有的調(diào)度和所有的數(shù)據(jù),我們有統(tǒng)一的原數(shù)據(jù)管理庫(kù),所有的關(guān)系會(huì)在管理庫(kù)統(tǒng)一展現(xiàn)。這是我們講了后續(xù)演進(jìn)的技術(shù)思路,目前有部分組件還沒(méi)有納入動(dòng)態(tài)的調(diào)度,我們?cè)诳紤]將整個(gè)大數(shù)據(jù)和網(wǎng)關(guān)支撐打通,實(shí)現(xiàn)整體調(diào)度。絕大部分國(guó)內(nèi)的互聯(lián)網(wǎng)公司,哪怕是BAT,包括甚至是谷歌,谷歌資源利用率是最高的,也只有二三十,運(yùn)營(yíng)商大部分是十都不到,我們?cè)趺窗奄Y源利用率大幅提升。第二我們要推動(dòng)建立一個(gè)物理模型,同時(shí)要深化PAAS能力,資源可以無(wú)縫調(diào)度,大數(shù)據(jù)為什么不可以呢?我們能不能把大數(shù)據(jù)也實(shí)現(xiàn)一鍵式的分布?能不能引進(jìn)機(jī)器學(xué)習(xí),甚至像谷歌一樣做深度學(xué)習(xí),我們也去利用更好的方法,來(lái)解決廣告營(yíng)銷推薦的一個(gè)準(zhǔn)確性的問(wèn)題。
另外一塊,還有安全的問(wèn)題,我們大量的對(duì)外變現(xiàn)應(yīng)用開始做起來(lái)。我們?cè)趺礃颖WC這個(gè)數(shù)據(jù)資產(chǎn)的安全?最后最智慧的是運(yùn)營(yíng)體系,一定要用大數(shù)據(jù)去解決大數(shù)據(jù)平臺(tái)的問(wèn)題。因?yàn)橐院髮?lái)擴(kuò)展下來(lái),幾千上萬(wàn)臺(tái)機(jī)器,你靠現(xiàn)在這種運(yùn)維模式難以維持,一定用大數(shù)據(jù)人工智能的方式去自動(dòng)發(fā)現(xiàn)問(wèn)題,甚至是自愈。
這邊我們就講我們后續(xù)將如何引進(jìn)第三方進(jìn)行邁向大數(shù)據(jù)的生態(tài),在大數(shù)據(jù)匯聚里面,我們會(huì)研究和實(shí)現(xiàn)多數(shù)據(jù)源,引入多方的數(shù)據(jù),以大數(shù)據(jù)的形式對(duì)外提供,實(shí)現(xiàn)各方的數(shù)據(jù)深維和增值。在數(shù)據(jù)轉(zhuǎn)換方面,我們和第三方合作,在EPI識(shí)別、選址應(yīng)用等方面提供優(yōu)質(zhì)的組件,在大數(shù)據(jù)變現(xiàn)方面,我們攜手第三方的公司,以大數(shù)據(jù)為基礎(chǔ),與移動(dòng)一起參與社會(huì)化大數(shù)據(jù)的運(yùn)營(yíng),積極拓展行業(yè)應(yīng)用,實(shí)現(xiàn)大數(shù)據(jù)變現(xiàn),樹立大數(shù)據(jù)的標(biāo)桿企業(yè)形象。