作 者:PeterLiu
1 . 概要
全世界每天都有幾十億人使用計(jì)算機(jī)、平板電腦、手機(jī)和其它數(shù)字設(shè)備產(chǎn)生海量數(shù)據(jù)。據(jù)Forrester的最新研究顯示:在線(xiàn)或移動(dòng)金融交易、社交媒體、GPS坐標(biāo)等數(shù)據(jù)源每天要產(chǎn)生超過(guò)2.5X1018的所謂“大數(shù)據(jù)”。今后幾年,數(shù)據(jù)的增長(zhǎng)速度將超越摩爾定律。

這些數(shù)據(jù)或“大數(shù)據(jù)”最近被譽(yù)為新的“金礦”,對(duì)于很多行業(yè)而言,如何利用這些大規(guī)模數(shù)據(jù)正成為贏(yíng)得競(jìng)爭(zhēng)的關(guān)鍵;谝韵略,在所有行業(yè)中,電信運(yùn)營(yíng)商擁有明顯的優(yōu)勢(shì),而且能從這一演變中獲得最大收益:
· 數(shù)量
電信市場(chǎng)的滲透率通常很高(近100%)。作為一個(gè)壟斷行業(yè),每個(gè)國(guó)家通常只有三或四家電信運(yùn)營(yíng)商(有些運(yùn)營(yíng)商擁有超過(guò)1億用戶(hù)),這意味著,運(yùn)營(yíng)商通常能夠接觸到大量客戶(hù)的數(shù)據(jù)。
· 數(shù)據(jù)量
客戶(hù)打電話(huà)、使用互聯(lián)網(wǎng)、發(fā)送消息或?qū)Ш綍r(shí),他們每一秒鐘都在產(chǎn)生數(shù)據(jù)。即便客戶(hù)只是將手機(jī)連接到運(yùn)營(yíng)商的網(wǎng)絡(luò)中,也會(huì)產(chǎn)生位置、移動(dòng)速度、計(jì)費(fèi)甚至生物計(jì)量等數(shù)據(jù)。而只有運(yùn)營(yíng)商才能采集到如此之多地與用戶(hù)行為有關(guān)的信息。
· 多樣性
最后,具有潛在價(jià)值的大量承接關(guān)系數(shù)據(jù)每天以客戶(hù)位置、設(shè)備交互、購(gòu)買(mǎi)行為、在線(xiàn)狀態(tài)、社交地圖和人口統(tǒng)計(jì)數(shù)據(jù)的形式從運(yùn)營(yíng)商這里大量流走。因此,運(yùn)營(yíng)商具備了解客戶(hù)的潛力。
我們相信,由于在大數(shù)據(jù)領(lǐng)域擁有上述優(yōu)勢(shì),電信運(yùn)營(yíng)商正處于一個(gè)他們從未能夠充分利用和賺取收入的“富礦”上。傳統(tǒng)而言,運(yùn)營(yíng)商數(shù)據(jù)中心中的大型業(yè)務(wù)支撐系統(tǒng)只是為了確保運(yùn)營(yíng)商能夠?qū)ζ淇蛻?hù)所使用的服務(wù)計(jì)費(fèi)。但是,隨著電信運(yùn)營(yíng)商的競(jìng)爭(zhēng)格局不斷變化, 谷歌 、Skype等OTT服務(wù)提供商正在蠶食他們的收入。從他們的現(xiàn)有資產(chǎn)中獲益并提供良好的客戶(hù)體驗(yàn)正成為一個(gè)關(guān)鍵的成功要素。被Ovum譽(yù)為“增長(zhǎng)燃料”的數(shù)據(jù)是運(yùn)營(yíng)商最寶貴的資產(chǎn)之一,而且他們也越來(lái)越熱衷于更加充分地利用用戶(hù)數(shù)據(jù)。
2. 什么是大數(shù)據(jù)
大數(shù)據(jù)指的是超出傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)處理能力的數(shù)據(jù)。這些數(shù)據(jù)量太大,移動(dòng)速度太快,或者與您的數(shù)據(jù)庫(kù)結(jié)構(gòu)不匹配。為了能從這些數(shù)據(jù)獲益,你必須選擇另外一種方式來(lái)處理它們。
大數(shù)據(jù)通常使用3個(gè)“V”來(lái)定義,Gartner對(duì)其的定義如下:
“大數(shù)據(jù)是大數(shù)據(jù)量、高速度、種類(lèi)繁多的信息資產(chǎn),它們需要經(jīng)濟(jì)有效和創(chuàng)新型處理方式來(lái)提升洞察力和決策水平!
· 數(shù)據(jù)量(Volume): 企業(yè)系統(tǒng)內(nèi)數(shù)據(jù)量的增加是由交易量以及其它傳統(tǒng)數(shù)據(jù)類(lèi)型和新數(shù)據(jù)類(lèi)型引發(fā)的。太大的數(shù)據(jù)量不僅在存儲(chǔ)方面,在大規(guī)模分析方面都會(huì)出現(xiàn)問(wèn)題。
· 速度(Velocity):這涉及數(shù)據(jù)流、結(jié)構(gòu)化記錄的創(chuàng)建以及數(shù)據(jù)的可訪(fǎng)問(wèn)性和可交付性。速度既包括數(shù)據(jù)產(chǎn)生的速度,也包括滿(mǎn)足需求所需的數(shù)據(jù)處理速度。
· 種類(lèi)(Variety): IT主管在將大量交易數(shù)據(jù)轉(zhuǎn)化為決策時(shí)總是遇到問(wèn)題,而他們現(xiàn)在有更多類(lèi)型的信息需要分析,這些信息主要來(lái)自社交媒體和移動(dòng)領(lǐng)域(承接關(guān)系感知)。數(shù)據(jù)種類(lèi)包括:表格數(shù)據(jù)(數(shù)據(jù)庫(kù))、分層數(shù)據(jù)、文檔、電子郵件、計(jì)量數(shù)據(jù)、視頻、靜止圖像、音頻、股票報(bào)價(jià)機(jī)數(shù)據(jù)、金融交易數(shù)據(jù)等等。
現(xiàn)實(shí)中的大數(shù)據(jù)應(yīng)用通常涵蓋上述一或兩個(gè)“V”,但也有很多企業(yè)的大數(shù)據(jù)項(xiàng)目涵蓋所有三個(gè)“V”,這些項(xiàng)目通常涉及來(lái)自多個(gè)數(shù)據(jù)源、大量的流數(shù)據(jù)。
傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù)之間的差異

3. 電信網(wǎng)絡(luò)中的數(shù)據(jù)
如前所述,全世界每天都有幾十億人使用計(jì)算機(jī)、平板電腦、手機(jī)和其它數(shù)字設(shè)備產(chǎn)生海量數(shù)據(jù)。這些數(shù)據(jù)通過(guò)運(yùn)營(yíng)商的網(wǎng)絡(luò)傳輸,但卻沒(méi)有得到充分利用和貨幣化。在我們講述數(shù)據(jù)貨幣化之前,讓我們首先看下運(yùn)營(yíng)商的數(shù)據(jù):
存在于運(yùn)營(yíng)商網(wǎng)絡(luò)中的數(shù)據(jù)(舉例):


通常,運(yùn)營(yíng)商數(shù)據(jù)中心中的大型業(yè)務(wù)支撐系統(tǒng)只是為了確保運(yùn)營(yíng)商能夠?qū)ζ淇蛻?hù)所使用的服務(wù)計(jì)費(fèi)。但是,在整合所有數(shù)據(jù)以及某些外部信息后,運(yùn)營(yíng)商確實(shí)將擁有每個(gè)用戶(hù)的詳細(xì)信息。

隨著電信運(yùn)營(yíng)商的競(jìng)爭(zhēng)格局不斷變化,谷歌、Skype等OTT服務(wù)提供商正在蠶食他們的收入。從他們的現(xiàn)有資產(chǎn)中獲益并提供良好的客戶(hù)體驗(yàn)正成為一個(gè)關(guān)鍵的成功要素。被Ovum譽(yù)為“增長(zhǎng)燃料”的數(shù)據(jù)是運(yùn)營(yíng)商最寶貴的資產(chǎn)之一,而且他們也越來(lái)越熱衷于更加充分地利用用戶(hù)數(shù)據(jù)。
4. 電信數(shù)據(jù)的貨幣化
電信行業(yè)在過(guò)去十年經(jīng)歷了多次更新?lián)Q代,但其主要戰(zhàn)略從未改變:
- 優(yōu)化資本支出
- 降低運(yùn)營(yíng)支出
- 開(kāi)辟新的收入來(lái)源
采用正確的大數(shù)據(jù)技術(shù)并實(shí)施一個(gè)有效的數(shù)據(jù)管理戰(zhàn)略,可幫助運(yùn)營(yíng)商獲得上述所有成功要素。
大數(shù)據(jù)將促進(jìn)整個(gè)電信價(jià)值鏈的增長(zhǎng),并提升其效率和盈利能力。以下各圖顯示了大數(shù)據(jù)相對(duì)于傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的優(yōu)勢(shì)。它們包括:
· 開(kāi)辟新的收入來(lái)源
大數(shù)據(jù)項(xiàng)目與其說(shuō)是IT項(xiàng)目,不如說(shuō)是為了提升企業(yè)的盈利能力。運(yùn)營(yíng)商目前正處于一個(gè)過(guò)渡時(shí)期,他們既要提供高質(zhì)量的傳統(tǒng)業(yè)務(wù),也要投資開(kāi)發(fā)諸如機(jī)器對(duì)機(jī)器、移動(dòng)商務(wù)和企業(yè)云等將能提升盈利能力的新業(yè)務(wù)。大數(shù)據(jù)是實(shí)現(xiàn)這一過(guò)渡的重要前提之一。以下舉例列出了大數(shù)據(jù)所能開(kāi)辟的一些新的收入來(lái)源:
* “馱運(yùn)”(Piggy back)業(yè)務(wù):
運(yùn)營(yíng)商可以采用打包銷(xiāo)售數(shù)據(jù)的方式為銀行、零售商和OTT服務(wù)提供商提供增值服務(wù)。
* 定向廣告與營(yíng)銷(xiāo):
通過(guò)提供綜合數(shù)據(jù)包,運(yùn)營(yíng)商可以幫助廣告客戶(hù)根據(jù)目標(biāo)客戶(hù)的資料、位置和消費(fèi)習(xí)慣更加有效地投放相關(guān)廣告。
· 改善客戶(hù)體驗(yàn)
提高客戶(hù)忠誠(chéng)度和降低客戶(hù)流失率是當(dāng)今電信市場(chǎng)中的兩個(gè)關(guān)鍵問(wèn)題。通過(guò)從數(shù)據(jù)資產(chǎn)中獲益,運(yùn)營(yíng)商能夠更好地了解客戶(hù),并改善內(nèi)部流程,例如,了解客戶(hù)的行為、所喜愛(ài)的內(nèi)容、設(shè)備類(lèi)型等等。同樣,人口統(tǒng)計(jì)和位置數(shù)據(jù)可幫助運(yùn)營(yíng)商做出有關(guān)部署網(wǎng)絡(luò)和銷(xiāo)售渠道的正確決定。此外,客戶(hù)關(guān)懷部門(mén)也可以利用這些數(shù)據(jù)預(yù)測(cè)某個(gè)客戶(hù)何時(shí)有可能流失,并采取相應(yīng)措施。
近年來(lái),Orange、Telefonica、Vodafone等歐洲大型運(yùn)營(yíng)商已開(kāi)始利用數(shù)據(jù)分析技術(shù)來(lái)改進(jìn)他們的管理決策。

如上所述,“大數(shù)據(jù)”的重要性并非數(shù)據(jù)本身。事實(shí)上,我們已經(jīng)擁有了大量數(shù)據(jù)。“大數(shù)據(jù)”是一個(gè)迅速增長(zhǎng)的市場(chǎng),包括捕獲、存儲(chǔ)、處理和分析運(yùn)營(yíng)商所擁有的海量數(shù)據(jù),并從中獲益。下圖顯示了運(yùn)營(yíng)商大數(shù)據(jù)流程的價(jià)值鏈。

大數(shù)據(jù)的最終目的是整合和關(guān)聯(lián)所有信息來(lái)源,以便生成一個(gè)完整、透明、全面的視圖,描述每個(gè)客戶(hù)或家庭與運(yùn)營(yíng)商之間的所有交互。
但是,為了真正利用大數(shù)據(jù),運(yùn)營(yíng)商必須徹底改變他們采集、驗(yàn)證、了解和利用他們所擁有信息的方式。
此外,運(yùn)營(yíng)商還需要學(xué)習(xí)谷歌、 Facebook 等公司;在這些公司中,數(shù)據(jù)為王,幾乎每一項(xiàng)產(chǎn)品決策都源于現(xiàn)有數(shù)據(jù)所透露的有關(guān)客戶(hù)的信息以及如何使用這些數(shù)據(jù)的方式。大數(shù)據(jù)戰(zhàn)略應(yīng)涉及所有部門(mén),包括網(wǎng)絡(luò)運(yùn)營(yíng)、IT、產(chǎn)品開(kāi)發(fā)、營(yíng)銷(xiāo)、財(cái)務(wù)等部門(mén),甚至包括用戶(hù),這是因?yàn)樗麄兛梢岳米陨淼膶?zhuān)業(yè)知識(shí),采用各種新方法分析數(shù)據(jù)。
5. 大數(shù)據(jù)中的軟件技術(shù)
大數(shù)據(jù)技術(shù)描述了新一代技術(shù)和架構(gòu),目的是通過(guò)高速捕獲、發(fā)現(xiàn)和/或分析,經(jīng)濟(jì)高效地從種類(lèi)繁多的大量數(shù)據(jù)中獲益。
目前共有兩種頂層分析方法:
1). 分析過(guò)去,不預(yù)測(cè)未來(lái)(關(guān)聯(lián)分析)
2). 分析過(guò)去,預(yù)測(cè)未來(lái)(具備監(jiān)督式學(xué)習(xí)功能的預(yù)測(cè)分析)。
下圖描述了大數(shù)據(jù)中的主要軟件技術(shù)分類(lèi)。這些分類(lèi)中有很多正在開(kāi)發(fā)的工具(既包括Apache旗下的開(kāi)源工具,也包括各廠(chǎng)商開(kāi)發(fā)的工具),這些工具可用于支持?jǐn)?shù)據(jù)攝取、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)庫(kù)編程、文本處理、分析可視化等工作。

上圖描述了大數(shù)據(jù)中的軟件技術(shù)分類(lèi),并使用插圖提示顯示了每個(gè)分類(lèi)中的廠(chǎng)商/產(chǎn)品。目前共有三種頂層的軟件技術(shù)分類(lèi):
1) 流數(shù)據(jù)分析和復(fù)雜事件處理
結(jié)構(gòu)化數(shù)據(jù)從多個(gè)來(lái)源持續(xù)流出,以便對(duì)它們進(jìn)行“線(xiàn)速”分析和關(guān)聯(lián),而不是首先將它們存儲(chǔ)在某個(gè)數(shù)據(jù)庫(kù)中。ApacheStorm和 IBM InfoSphereStreams等某些解決方案提供“表述編程設(shè)計(jì)”(declarative programming)框架,讓數(shù)據(jù)經(jīng)歷轉(zhuǎn)換、加入、分割、開(kāi)窗等一系列處理步驟。這種模式通常被稱(chēng)為“復(fù)雜事件處理”(Complex Event Processing)。
流數(shù)據(jù)分析的結(jié)果通常被存儲(chǔ)在一個(gè)數(shù)據(jù)庫(kù)(SQL或NoSQL)中,并能觸發(fā)其它事件。單位時(shí)間(例如1小時(shí))內(nèi)所處理的數(shù)據(jù)量通常以吉字節(jié)為單位,處理時(shí)延以毫秒為單位。關(guān)聯(lián)分析和預(yù)測(cè)分析均能以線(xiàn)速運(yùn)行,但預(yù)測(cè)分析中通常僅評(píng)分部分以線(xiàn)速運(yùn)行。流數(shù)據(jù)分析的范例包括股票預(yù)測(cè)、自動(dòng)交易引擎、M2M/傳感器分析等。
2) 數(shù)據(jù)庫(kù)
目前主要有兩類(lèi)數(shù)據(jù)庫(kù),即SQL和NoSQL。SQL數(shù)據(jù)庫(kù)向RDBMS確認(rèn)(即提供事務(wù)處理和引用完整性)。NoSQL數(shù)據(jù)庫(kù)提供各種表、schema和接口,但不提供事務(wù)處理和引用完整性,與SQL數(shù)據(jù)庫(kù)相比,它們的時(shí)延更小,吞吐量更大,數(shù)據(jù)存儲(chǔ)容量也更大。兩種數(shù)據(jù)庫(kù)均用于管理結(jié)構(gòu)化數(shù)據(jù)。NoSQL數(shù)據(jù)庫(kù)既可以基于磁盤(pán),也可以基于內(nèi)存。內(nèi)存數(shù)據(jù)庫(kù)以犧牲較大的磁盤(pán)容量來(lái)?yè)Q取更小的內(nèi)存時(shí)延。
3) Hadoop
流數(shù)據(jù)分析和數(shù)據(jù)庫(kù)用于處理結(jié)構(gòu)化數(shù)據(jù),而Hadoop用于分析Web瀏覽日志、IT系統(tǒng)日志等半結(jié)構(gòu)化數(shù)據(jù)以及社交網(wǎng)絡(luò)、Twitterfeed、圖像、音頻文件等非結(jié)構(gòu)化數(shù)據(jù)。
為了分析數(shù)據(jù),Hadoop軟件在計(jì)算機(jī)集群上運(yùn)行一系列“MapReduce”任務(wù)。給定計(jì)算機(jī)上的每一個(gè)Map任務(wù)負(fù)責(zé)在給定時(shí)間處理某個(gè)數(shù)據(jù)子集;給定計(jì)算機(jī)上的每一個(gè)Reduce任務(wù)負(fù)責(zé)編譯在預(yù)定義的計(jì)算機(jī)集群子集上運(yùn)行的一組預(yù)定義的Map任務(wù)所產(chǎn)生的處理后的數(shù)據(jù)。下圖顯示了MapReduce任務(wù)的迭代過(guò)程。
數(shù)據(jù)和結(jié)果與分布式計(jì)算機(jī)集群中的每臺(tái)計(jì)算機(jī)上的MapReduce任務(wù)共址。這些集體數(shù)據(jù)構(gòu)成了一個(gè)Hadoop分布式文件系統(tǒng)(HDFS)。任何一個(gè)HadoopDistribution必須至少包含Hadoop集群軟件和HDFS。
大數(shù)據(jù)分析技術(shù)的未來(lái)發(fā)展
SQL的重新興起:
很多傳媒大肆宣揚(yáng)NoSQL是兼容RDBMS的SQL數(shù)據(jù)庫(kù)的“終結(jié)者”。但是,RDBMS可確保數(shù)據(jù)完整性,而這對(duì)于很多應(yīng)用至關(guān)重要。因此,業(yè)內(nèi)將來(lái)有可能搭建性能媲美當(dāng)今NoSQL數(shù)據(jù)庫(kù)的RDBMS數(shù)據(jù)庫(kù)。
Hadoop2.0:
Hadoop將來(lái)有可能更多地被視為支持大型NoSQL數(shù)據(jù)庫(kù)的一個(gè)平臺(tái),而不僅僅是一個(gè)批量分析引擎。在增添了流處理能力后(始于A(yíng)pacheStorm),Hadoop也有可能用于實(shí)時(shí)分析。大多數(shù)大數(shù)據(jù)廠(chǎng)商依賴(lài)于Hadoop的未來(lái)成功,因此,我們可能會(huì)看到在此方面的投入(如與Hadoop的RESTful接口,集成Node.js等)。
6. 結(jié)語(yǔ)
大數(shù)據(jù)為電信運(yùn)營(yíng)商提供了一個(gè)更加全面了解其業(yè)務(wù)和客戶(hù)、進(jìn)一步加大創(chuàng)新力度的真正機(jī)遇。以研發(fā)投入占銷(xiāo)售收入的比例計(jì)算,整個(gè)電信行業(yè)的研發(fā)投入遠(yuǎn)低于任何一個(gè)技術(shù)型行業(yè),而其改變運(yùn)營(yíng)方式的努力也尚未取得廣泛的成功。大數(shù)據(jù)要求各個(gè)行業(yè)采用一種完全不同的非傳統(tǒng)方法來(lái)拓展業(yè)務(wù)。如果運(yùn)營(yíng)商能夠以最快速度將全新靈活的戰(zhàn)略整合到企業(yè)核心業(yè)務(wù)之中,就將獲得真正的競(jìng)爭(zhēng)優(yōu)勢(shì),從而戰(zhàn)勝行動(dòng)較為遲緩的對(duì)手。