作 者:PeterLiu
1 . 概要
全世界每天都有幾十億人使用計算機(jī)、平板電腦、手機(jī)和其它數(shù)字設(shè)備產(chǎn)生海量數(shù)據(jù)。據(jù)Forrester的最新研究顯示:在線或移動金融交易、社交媒體、GPS坐標(biāo)等數(shù)據(jù)源每天要產(chǎn)生超過2.5X1018的所謂“大數(shù)據(jù)”。今后幾年,數(shù)據(jù)的增長速度將超越摩爾定律。
這些數(shù)據(jù)或“大數(shù)據(jù)”最近被譽為新的“金礦”,對于很多行業(yè)而言,如何利用這些大規(guī)模數(shù)據(jù)正成為贏得競爭的關(guān)鍵;谝韵略颍谒行袠I(yè)中,電信運營商擁有明顯的優(yōu)勢,而且能從這一演變中獲得最大收益:
· 數(shù)量
電信市場的滲透率通常很高(近100%)。作為一個壟斷行業(yè),每個國家通常只有三或四家電信運營商(有些運營商擁有超過1億用戶),這意味著,運營商通常能夠接觸到大量客戶的數(shù)據(jù)。
· 數(shù)據(jù)量
客戶打電話、使用互聯(lián)網(wǎng)、發(fā)送消息或?qū)Ш綍r,他們每一秒鐘都在產(chǎn)生數(shù)據(jù)。即便客戶只是將手機(jī)連接到運營商的網(wǎng)絡(luò)中,也會產(chǎn)生位置、移動速度、計費甚至生物計量等數(shù)據(jù)。而只有運營商才能采集到如此之多地與用戶行為有關(guān)的信息。
· 多樣性
最后,具有潛在價值的大量承接關(guān)系數(shù)據(jù)每天以客戶位置、設(shè)備交互、購買行為、在線狀態(tài)、社交地圖和人口統(tǒng)計數(shù)據(jù)的形式從運營商這里大量流走。因此,運營商具備了解客戶的潛力。
我們相信,由于在大數(shù)據(jù)領(lǐng)域擁有上述優(yōu)勢,電信運營商正處于一個他們從未能夠充分利用和賺取收入的“富礦”上。傳統(tǒng)而言,運營商數(shù)據(jù)中心中的大型業(yè)務(wù)支撐系統(tǒng)只是為了確保運營商能夠?qū)ζ淇蛻羲褂玫姆⻊?wù)計費。但是,隨著電信運營商的競爭格局不斷變化, 谷歌 、Skype等OTT服務(wù)提供商正在蠶食他們的收入。從他們的現(xiàn)有資產(chǎn)中獲益并提供良好的客戶體驗正成為一個關(guān)鍵的成功要素。被Ovum譽為“增長燃料”的數(shù)據(jù)是運營商最寶貴的資產(chǎn)之一,而且他們也越來越熱衷于更加充分地利用用戶數(shù)據(jù)。
2. 什么是大數(shù)據(jù)
大數(shù)據(jù)指的是超出傳統(tǒng)數(shù)據(jù)庫系統(tǒng)處理能力的數(shù)據(jù)。這些數(shù)據(jù)量太大,移動速度太快,或者與您的數(shù)據(jù)庫結(jié)構(gòu)不匹配。為了能從這些數(shù)據(jù)獲益,你必須選擇另外一種方式來處理它們。
大數(shù)據(jù)通常使用3個“V”來定義,Gartner對其的定義如下:
“大數(shù)據(jù)是大數(shù)據(jù)量、高速度、種類繁多的信息資產(chǎn),它們需要經(jīng)濟(jì)有效和創(chuàng)新型處理方式來提升洞察力和決策水平!
· 數(shù)據(jù)量(Volume): 企業(yè)系統(tǒng)內(nèi)數(shù)據(jù)量的增加是由交易量以及其它傳統(tǒng)數(shù)據(jù)類型和新數(shù)據(jù)類型引發(fā)的。太大的數(shù)據(jù)量不僅在存儲方面,在大規(guī)模分析方面都會出現(xiàn)問題。
· 速度(Velocity):這涉及數(shù)據(jù)流、結(jié)構(gòu)化記錄的創(chuàng)建以及數(shù)據(jù)的可訪問性和可交付性。速度既包括數(shù)據(jù)產(chǎn)生的速度,也包括滿足需求所需的數(shù)據(jù)處理速度。
· 種類(Variety): IT主管在將大量交易數(shù)據(jù)轉(zhuǎn)化為決策時總是遇到問題,而他們現(xiàn)在有更多類型的信息需要分析,這些信息主要來自社交媒體和移動領(lǐng)域(承接關(guān)系感知)。數(shù)據(jù)種類包括:表格數(shù)據(jù)(數(shù)據(jù)庫)、分層數(shù)據(jù)、文檔、電子郵件、計量數(shù)據(jù)、視頻、靜止圖像、音頻、股票報價機(jī)數(shù)據(jù)、金融交易數(shù)據(jù)等等。
現(xiàn)實中的大數(shù)據(jù)應(yīng)用通常涵蓋上述一或兩個“V”,但也有很多企業(yè)的大數(shù)據(jù)項目涵蓋所有三個“V”,這些項目通常涉及來自多個數(shù)據(jù)源、大量的流數(shù)據(jù)。
傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù)之間的差異
3. 電信網(wǎng)絡(luò)中的數(shù)據(jù)
如前所述,全世界每天都有幾十億人使用計算機(jī)、平板電腦、手機(jī)和其它數(shù)字設(shè)備產(chǎn)生海量數(shù)據(jù)。這些數(shù)據(jù)通過運營商的網(wǎng)絡(luò)傳輸,但卻沒有得到充分利用和貨幣化。在我們講述數(shù)據(jù)貨幣化之前,讓我們首先看下運營商的數(shù)據(jù):
存在于運營商網(wǎng)絡(luò)中的數(shù)據(jù)(舉例):
通常,運營商數(shù)據(jù)中心中的大型業(yè)務(wù)支撐系統(tǒng)只是為了確保運營商能夠?qū)ζ淇蛻羲褂玫姆⻊?wù)計費。但是,在整合所有數(shù)據(jù)以及某些外部信息后,運營商確實將擁有每個用戶的詳細(xì)信息。
隨著電信運營商的競爭格局不斷變化,谷歌、Skype等OTT服務(wù)提供商正在蠶食他們的收入。從他們的現(xiàn)有資產(chǎn)中獲益并提供良好的客戶體驗正成為一個關(guān)鍵的成功要素。被Ovum譽為“增長燃料”的數(shù)據(jù)是運營商最寶貴的資產(chǎn)之一,而且他們也越來越熱衷于更加充分地利用用戶數(shù)據(jù)。
4. 電信數(shù)據(jù)的貨幣化
電信行業(yè)在過去十年經(jīng)歷了多次更新?lián)Q代,但其主要戰(zhàn)略從未改變:
- 優(yōu)化資本支出
- 降低運營支出
- 開辟新的收入來源
采用正確的大數(shù)據(jù)技術(shù)并實施一個有效的數(shù)據(jù)管理戰(zhàn)略,可幫助運營商獲得上述所有成功要素。
大數(shù)據(jù)將促進(jìn)整個電信價值鏈的增長,并提升其效率和盈利能力。以下各圖顯示了大數(shù)據(jù)相對于傳統(tǒng)數(shù)據(jù)倉庫技術(shù)的優(yōu)勢。它們包括:
· 開辟新的收入來源
大數(shù)據(jù)項目與其說是IT項目,不如說是為了提升企業(yè)的盈利能力。運營商目前正處于一個過渡時期,他們既要提供高質(zhì)量的傳統(tǒng)業(yè)務(wù),也要投資開發(fā)諸如機(jī)器對機(jī)器、移動商務(wù)和企業(yè)云等將能提升盈利能力的新業(yè)務(wù)。大數(shù)據(jù)是實現(xiàn)這一過渡的重要前提之一。以下舉例列出了大數(shù)據(jù)所能開辟的一些新的收入來源:
* “馱運”(Piggy back)業(yè)務(wù):
運營商可以采用打包銷售數(shù)據(jù)的方式為銀行、零售商和OTT服務(wù)提供商提供增值服務(wù)。
* 定向廣告與營銷:
通過提供綜合數(shù)據(jù)包,運營商可以幫助廣告客戶根據(jù)目標(biāo)客戶的資料、位置和消費習(xí)慣更加有效地投放相關(guān)廣告。
· 改善客戶體驗
提高客戶忠誠度和降低客戶流失率是當(dāng)今電信市場中的兩個關(guān)鍵問題。通過從數(shù)據(jù)資產(chǎn)中獲益,運營商能夠更好地了解客戶,并改善內(nèi)部流程,例如,了解客戶的行為、所喜愛的內(nèi)容、設(shè)備類型等等。同樣,人口統(tǒng)計和位置數(shù)據(jù)可幫助運營商做出有關(guān)部署網(wǎng)絡(luò)和銷售渠道的正確決定。此外,客戶關(guān)懷部門也可以利用這些數(shù)據(jù)預(yù)測某個客戶何時有可能流失,并采取相應(yīng)措施。
近年來,Orange、Telefonica、Vodafone等歐洲大型運營商已開始利用數(shù)據(jù)分析技術(shù)來改進(jìn)他們的管理決策。
如上所述,“大數(shù)據(jù)”的重要性并非數(shù)據(jù)本身。事實上,我們已經(jīng)擁有了大量數(shù)據(jù)!按髷(shù)據(jù)”是一個迅速增長的市場,包括捕獲、存儲、處理和分析運營商所擁有的海量數(shù)據(jù),并從中獲益。下圖顯示了運營商大數(shù)據(jù)流程的價值鏈。
大數(shù)據(jù)的最終目的是整合和關(guān)聯(lián)所有信息來源,以便生成一個完整、透明、全面的視圖,描述每個客戶或家庭與運營商之間的所有交互。
但是,為了真正利用大數(shù)據(jù),運營商必須徹底改變他們采集、驗證、了解和利用他們所擁有信息的方式。
此外,運營商還需要學(xué)習(xí)谷歌、 Facebook 等公司;在這些公司中,數(shù)據(jù)為王,幾乎每一項產(chǎn)品決策都源于現(xiàn)有數(shù)據(jù)所透露的有關(guān)客戶的信息以及如何使用這些數(shù)據(jù)的方式。大數(shù)據(jù)戰(zhàn)略應(yīng)涉及所有部門,包括網(wǎng)絡(luò)運營、IT、產(chǎn)品開發(fā)、營銷、財務(wù)等部門,甚至包括用戶,這是因為他們可以利用自身的專業(yè)知識,采用各種新方法分析數(shù)據(jù)。
5. 大數(shù)據(jù)中的軟件技術(shù)
大數(shù)據(jù)技術(shù)描述了新一代技術(shù)和架構(gòu),目的是通過高速捕獲、發(fā)現(xiàn)和/或分析,經(jīng)濟(jì)高效地從種類繁多的大量數(shù)據(jù)中獲益。
目前共有兩種頂層分析方法:
1). 分析過去,不預(yù)測未來(關(guān)聯(lián)分析)
2). 分析過去,預(yù)測未來(具備監(jiān)督式學(xué)習(xí)功能的預(yù)測分析)。
下圖描述了大數(shù)據(jù)中的主要軟件技術(shù)分類。這些分類中有很多正在開發(fā)的工具(既包括Apache旗下的開源工具,也包括各廠商開發(fā)的工具),這些工具可用于支持?jǐn)?shù)據(jù)攝取、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)庫編程、文本處理、分析可視化等工作。
上圖描述了大數(shù)據(jù)中的軟件技術(shù)分類,并使用插圖提示顯示了每個分類中的廠商/產(chǎn)品。目前共有三種頂層的軟件技術(shù)分類:
1) 流數(shù)據(jù)分析和復(fù)雜事件處理
結(jié)構(gòu)化數(shù)據(jù)從多個來源持續(xù)流出,以便對它們進(jìn)行“線速”分析和關(guān)聯(lián),而不是首先將它們存儲在某個數(shù)據(jù)庫中。ApacheStorm和 IBM InfoSphereStreams等某些解決方案提供“表述編程設(shè)計”(declarative programming)框架,讓數(shù)據(jù)經(jīng)歷轉(zhuǎn)換、加入、分割、開窗等一系列處理步驟。這種模式通常被稱為“復(fù)雜事件處理”(Complex Event Processing)。
流數(shù)據(jù)分析的結(jié)果通常被存儲在一個數(shù)據(jù)庫(SQL或NoSQL)中,并能觸發(fā)其它事件。單位時間(例如1小時)內(nèi)所處理的數(shù)據(jù)量通常以吉字節(jié)為單位,處理時延以毫秒為單位。關(guān)聯(lián)分析和預(yù)測分析均能以線速運行,但預(yù)測分析中通常僅評分部分以線速運行。流數(shù)據(jù)分析的范例包括股票預(yù)測、自動交易引擎、M2M/傳感器分析等。
2) 數(shù)據(jù)庫
目前主要有兩類數(shù)據(jù)庫,即SQL和NoSQL。SQL數(shù)據(jù)庫向RDBMS確認(rèn)(即提供事務(wù)處理和引用完整性)。NoSQL數(shù)據(jù)庫提供各種表、schema和接口,但不提供事務(wù)處理和引用完整性,與SQL數(shù)據(jù)庫相比,它們的時延更小,吞吐量更大,數(shù)據(jù)存儲容量也更大。兩種數(shù)據(jù)庫均用于管理結(jié)構(gòu)化數(shù)據(jù)。NoSQL數(shù)據(jù)庫既可以基于磁盤,也可以基于內(nèi)存。內(nèi)存數(shù)據(jù)庫以犧牲較大的磁盤容量來換取更小的內(nèi)存時延。
3) Hadoop
流數(shù)據(jù)分析和數(shù)據(jù)庫用于處理結(jié)構(gòu)化數(shù)據(jù),而Hadoop用于分析Web瀏覽日志、IT系統(tǒng)日志等半結(jié)構(gòu)化數(shù)據(jù)以及社交網(wǎng)絡(luò)、Twitterfeed、圖像、音頻文件等非結(jié)構(gòu)化數(shù)據(jù)。
為了分析數(shù)據(jù),Hadoop軟件在計算機(jī)集群上運行一系列“MapReduce”任務(wù)。給定計算機(jī)上的每一個Map任務(wù)負(fù)責(zé)在給定時間處理某個數(shù)據(jù)子集;給定計算機(jī)上的每一個Reduce任務(wù)負(fù)責(zé)編譯在預(yù)定義的計算機(jī)集群子集上運行的一組預(yù)定義的Map任務(wù)所產(chǎn)生的處理后的數(shù)據(jù)。下圖顯示了MapReduce任務(wù)的迭代過程。
數(shù)據(jù)和結(jié)果與分布式計算機(jī)集群中的每臺計算機(jī)上的MapReduce任務(wù)共址。這些集體數(shù)據(jù)構(gòu)成了一個Hadoop分布式文件系統(tǒng)(HDFS)。任何一個HadoopDistribution必須至少包含Hadoop集群軟件和HDFS。
大數(shù)據(jù)分析技術(shù)的未來發(fā)展
SQL的重新興起:
很多傳媒大肆宣揚NoSQL是兼容RDBMS的SQL數(shù)據(jù)庫的“終結(jié)者”。但是,RDBMS可確保數(shù)據(jù)完整性,而這對于很多應(yīng)用至關(guān)重要。因此,業(yè)內(nèi)將來有可能搭建性能媲美當(dāng)今NoSQL數(shù)據(jù)庫的RDBMS數(shù)據(jù)庫。
Hadoop2.0:
Hadoop將來有可能更多地被視為支持大型NoSQL數(shù)據(jù)庫的一個平臺,而不僅僅是一個批量分析引擎。在增添了流處理能力后(始于ApacheStorm),Hadoop也有可能用于實時分析。大多數(shù)大數(shù)據(jù)廠商依賴于Hadoop的未來成功,因此,我們可能會看到在此方面的投入(如與Hadoop的RESTful接口,集成Node.js等)。
6. 結(jié)語
大數(shù)據(jù)為電信運營商提供了一個更加全面了解其業(yè)務(wù)和客戶、進(jìn)一步加大創(chuàng)新力度的真正機(jī)遇。以研發(fā)投入占銷售收入的比例計算,整個電信行業(yè)的研發(fā)投入遠(yuǎn)低于任何一個技術(shù)型行業(yè),而其改變運營方式的努力也尚未取得廣泛的成功。大數(shù)據(jù)要求各個行業(yè)采用一種完全不同的非傳統(tǒng)方法來拓展業(yè)務(wù)。如果運營商能夠以最快速度將全新靈活的戰(zhàn)略整合到企業(yè)核心業(yè)務(wù)之中,就將獲得真正的競爭優(yōu)勢,從而戰(zhàn)勝行動較為遲緩的對手。