作者:工業(yè)和信息化部電信研究院互聯(lián)網(wǎng)中心主任何寶宏
有人說,大數(shù)據(jù)就像20世紀(jì)的石油那樣,是一種戰(zhàn)略資源。但20世紀(jì)之前的歷史長(zhǎng)河中,石油根本不是戰(zhàn)略資源,甚至連一般性的資源也算不上。改變石油命運(yùn)的,是100多年前內(nèi)燃機(jī)的發(fā)明。
走進(jìn)“第四個(gè)”大數(shù)據(jù)時(shí)代
現(xiàn)在所說的大數(shù)據(jù),都是指“數(shù)字化”的信息。如果把“數(shù)據(jù)巨大”、“類型繁多”、“單位價(jià)值下降”和“處理及時(shí)”的非數(shù)字化的信息也認(rèn)為是大數(shù)據(jù),就會(huì)發(fā)現(xiàn)在人類歷史上已經(jīng)多次經(jīng)歷過 “大數(shù)據(jù)”時(shí)代,而且每一次“大數(shù)據(jù)”時(shí)代,都導(dǎo)致人類社會(huì)的巨大變革。
第一次是語(yǔ)言的發(fā)明。語(yǔ)言可以讓思想交流融合,讓分工合作成為可能。但隨著“語(yǔ)言大數(shù)據(jù)”的發(fā)展和應(yīng)用,語(yǔ)言作為唯一載體的缺點(diǎn)開始顯現(xiàn)。第一,地理范圍有限,經(jīng)常僅在部落內(nèi)傳遞;第二,對(duì)象范圍有限;第三,信息容易失真;第四,信息容易失傳。于是,彌補(bǔ)“語(yǔ)言大數(shù)據(jù)”缺陷的新信息技術(shù)——“文字大數(shù)據(jù)”時(shí)代開始出現(xiàn)和繁榮。
相對(duì)語(yǔ)言,無(wú)論是圖形文字、聲音文字還是數(shù)學(xué)符號(hào),可以承載的信息量和信息類型更多,傳播范圍可以更廣、更加準(zhǔn)確和更加便于傳承。有了文字,無(wú)法長(zhǎng)久保存和必須同步傳播的口頭信息,變成了“永久性”、可異步存儲(chǔ)的符號(hào)記錄。
文字(包括數(shù)學(xué)符號(hào))的產(chǎn)生和傳播,使生產(chǎn)力又一次得到了飛躍,并且催生了歷法、兵法、法律和禮儀等,加速了貿(mào)易的發(fā)展,人類又一次被淹沒在了“大數(shù)據(jù)”的洪流中。文字是“大數(shù)據(jù)”的載體,但文字的載體是烏龜殼、羊皮和竹簡(jiǎn),以及后來發(fā)明的紙張等,相對(duì)仍然比較昂貴。另外,這些類型的書籍需要靠人工抄寫或雕刻,費(fèi)時(shí)費(fèi)力而且常會(huì)出現(xiàn)錯(cuò)誤,因此書籍仍然難以平民化,“文字大數(shù)據(jù)”傳播的范圍仍然很有限。
于是讓信息可以用“工業(yè)化”的方式存儲(chǔ)和傳播的印刷術(shù)出現(xiàn)了。印刷術(shù)結(jié)束了手稿時(shí)代,讓文化廣為傳播,再次擴(kuò)充了信息的數(shù)量和組織,“大數(shù)據(jù)”時(shí)代又一次來臨。印刷術(shù)導(dǎo)致書籍和知識(shí)“泛濫”,直接引發(fā)了人類社會(huì)的巨大變革。
隨著工業(yè)革命的推進(jìn),產(chǎn)生了更大量和更多類型的數(shù)據(jù)處理需求,導(dǎo)致了信息采集、保存和處理作為獨(dú)立的一個(gè)行業(yè)——“信息產(chǎn)業(yè)”的出現(xiàn)和繁榮。電力革命后,整個(gè)社會(huì)經(jīng)濟(jì)活動(dòng)的重點(diǎn),從材料的使用轉(zhuǎn)移到了對(duì)“大數(shù)據(jù)”的使用,企業(yè)也在紛紛取消內(nèi)部動(dòng)力生產(chǎn)部門的同時(shí)增加了信息處理部門。而近年來隨著智能手機(jī)、平板電腦、個(gè)人電腦、數(shù)碼相機(jī)、數(shù)字?jǐn)z像機(jī)、POS機(jī)以及各種各樣的傳感器等終端逐步接入互聯(lián)網(wǎng),氣候、天文、地質(zhì)、生物、基因、軍事、商業(yè)和醫(yī)療等行業(yè)數(shù)據(jù)的普遍數(shù)字化和網(wǎng)絡(luò)化,以及博客、播客( 視頻分享 )、微博、社會(huì)化網(wǎng)絡(luò)等的爆發(fā)式增長(zhǎng),數(shù)據(jù)越來越“大”,人類又一次遭遇了“大數(shù)據(jù)”時(shí)代。與此同時(shí),隨著移動(dòng)互聯(lián)網(wǎng)和社交網(wǎng)絡(luò)的飛速發(fā)展,單位信息的價(jià)值快速下降,人類被淹沒在了“信息垃圾”之中。
這次的大數(shù)據(jù)時(shí)代中,信息的產(chǎn)生、傳遞和保存不僅“工業(yè)化”了,而且“數(shù)字化”和“自動(dòng)化”了,人類社會(huì)發(fā)展的核心驅(qū)動(dòng)力,也從之前的“動(dòng)力驅(qū)動(dòng)”轉(zhuǎn)變?yōu)椤皵?shù)據(jù)驅(qū)動(dòng)”。垃圾是放錯(cuò)地方的寶物,因此必須誕生革命性的技術(shù)手段,將這個(gè)時(shí)代的“信息垃圾”換一個(gè)地方,換一種方式提供給我們。
歷史上的每次“大數(shù)據(jù)”時(shí)代,對(duì)人類社會(huì)的影響都是革命性的,這次也必將會(huì)是顛覆性的。
云計(jì)算是大數(shù)據(jù)的“內(nèi)燃機(jī)”
數(shù)據(jù)早已有之,但一直以來是信息化的“副產(chǎn)品”,非戰(zhàn)略性資源,直到云計(jì)算的發(fā)明。云計(jì)算讓大數(shù)據(jù)應(yīng)用平民化,在大數(shù)據(jù)應(yīng)用在經(jīng)濟(jì)上變得可行。云計(jì)算之于大數(shù)據(jù),就像內(nèi)燃機(jī)之于石油。如果不是基于云計(jì)算的數(shù)據(jù)處理,數(shù)據(jù)再大也不是大數(shù)據(jù),只是“數(shù)據(jù)大”。
20世紀(jì),因?yàn)閮?nèi)燃機(jī)的發(fā)明,石油上位成了戰(zhàn)略資源。從在戰(zhàn)爭(zhēng)中偶爾使用石油,發(fā)展到了為了石油而戰(zhàn)爭(zhēng)。內(nèi)燃機(jī)之于石油,就像WWW之于TCP/IP、App Store之于智能手機(jī)、大數(shù)據(jù)之于云計(jì)算一樣,都是后者的“Killer App”。
上世紀(jì)70年代初,計(jì)算機(jī)的發(fā)展應(yīng)用產(chǎn)生的“大數(shù)據(jù)”(相對(duì)那個(gè)年代的人,那個(gè)年代的工具)需要管理,于是數(shù)據(jù)庫(kù)管理技術(shù)誕生,業(yè)界開始了專業(yè)化開采數(shù)據(jù)資源的工作。當(dāng)然早期的數(shù)據(jù)管理工具比較“原始”(相對(duì)現(xiàn)在),只擅長(zhǎng)對(duì)付 “結(jié)構(gòu)化”的數(shù)據(jù)資源。
資源的價(jià)值大小,很多時(shí)候取決于開采工具的經(jīng)濟(jì)性。人們希望找到更先進(jìn)的工具,能夠管理更復(fù)雜的數(shù)據(jù)類型,從數(shù)據(jù)中提煉出更多的應(yīng)用價(jià)值,就像歷史上內(nèi)燃機(jī)曾經(jīng)把石油的用途從照明擴(kuò)展到動(dòng)力世界那樣。
2006年前后,業(yè)界領(lǐng)先的企業(yè)發(fā)明了一種叫云計(jì)算的新工具,不僅可以開采新型的數(shù)據(jù)資源(非結(jié)構(gòu)化數(shù)據(jù)),而且還發(fā)掘出了一些重要的新用途(如精準(zhǔn)營(yíng)銷、趨勢(shì)預(yù)測(cè)等)。最重要的,這種工具的成本還很低。于是業(yè)界都?jí)粝胫迷朴?jì)算這個(gè)新工具,也去淘大數(shù)據(jù)的金。
全球云計(jì)算已發(fā)展到了理性務(wù)實(shí)的落地階段,而大數(shù)據(jù)還處于炒作階段。大數(shù)據(jù)技術(shù)還不成熟,技術(shù)解決方案還以定制為主,通用型解決方案尚不多見。大數(shù)據(jù)源還以內(nèi)部和結(jié)構(gòu)化為主,未發(fā)展到內(nèi)外結(jié)合、結(jié)構(gòu)化與非結(jié)構(gòu)化結(jié)合的階段。
從應(yīng)用看,當(dāng)前的大數(shù)據(jù)應(yīng)用以漸進(jìn)改善型業(yè)務(wù)為主,以程序化營(yíng)銷和個(gè)人大數(shù)據(jù)應(yīng)用最為成功,其他“革命型”應(yīng)用尚不多見。大數(shù)據(jù)應(yīng)用在全球的發(fā)展,已形成了“互聯(lián)網(wǎng)公司領(lǐng)導(dǎo)、開源社區(qū)擴(kuò)散和ICT制造商產(chǎn)品化”的三階段或三層次現(xiàn)象。
電信業(yè)需實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)化
電信運(yùn)營(yíng)商擁有海量數(shù)據(jù)。電信網(wǎng)的數(shù)據(jù)流量已超過了全部流量的99%,另外電信運(yùn)營(yíng)商還擁有海量的用戶數(shù)據(jù)、信令數(shù)據(jù)、日志數(shù)據(jù)、流量數(shù)據(jù)、位置數(shù)據(jù)等。電信業(yè)發(fā)展大數(shù)據(jù),機(jī)遇和挑戰(zhàn)并存。
與互聯(lián)網(wǎng)企業(yè)相比,電信業(yè)大數(shù)據(jù)資源在真實(shí)性和廣度方面優(yōu)勢(shì)明顯,擁有真實(shí)的用戶身份錨點(diǎn)(姓名、電話等)、用戶賬戶信息和用戶行為信息。而作為比特管道的電信公司只能在“路邊”看用戶的流量去了哪里,哪家網(wǎng)店的流量多大,剩下的就是政策不允許知道的了,因此電信業(yè)的大數(shù)據(jù)也是粗粒度的。
但二者的這種比較優(yōu)勢(shì)是動(dòng)態(tài)變化的,互聯(lián)網(wǎng)企業(yè)正在通過搶占更多入口、向基礎(chǔ)設(shè)施滲透和建立大數(shù)據(jù)聯(lián)盟等策略獲取更多數(shù)據(jù),以彌補(bǔ)自己的短板。
全球領(lǐng)先電信運(yùn)營(yíng)商的大數(shù)據(jù)應(yīng)用,目前主要是對(duì)內(nèi)優(yōu)化業(yè)務(wù),對(duì)外合作提供服務(wù)或提供商業(yè)的數(shù)據(jù)服務(wù),并以位置服務(wù)居多。中國(guó)的電信運(yùn)營(yíng)商也紛紛效仿,但目前還是以內(nèi)部?jī)?yōu)化為主,偶有外部合作,與國(guó)外相比還差一個(gè)量級(jí)。
電信業(yè)發(fā)展大數(shù)據(jù)時(shí),微觀層面存在以下短板:一是網(wǎng)絡(luò)強(qiáng)而自身IT設(shè)施發(fā)展滯后,尤其是大數(shù)據(jù)需要依賴的云計(jì)算基礎(chǔ)設(shè)施尚不完善;二是電信業(yè)的傳統(tǒng)產(chǎn)業(yè)鏈?zhǔn)且粋(gè)開環(huán),研發(fā)等要靠外部力量,而互聯(lián)網(wǎng)公司的大數(shù)據(jù)應(yīng)用自身就是閉環(huán);三是電信運(yùn)營(yíng)商的海量數(shù)據(jù)目前還分散在很多部門和地區(qū),缺乏整合,是“數(shù)據(jù)大”而不是大數(shù)據(jù);四是人才缺乏,尤其是IT人才和高端人才;五是隱私保護(hù)政策限制,政府和社會(huì)對(duì)電信運(yùn)營(yíng)商的數(shù)據(jù)隱私保護(hù)要求,一直以來就高于互聯(lián)網(wǎng)企業(yè),是不對(duì)稱的“管制”。
電信業(yè)發(fā)展大數(shù)據(jù)也意味著,首先需從追求精確、高可靠性等傳統(tǒng)觀念轉(zhuǎn)向追求效率和成本,即所謂的“去電信化”。在通信資源昂貴而稀缺的時(shí)代,電信業(yè)以提 高通 信資源利用率為核心目標(biāo),創(chuàng)造了繁榮,也創(chuàng)造出了“電信級(jí)”的概念。ATM、軟交換、NGN、IMS、IP 電信網(wǎng)等技術(shù)或概念,都以資源稀缺為前提的,它們都忘記了摩爾定律的存在,導(dǎo)致處境尷尬。相反,不以浪費(fèi)資源“為恥”的IP、以太網(wǎng)、Web技術(shù),卻因?yàn)槟柖啥笮衅涞溃驗(yàn)樗鼈兏?jiǎn)單,更有效率(即便是看似存在資源浪費(fèi)的現(xiàn)象)。
其次,大數(shù)據(jù)需要電信業(yè)的思維革命。大數(shù)據(jù)強(qiáng)調(diào)的是從“流程電子化”轉(zhuǎn)向“數(shù)據(jù)資產(chǎn)化”,之前是信息化為傳統(tǒng)的流程和管理服務(wù),現(xiàn)在是以數(shù)據(jù)資產(chǎn)為核心重構(gòu)傳統(tǒng)的流程和管理。電信業(yè)如何從重資產(chǎn)公司,轉(zhuǎn)型成輕資產(chǎn)的大數(shù)據(jù)公司,尚需進(jìn)一步探索。
第三,電信公司需要以互聯(lián)網(wǎng)開放、共享和合作的思維發(fā)展大數(shù)據(jù)業(yè)務(wù)。第一階段需要做好內(nèi)部數(shù)據(jù)的整合和應(yīng)用工作,將“數(shù)據(jù)大”發(fā)展到以自用為主的大數(shù)據(jù)應(yīng)用;第二階段與其他企業(yè)的大數(shù)據(jù)源互通有無(wú),兩兩或多方合作共享,讓數(shù)據(jù)的交換和合作產(chǎn)生更大價(jià)值;第三階段,爭(zhēng)取從大數(shù)據(jù)的比特搬運(yùn)工,成長(zhǎng)為大數(shù)據(jù)的運(yùn)營(yíng)者和服務(wù)者。
(大數(shù)據(jù)百科)大數(shù)據(jù)的發(fā)展歷程
一直以來,不斷增多的數(shù)據(jù)都是一項(xiàng)挑戰(zhàn)。19世紀(jì)末,人口普查員不知道如何統(tǒng)計(jì)和分類快速增長(zhǎng)的美國(guó)人口。1890年的人口普查活動(dòng)促使美國(guó)統(tǒng)計(jì)學(xué)家赫爾曼;魻柸鹚拱l(fā)明了電動(dòng)讀卡器,由此開創(chuàng)了數(shù)據(jù)處理的新紀(jì)元,這項(xiàng)技術(shù)也成為 IBM 發(fā)展的基礎(chǔ)。
大規(guī)模的數(shù)據(jù)信息的價(jià)值早在二戰(zhàn)時(shí)期就被美國(guó)軍方認(rèn)識(shí)到了,在戰(zhàn)爭(zhēng)中進(jìn)行了大規(guī)模的數(shù)據(jù)搜集。在大數(shù)據(jù)處理和存儲(chǔ)技術(shù)方面,起初主要是為了滿足軍事方面的需求。后來隨著互聯(lián)網(wǎng)技術(shù)和超級(jí)計(jì)算機(jī)的出現(xiàn),新的大數(shù)據(jù)處理問題陸續(xù)出現(xiàn),例如數(shù)據(jù)集通常大大超出了主存儲(chǔ)器、本地磁盤,甚至遠(yuǎn)程磁盤的承載能力!9.11事件后,美國(guó)政府就開始涉足大數(shù)據(jù)挖掘領(lǐng)域,組建了用于篩選通信、犯罪、教育、金融、醫(yī)療和旅行等記錄來識(shí)別可疑人員的大數(shù)據(jù)庫(kù)。之后又呼吁統(tǒng)一組建一個(gè)基于“網(wǎng)絡(luò)的信息共享系統(tǒng)”應(yīng)對(duì)大規(guī)模數(shù)據(jù)問題。
總的來看,對(duì)大規(guī)模信息的處理需求從根本上拉動(dòng)了大數(shù)據(jù)相關(guān)技術(shù)的發(fā)展,雖然起初對(duì)大數(shù)據(jù)技術(shù)的推動(dòng)力主要源于國(guó)家安全方面,例如大數(shù)據(jù)的存儲(chǔ)和處理技術(shù)、以及大數(shù)據(jù)分析算法的研發(fā),但最終這些技術(shù)開始廣泛應(yīng)用于教育、金融、醫(yī)療等各個(gè)行業(yè)。