a天堂亚洲无码在线,青青精品视频国产色天使,推油按摩av无码专区

初學(xué)大數(shù)據(jù)之傻瓜書

發(fā)布: 2012-12-26 16:27 | 作者: 華通科技徐文卓 | 來源: 移動通信網(wǎng) | 字體: 小中大

---------大數(shù)據(jù)系列學(xué)習(xí)之一

網(wǎng)絡(luò)上流傳著這么的一句流行語：“萬事不懂問度娘”。自從有了各種搜索引擎，新名詞新技術(shù)對大眾而言，已不再神秘。然而，當(dāng)你搜索“大數(shù)據(jù)”或者“big data solution”等關(guān)鍵字時(shí)，搜索出的海量相關(guān)知識鋪天蓋地，對初學(xué)者而言，仍然很難在短時(shí)間內(nèi)入門。本文目的，是以傻瓜式提問的方式讓初學(xué)者輕松的了解“大數(shù)據(jù)”。

大數(shù)據(jù)的概念

“大數(shù)據(jù)”，是不是----數(shù)據(jù)很大就叫大數(shù)據(jù)？

實(shí)際上簡單的這樣理解也沒有錯，在明確定義時(shí)，會比較強(qiáng)調(diào)大數(shù)據(jù)的4個(gè)V的特性: Volume，Variety，Value，Velocity。也就是：

一、數(shù)據(jù)存儲空間占用大（至PB及以上級別）；

二、數(shù)據(jù)類型繁多；

三、價(jià)值密度低；

四、處理速度快。

搜索的信息中，你會發(fā)現(xiàn)有某些名詞出現(xiàn)的頻率非常高，心里也隨之會產(chǎn)生一些疑問。“PB是多大？”“Map-Reduce是啥？”“Hadoop是啥？”“大數(shù)據(jù)跟云計(jì)算啥關(guān)系？跟傳統(tǒng)意義的數(shù)據(jù)庫啥關(guān)系？”等等。

這么多的信息量，我們還是按照大數(shù)據(jù)的基本定義，四個(gè)V來逐一梳理吧。

從第一個(gè)V開始，Volume。

數(shù)據(jù)量很大，到底能達(dá)到什么程度呢？先來學(xué)習(xí)一下數(shù)量級的知識吧。

1KB(Kilobyte 千字節(jié)) = 2^10 B = 1024 B；

1MB(Megabyte 兆字節(jié)) = 2^10 KB = 1024 KB = 2^20 B；

1GB(Gigabyte 吉字節(jié)) = 2^10 MB = 1024 MB = 2^30 B；

1TB(Trillionbyte 太字節(jié)) = 2^10 GB = 1024 GB = 2^40 B；

1PB(Petabyte 拍字節(jié)) = 2^10 TB = 1024 TB = 2^50 B；

1EB(Exabyte 艾字節(jié)) = 2^10 PB = 1024 PB = 2^60 B；

1ZB(Zettabyte 澤字節(jié)) = 2^10 EB = 1024 EB = 2^70 B；

1YB(YottaByte 堯字節(jié)) = 2^10 ZB = 1024 ZB = 2^80 B；

1BB(Brontobyte ) = 2^10 YB = 1024 YB = 2^90 B；

1NB(NonaByte ) = 2^10 BB = 1024 BB = 2^100 B；

1DB(DoggaByte) = 2^10 NB = 1024 NB = 2^110 B；

……

“哇！坑爹啊，整出這么多名詞，跟大數(shù)據(jù)都有關(guān)系嗎？需要我們掌握嗎？”別激動！其實(shí)，KB，MB，GB我們在日常電腦操作中已經(jīng)經(jīng)常碰到了。甚至TB級的大硬盤，也已經(jīng)應(yīng)用于家用電腦中了。我們所說的“大數(shù)據(jù)”，目前大多產(chǎn)品還處在了立足PB展望EB的級別。后面的那些什么ZB、YB、BB、NB、DB……等，就暫時(shí)先當(dāng)他們是浮云吧~

第二個(gè)V, Variety。

關(guān)于這一點(diǎn)，百度百科里是這么說的“網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等”。從專業(yè)一點(diǎn)的角度，我們可以說“大數(shù)據(jù)”中，可以有結(jié)構(gòu)化數(shù)據(jù)，但更多的是大量的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。

結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)是什么意思？

結(jié)構(gòu)化數(shù)據(jù)是指，可以存儲在數(shù)據(jù)庫里，可以用二維表結(jié)構(gòu)來邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù)。

非結(jié)構(gòu)化數(shù)據(jù)，是指不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)，包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報(bào)表、圖像和音頻/視頻信息等等。

而半結(jié)構(gòu)化數(shù)據(jù)，就是介于完全結(jié)構(gòu)化數(shù)據(jù)（如關(guān)系型數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫中的數(shù)據(jù)）和完全無結(jié)構(gòu)的數(shù)據(jù)（如聲音、圖像文件等）之間的數(shù)據(jù)，HTML文檔就屬于半結(jié)構(gòu)化數(shù)據(jù)。它一般是自描述的，數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起，沒有明顯的區(qū)分。　　

上述的描述，其實(shí)還是有點(diǎn)不明確。用數(shù)據(jù)模型的列表來看，區(qū)別就更清晰一點(diǎn)了：

第三個(gè)V，Value。

價(jià)值密度低。以視頻為例，連續(xù)不間斷監(jiān)控過程中，可能有用的數(shù)據(jù)僅僅有一兩秒。

第四個(gè)V，Velocity。

處理速度快。如此龐大的數(shù)據(jù)量，需要在短時(shí)間內(nèi)迅速響應(yīng)。所使用的技術(shù)，當(dāng)然是有別于傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)的。

釋疑解惑

“梳理完了四個(gè)V，咋還是云山霧罩的呢？”

下面來回答幾個(gè)初學(xué)者可能思考到的問題吧!

針對大數(shù)據(jù)的四個(gè)V，有沒有什么對應(yīng)的技術(shù)來應(yīng)對呢？

目前，查詢“大數(shù)據(jù)”，你會發(fā)現(xiàn)度娘給出的各種信息中，Hadoop這個(gè)詞出現(xiàn)的很頻繁。而且，很多廠商提供的產(chǎn)品，也都會打上一個(gè)標(biāo)簽：“**產(chǎn)品已經(jīng)并入Hadoop分布式計(jì)算平臺，以及將Hadoop引入**產(chǎn)品�！�

什么是Hadoop？

Hadoop是由Apache基金會開發(fā)的一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu)。它是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架。用戶可以在不了解分布式底層細(xì)節(jié)的情況下，開發(fā)分布式程序，充分利用集群的威力高速運(yùn)算和存儲。

Hadoop包含了如下子項(xiàng)目：

1. Hadoop Common: 在0.20及以前的版本中，包含HDFS、MapReduce和其他項(xiàng)目公共內(nèi)容，從0.21開始HDFS和MapReduce被分離為獨(dú)立的子項(xiàng)目，其余內(nèi)容為Hadoop Common

2. HDFS: Hadoop 分布式文件系統(tǒng) (Distributed File System) － HDFS (Hadoop Distributed File System) 　　

3. MapReduce：并行計(jì)算框架，0.20前使用 org.apache.hadoop.mapred 舊接口，0.20版本開始引入org.apache.hadoop.mapreduce的新API 　　

4. HBase: 類似Google BigTable的分布式NoSQL列數(shù)據(jù)庫。

5. Hive：數(shù)據(jù)倉庫工具，由Facebook貢獻(xiàn)。　　

6. Zookeeper：分布式鎖設(shè)施，提供類似Google Chubby的功能，由Facebook貢獻(xiàn)。　　

7. Avro：新的數(shù)據(jù)序列化格式與傳輸工具，將逐步取代Hadoop原有的IPC機(jī)制。　

8. Pig: 大數(shù)據(jù)分析平臺，為用戶提供多種接口。

作為初學(xué)者，我們先撥開一些浮云，看看這里面到底有些什么。有三個(gè)主體部分，是我們需要重點(diǎn)關(guān)注的：HDFS、MapReduce、HBase。

實(shí)際上，Apache Hadoop的HDFS是Google File System（GFS）的開源實(shí)現(xiàn)。MapReduce是Google MapReduce的開源實(shí)現(xiàn)。HBase是Google BigTable的開源實(shí)現(xiàn)。

Hadoop是一個(gè)能夠讓用戶輕松架構(gòu)和使用的分布式計(jì)算平臺。它主要有以下幾個(gè)優(yōu)點(diǎn)：1高可靠性2高擴(kuò)展性3高效性4高容錯性。用戶可以輕松地在Hadoop上開發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序。而實(shí)際上，很多公司提供的大數(shù)據(jù)產(chǎn)品也是基于Hadoop進(jìn)行開發(fā)的。

數(shù)據(jù)存儲空間占用大

針對數(shù)據(jù)存儲空間占用大，我們需要用到的是“分布式存儲”。分布式存儲系統(tǒng)，就是將數(shù)據(jù)分散存儲在多臺獨(dú)立的設(shè)備上。傳統(tǒng)的網(wǎng)絡(luò)存儲系統(tǒng)采用集中的存儲服務(wù)器存放所有數(shù)據(jù)，存儲服務(wù)器成為系統(tǒng)性能的瓶頸，也是可靠性和安全性的焦點(diǎn)，不能滿足大規(guī)模存儲應(yīng)用的需要。分布式網(wǎng)絡(luò)存儲系統(tǒng)采用可擴(kuò)展的系統(tǒng)結(jié)構(gòu)，利用多臺存儲服務(wù)器分擔(dān)存儲負(fù)荷，利用位置服務(wù)器定位存儲信息，它不但提高了系統(tǒng)的可靠性、可用性和存取效率，還易于擴(kuò)展。

前面我們介紹到的Hadoop，其中的HDFS就是現(xiàn)今最流行的分布式存儲平臺之一。

HDFS原理簡要描述

HDFS(Hadoop Distributed File System),是一個(gè)分布式文件系統(tǒng)。HDFS有著高容錯性（fault-tolerent）的特點(diǎn)，并且設(shè)計(jì)用來部署在低廉的（low-cost）硬件上。它提供高吞吐量（high throughput）來訪問應(yīng)用程序的數(shù)據(jù)，適合那些有著超大數(shù)據(jù)集（large data set）的應(yīng)用程序。HDFS放寬了（relax）POSIX的要求（requirements）這樣可以實(shí)現(xiàn)流的形式訪問（streaming access）文件系統(tǒng)中的數(shù)據(jù)。

HDFS是一個(gè)主從結(jié)構(gòu)的體系，一個(gè)HDFS集群是由一個(gè)名字節(jié)點(diǎn)，它是一個(gè)管理文件的命名空間和調(diào)節(jié)客戶端訪問文件的主服務(wù)器，當(dāng)然還有的數(shù)據(jù)節(jié)點(diǎn)，一個(gè)節(jié)點(diǎn)一個(gè)，它來管理存儲。HDFS暴露文件命名空間和允許用戶數(shù)據(jù)存儲成文件。　　

對外部客戶機(jī)而言，HDFS 就像一個(gè)傳統(tǒng)的分級文件系統(tǒng)�？梢詣�(chuàng)建、刪除、移動或重命名文件，等等。

內(nèi)部機(jī)制,是將一個(gè)文件分割成一個(gè)或多個(gè)的塊，這些塊存儲在一組數(shù)據(jù)節(jié)點(diǎn)中。名字節(jié)點(diǎn)(NameNode)操作文件命名空間的文件或目錄操作，如打開，關(guān)閉，重命名，等等。它同時(shí)確定塊與數(shù)據(jù)節(jié)點(diǎn)的映射。數(shù)據(jù)節(jié)點(diǎn)(DataNode)來負(fù)責(zé)來自文件系統(tǒng)客戶的讀寫請求。數(shù)據(jù)節(jié)點(diǎn)同時(shí)還要執(zhí)行塊的創(chuàng)建，刪除，和來自名字節(jié)點(diǎn)的塊復(fù)制指示。這與傳統(tǒng)的 RAID 架構(gòu)大不相同。塊的大�。ㄍǔ� 64MB）和復(fù)制的塊數(shù)量在創(chuàng)建文件時(shí)由客戶機(jī)決定。NameNode 可以控制所有文件操作。

HDFS 內(nèi)部的所有通信都基于標(biāo)準(zhǔn)的 TCP/IP 協(xié)議。

數(shù)據(jù)類型繁多

大數(shù)據(jù)處理，有如下需求：對數(shù)據(jù)庫高并發(fā)讀寫的需求、對海量數(shù)據(jù)的高效率存儲和訪問的需求、對數(shù)據(jù)庫的高可擴(kuò)展性和高可用性的需求。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫在此類需求面前束手無策。此時(shí)，一個(gè)新的概念被引入了----NoSQL。

什么是NoSQL？

NoSQL=Not Only SQL，指的是非關(guān)系型的數(shù)據(jù)庫。

非關(guān)系型數(shù)據(jù)庫以鍵值對存儲，它的結(jié)構(gòu)不固定，每一個(gè)元組可以有不一樣的字段，每個(gè)元組可以根據(jù)需要增加一些自己的鍵值對，這樣就不會局限于固定的結(jié)構(gòu)，可以減少一些時(shí)間和空間的開銷。

應(yīng)該說明的是，NoSQL在處理超大量數(shù)據(jù)時(shí)性能卓越，而且可以在PC服務(wù)器集群上運(yùn)行，成本低廉，具有高擴(kuò)展性和實(shí)用性。但是，目前大多數(shù)NoSQL是開源項(xiàng)目，沒有供應(yīng)商正是支持，而且在數(shù)據(jù)完整性等方面遠(yuǎn)不如關(guān)系型數(shù)據(jù)庫，企業(yè)級應(yīng)用不多。

HBASE 的原理簡要介紹，如何存儲非結(jié)構(gòu)化數(shù)據(jù)

HBase是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫，HBase在Hadoop平臺內(nèi)的結(jié)構(gòu)化數(shù)據(jù)的分布式存儲系統(tǒng)。HBase與傳統(tǒng)關(guān)系型數(shù)據(jù)庫的區(qū)別在于，它是一個(gè)適合非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫，而且HBase是基于列而不是基于行的模式。

HBase利用Hadoop HDFS作為其文件存儲系統(tǒng)，HBase位于結(jié)構(gòu)化存儲層，HDFS為HBase提供了高可靠性的底層存儲支持；用Hadoop MapReduce來處理海量數(shù)據(jù)，MapReduce為HBase提供了高性能的計(jì)算能力；用Hadoop Zookeeper作為協(xié)同服務(wù)，Zookeeper為HBase提供了穩(wěn)定服務(wù)和failover機(jī)制。

HBase數(shù)據(jù)模型如下：

Ø Row Key: 行鍵，Table的主鍵，Table中的記錄按照Row Key排序

Ø Timestamp: 時(shí)間戳，每次數(shù)據(jù)操作對應(yīng)的時(shí)間戳，可以看作是數(shù)據(jù)的version number

Ø Column Family：列簇，Table在水平方向有一個(gè)或者多個(gè)Column Family組成，一個(gè)Column Family中可以由任意多個(gè)Column組成，即Column Family支持動態(tài)擴(kuò)展，無需預(yù)先定義Column的數(shù)量以及類型，所有Column均以二進(jìn)制格式存儲，用戶需要自行進(jìn)行類型轉(zhuǎn)換。

當(dāng)Table隨著記錄數(shù)不斷增加而變大后，會逐漸分裂成多份splits，成為regions，一個(gè)region由[startkey,endkey)表示，不同的region會被Master分配給相應(yīng)的RegionServer進(jìn)行管理。

HBase中有兩張?zhí)厥獾腡able，-ROOT-和.META。

.META.：記錄了用戶表的Region信息，.META.可以有多個(gè)regoin

-ROOT-：記錄了.META.表的Region信息，-ROOT-只有一個(gè)region

Zookeeper中記錄了-ROOT-表的location

Client訪問用戶數(shù)據(jù)之前需要首先訪問zookeeper，然后訪問-ROOT-表，接著訪問.META.表，最后才能找到用戶數(shù)據(jù)的位置去訪問，中間需要多次網(wǎng)絡(luò)操作， client端會做cache緩存。

價(jià)值密度低

Mapreduce是在大數(shù)據(jù)中挖掘價(jià)值的有效方法

把MapReduce單獨(dú)列出來，是有必要的，因?yàn)樗匾�。MapReduce是一種編程模型，用于大規(guī)模數(shù)據(jù)集（大于1TB）的并行運(yùn)算。概念"Map（映射）"和"Reduce（化簡）"，和他們的主要思想，都是從函數(shù)式編程語言里借來的，還有從矢量編程語言里借來的特性。

MapReduce 本身就是用于并行處理大數(shù)據(jù)集的軟件框架。MapReduce 的根源是函數(shù)性編程中的 map 和 reduce 函數(shù)。它由兩個(gè)可能包含有許多實(shí)例（許多 Map 和 Reduce）的操作組成。Map 函數(shù)接受一組數(shù)據(jù)并將其轉(zhuǎn)換為一個(gè)鍵/值對列表，輸入域中的每個(gè)元素對應(yīng)一個(gè)鍵/值對。Reduce 函數(shù)接受 Map 函數(shù)生成的列表，然后根據(jù)它們的鍵（為每個(gè)鍵生成一個(gè)鍵/值對）縮小鍵/值對列表。

具體分步驟描述為：

1) 在正式執(zhí)行map函數(shù)前，需要對輸入進(jìn)行“分片”（就是將海量數(shù)據(jù)分成大概相等的“塊”，hadoop的一個(gè)分片默認(rèn)是64M），以便于多個(gè)map同時(shí)工作，每一個(gè)map任務(wù)處理一個(gè)“分片”。

2) 分片完畢后，多臺機(jī)器就可以同時(shí)進(jìn)行map工作了。map函數(shù)要做的事情，相當(dāng)于對數(shù)據(jù)進(jìn)行“預(yù)處理”，輸出所要的“鍵值”。map對每條記錄的輸出以對的形式輸出。

3) 在進(jìn)入reduce階段之前，還要將各個(gè)map中相關(guān)的數(shù)據(jù)（key相同的數(shù)據(jù)）歸結(jié)到一起，發(fā)往一個(gè)reducer。這里面就涉及到多個(gè)map的輸出“混合地”對應(yīng)多個(gè)reducer的情況，這個(gè)過程叫做“洗牌”。

4) 接下來進(jìn)入reduce階段。相同的key的map輸出會到達(dá)同一個(gè)reducer。reducer對key相同的多個(gè)value進(jìn)行reduce操作，最后一個(gè)key的一串value經(jīng)過reduce函數(shù)的作用后，變成了一個(gè)value。

處理速度快

MapReduce除了能挖掘大數(shù)據(jù)價(jià)值，同時(shí)也是一種分布式/并行計(jì)算模型。雖然它是一個(gè)很好的抽象，但不能有效地解決計(jì)算領(lǐng)域的任何問題。為了滿足大數(shù)據(jù)及時(shí)響應(yīng)的特性，數(shù)據(jù)流計(jì)算的研究被提上了日程。實(shí)時(shí)計(jì)算方向重要的一個(gè)模塊就是實(shí)時(shí)數(shù)據(jù)流計(jì)算。

在數(shù)據(jù)流模型中，需要處理的輸入數(shù)據(jù)（全部或部分）并不存儲在可隨機(jī)訪問的磁盤或內(nèi)存中，但它們卻以一個(gè)或多個(gè)“連續(xù)數(shù)據(jù)流”的形式到達(dá)。數(shù)據(jù)流不同于傳統(tǒng)的存儲關(guān)系模型，主要區(qū)別有如下幾個(gè)方面：

流中的數(shù)據(jù)元素在線到達(dá)；

系統(tǒng)無法控制將要處理的新到達(dá)的數(shù)據(jù)元素的順序，無論這些數(shù)據(jù)元素是在一個(gè)數(shù)據(jù)流中還是跨多個(gè)數(shù)據(jù)流；也即重放的數(shù)據(jù)流可能和上次數(shù)據(jù)流的元素順序不一致；

數(shù)據(jù)流的潛在大小也許是無窮無盡的；

一旦數(shù)據(jù)流中的某個(gè)元素經(jīng)過處理，要么被丟棄，要么被歸檔存儲。因此，除非該數(shù)據(jù)被直接存儲在內(nèi)存中，否則將不容易被檢索。相對于數(shù)據(jù)流的大小，這是一種典型的極小相關(guān)。

數(shù)據(jù)流模型中的操作并不排除傳統(tǒng)關(guān)系型數(shù)據(jù)的存在。通常，數(shù)據(jù)流操作將建立數(shù)據(jù)流和關(guān)系型數(shù)據(jù)的聯(lián)系。在數(shù)據(jù)流處理過程中，更新存儲關(guān)系的同時(shí)可能會產(chǎn)生傳輸處理問題。

近年來，業(yè)界出現(xiàn)了不少實(shí)時(shí)數(shù)據(jù)流計(jì)算系統(tǒng)，雖然沒有一個(gè)類似于Hadoop的集大成者，但是也都各具特色。由于網(wǎng)絡(luò)數(shù)據(jù)的不斷膨脹和用戶需求的不斷涌現(xiàn)，近年來互聯(lián)網(wǎng)企業(yè)開始廣泛研究和使用數(shù)據(jù)流處理，誕生了Yahoo! S4、Twitter Storm、IBM StreamBase、Facebook的Puma/Puma2 及學(xué)術(shù)界開源的Borealis等系統(tǒng)。

大數(shù)據(jù)是云計(jì)算嗎？

如果有人問你這句話，你看完本文，可以很自信的回答他“Absolutely！”

為了回答這個(gè)問題，我們有需要引入一個(gè)概念----云計(jì)算是什么。

維基百科給云計(jì)算下的定義：云計(jì)算將IT相關(guān)的能力以服務(wù)的方式提供給用戶，允許用戶在不了解提供服務(wù)的技術(shù)、沒有相關(guān)知識以及設(shè)備操作能力的情況下，通過Internet獲取需要服務(wù)。

中國云計(jì)算網(wǎng)將云定義為：云計(jì)算是分布式計(jì)算（Distributed Computing）、并行計(jì)算（Parallel Computing）和網(wǎng)格計(jì)算（Grid Computing）的發(fā)展，或者說是這些科學(xué)概念的商業(yè)實(shí)現(xiàn)。

云計(jì)算分為三個(gè)層次：基礎(chǔ)設(shè)施即服務(wù)（IaaS），平臺即服務(wù)（PaaS）和軟件即服務(wù)（SaaS）。

“在說什么，云啊云啊，好多的云啊，好大的棉花糖啊~~”

云計(jì)算的核心技術(shù)是海量數(shù)據(jù)分布式存儲和海量數(shù)據(jù)分布式計(jì)算，現(xiàn)在云計(jì)算系統(tǒng)主要采用Map-Reduce模型。

“Map-Reduce？哪里看到過？”沒錯，在前面對大數(shù)據(jù)的解讀的時(shí)候，我們就已經(jīng)明確描述過這一段。終于看到熟悉的內(nèi)容了，無比興奮啊。

實(shí)際上，云計(jì)算的數(shù)據(jù)存儲技術(shù)主要有谷歌的非開源的GFS（Google File System）和 Hadoop 開發(fā)團(tuán)隊(duì)開發(fā)的GFS的開源實(shí)現(xiàn)HDFS（Hadoop Distributed File System）。大部分IT廠商，包括yahoo、Intel的“云”計(jì)劃采用的都是HDFS的數(shù)據(jù)存儲技術(shù)。

通過對簡單的云計(jì)算的定義及技術(shù)分析，加上前面我們對大數(shù)據(jù)的了解，不難得出結(jié)論，大數(shù)據(jù)當(dāng)然是可以歸為云計(jì)算的范疇。

應(yīng)用領(lǐng)域有哪些？

說些我們熟知的地方吧，哪些我們接觸到的地方用到了Hadoop?

要回答這個(gè)問題，舉幾個(gè)例子，很容易。在國內(nèi)，包括中國移動、百度、網(wǎng)易、淘寶、騰訊、金山和華為等眾多公司都在研究和使用它。

行業(yè)動態(tài)及展望

“大數(shù)據(jù)”的影響，增加了對信息管理專家的需求，甲骨文，IBM，微軟和SAP花了超過15億美元的在軟件智能數(shù)據(jù)管理和分析的專業(yè)公司。這個(gè)行業(yè)自身價(jià)值超過1000億美元，增長近10%，大數(shù)據(jù)已經(jīng)出現(xiàn)，因?yàn)槲覀兩钤谝粋€(gè)社會中有更多的東西。有46億全球移動電話用戶有1億美元和20億人訪問互聯(lián)網(wǎng)�；旧�，人們比以往任何時(shí)候都與數(shù)據(jù)或信息交互。1990年至2005年，全球超過1億人進(jìn)入中產(chǎn)階級，這意味著越來越多的人，誰收益的這筆錢將成為反過來導(dǎo)致更多的識字信息的增長。思科公司預(yù)計(jì)，到2013年，在互聯(lián)網(wǎng)上流動的交通量將達(dá)到每年667艾字節(jié)。

最早提出“大數(shù)據(jù)”時(shí)代已經(jīng)到來的機(jī)構(gòu)是全球知名咨詢公司麥肯錫。麥肯錫在研究報(bào)告中指出，數(shù)據(jù)已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域，逐漸成為重要的生產(chǎn)因素；而人們對于海量數(shù)據(jù)的運(yùn)用將預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來。

麥肯錫的報(bào)告發(fā)布后，大數(shù)據(jù)迅速成為了計(jì)算機(jī)行業(yè)爭相傳誦的熱門概念，也引起了金融界的高度關(guān)注。隨著大數(shù)據(jù)時(shí)代的全面開啟，你是否做好了充分的準(zhǔn)備迎接這個(gè)時(shí)代的到來呢？

作者：華通科技徐文卓

最熱通信招聘

投訴處理（后臺）-�？� - 南京華蘇科技有限公司
核心網(wǎng)工程師-IMC青海 - 嘉環(huán)科技股份有限公司
中級前臺/寧夏中衛(wèi) - 河北中創(chuàng)盈和通信科技有限公司
家寬業(yè)務(wù)分析工程師 - 廣東世炬網(wǎng)絡(luò)科技股份有限公司
安徽皖北單驗(yàn)簇優(yōu)化測試 - 安徽引途科技有限公司
南昌電信中興原廠高級 - 重慶信科通信工程有限公司
華為高端優(yōu)化項(xiàng)目（南京） - 杭州東信網(wǎng)絡(luò)技術(shù)有限公司
【移動項(xiàng)目】招督導(dǎo)、維護(hù)轉(zhuǎn)網(wǎng)優(yōu) - 成都旗訊通信技術(shù)有限公司
浙江網(wǎng)絡(luò)優(yōu)化工程師 - 浙江明訊網(wǎng)絡(luò)技術(shù)有限公司
網(wǎng)絡(luò)資源管理工程師 - 西安長河通訊有限責(zé)任公司
開站后臺督導(dǎo)-山東濟(jì)南 - 杭州華星創(chuàng)業(yè)通信技術(shù)股份有限公司
新疆工程前臺測試 - 河南創(chuàng)賽通信科技有限公司
無線站點(diǎn)設(shè)計(jì) - 上海貝電實(shí)業(yè)（集團(tuán)）股份有限公司
華為網(wǎng)格長 - 廣州銘輝網(wǎng)絡(luò)科技有限公司
連云港中興原廠優(yōu)化 - 南京順盛通信科技有限責(zé)任公司
廣州中高級工程師 - 上海瑞禾通訊技術(shù)有限公司
江門聯(lián)通日常高級后臺優(yōu)化人員 - 廣東南方通信建設(shè)有限公司
中興IPRAN工程師 - 福建省鴻官通信工程有限公司
后臺督導(dǎo)-山東 - 合肥超腦信息科技有限公司
上海外場實(shí)習(xí)生 - 上海德專信息技術(shù)有限公司
山東濱州電信 - 北京電旗通訊技術(shù)股份有限公司
測試職位不要投 - 兩江新區(qū)思圖文化傳媒工作室
佛山聯(lián)通5G集中優(yōu)化-外場中高級 - 深圳市志威創(chuàng)聯(lián)實(shí)業(yè)有限公司
華為45G高級網(wǎng)優(yōu)工程師 - 深圳市訊方技術(shù)股份有限公司
移動電信聯(lián)通單驗(yàn)工程師 - 怡利科技發(fā)展有限公司
內(nèi)蒙辦長期需求華為持證中高級人員 - 陜西瑞達(dá)灃通信技術(shù)有限公司
數(shù)通區(qū)維工程師 - 北京宜通華瑞科技有限公司
網(wǎng)優(yōu)工程師（J10073） - 南京欣網(wǎng)通信科技股份有限公司
初中級OTN/PTN調(diào)測工程師 - 重慶愛信思科技有限責(zé)任公司
光網(wǎng)絡(luò)工程師 - 四川準(zhǔn)達(dá)信息技術(shù)股份有限公司

初學(xué)大數(shù)據(jù)之傻瓜書

最熱通信招聘

業(yè)界最新資訊

每日5G科技快訊|6G要來了；華為發(fā)債融資80億元；又一大國成功自研光刻機(jī)；三星李在镕到訪比亞迪；中芯國際利潤暴跌；王興減持…

LightCounting：2025年，中國云公司對光模塊采購量超100%增長

方榕出任中興通訊董事長

最新招聘信息

最新技術(shù)文章

最新論壇貼子

初學(xué)大數(shù)據(jù)之傻瓜書

最熱通信招聘

業(yè)界最新資訊

每日5G科技快訊|6G要來了；華為發(fā)債融資80億元；又一大國成功自研光刻機(jī)；三星李在镕到訪比亞迪；中芯國際利潤暴跌；王興減持…

LightCounting：2025年，中國云公司對光模塊采購量超100%增長

方榕出任中興通訊董事長

最新招聘信息

最新技術(shù)文章

最新論壇貼子

每日5G科技快訊|6G要來了；華為發(fā)債融資80億元；又一大國成功自研光刻機(jī)；三星李在镕到訪比亞迪；中芯國際利潤暴跌；王興減持…

LightCounting：2025年，中國云公司對光模塊采購量超100%增長