好看的课外书,魔天记忘语小说,盛世嫡妃凤轻小说

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷(xiāo)解決方案

Hadoop簡(jiǎn)介：HDFS和MapReduce的實(shí)現(xiàn)

本節(jié)向大家描述一下Hadoop簡(jiǎn)介，本節(jié)主要介紹Hadoop中兩個(gè)重要的組成部分HDFS和MapReduce，希望通過(guò)本節(jié)的介紹大家對(duì)Hadoop有初步的認(rèn)識(shí)。

作為一家“創(chuàng)意+整合+營(yíng)銷(xiāo)”的成都網(wǎng)站建設(shè)機(jī)構(gòu)，我們?cè)跇I(yè)內(nèi)良好的客戶(hù)口碑。創(chuàng)新互聯(lián)公司提供從前期的網(wǎng)站品牌分析策劃、網(wǎng)站設(shè)計(jì)、成都網(wǎng)站建設(shè)、網(wǎng)站建設(shè)、創(chuàng)意表現(xiàn)、網(wǎng)頁(yè)制作、系統(tǒng)開(kāi)發(fā)以及后續(xù)網(wǎng)站營(yíng)銷(xiāo)運(yùn)營(yíng)等一系列服務(wù)，幫助企業(yè)打造創(chuàng)新的互聯(lián)網(wǎng)品牌經(jīng)營(yíng)模式與有效的網(wǎng)絡(luò)營(yíng)銷(xiāo)方法,創(chuàng)造更大的價(jià)值。

Hadoop簡(jiǎn)介

Hadoop是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu)，由Apache基金會(huì)開(kāi)發(fā)。用戶(hù)可以在不了解分布式底層細(xì)節(jié)的情況下，開(kāi)發(fā)分布式程序。充分利用集群的威力高速運(yùn)算和存儲(chǔ)。
　　簡(jiǎn)單地說(shuō)來(lái)，Hadoop是一個(gè)可以更容易開(kāi)發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺(tái)。
　　Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)（HadoopDistributedFileSystem），簡(jiǎn)稱(chēng)HDFS。HDFS有著高容錯(cuò)性（fault-tolerent）的特點(diǎn)，并且設(shè)計(jì)用來(lái)部署在低廉的（low-cost）硬件上。而且它提供高傳輸率（highthroughput）來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù)，適合那些有著超大數(shù)據(jù)集（largedataset）的應(yīng)用程序。HDFS放寬了（relax）POSIX的要求（requirements）這樣可以流的形式訪問(wèn)（streamingaccess）文件系統(tǒng)中的數(shù)據(jù)。

談到Hadoop就不得不提到Lucene和Nutch。首先，Lucene并不是一個(gè)應(yīng)用程序，而是提供了一個(gè)純Java的高性能全文索引引擎工具包，它可以方便的嵌入到各種實(shí)際應(yīng)用中實(shí)現(xiàn)全文搜索/索引功能。Nutch是一個(gè)應(yīng)用程序，是一個(gè)以Lucene為基礎(chǔ)實(shí)現(xiàn)的搜索引擎應(yīng)用，Lucene為Nutch提供了文本搜索和索引的API，Nutch不光有搜索的功能，還有數(shù)據(jù)抓取的功能。在nutch0.8.0版本之前，Hadoop還屬于Nutch的一部分，而從nutch0.8.0開(kāi)始，將其中實(shí)現(xiàn)的NDFS和MapReduce剝離出來(lái)成立一個(gè)新的開(kāi)源項(xiàng)目，這就是Hadoop，而nutch0.8.0版本較之以前的Nutch在架構(gòu)上有了根本性的變化，那就是完全構(gòu)建在Hadoop的基礎(chǔ)之上了。在Hadoop中實(shí)現(xiàn)了Google的GFS和MapReduce算法，使Hadoop成為了一個(gè)分布式的計(jì)算平臺(tái)。
其實(shí)，Hadoop并不僅僅是一個(gè)用于存儲(chǔ)的分布式文件系統(tǒng)，而是設(shè)計(jì)用來(lái)在由通用計(jì)算設(shè)備組成的大型集群上執(zhí)行分布式應(yīng)用的框架。

Hadoop包含兩個(gè)部分：

1、HDFS

Hadoop簡(jiǎn)介中的HDFS。HDFS即HadoopDistributedFileSystem(Hadoop分布式文件系統(tǒng))
HDFS具有高容錯(cuò)性，并且可以被部署在低價(jià)的硬件設(shè)備之上。HDFS很適合那些有大數(shù)據(jù)集的應(yīng)用，并且提供了對(duì)數(shù)據(jù)讀寫(xiě)的高吞吐率。HDFS是一個(gè)master/slave的結(jié)構(gòu)，就通常的部署來(lái)說(shuō)，在master上只運(yùn)行一個(gè)Namenode，而在每一個(gè)slave上運(yùn)行一個(gè)Datanode。
HDFS支持傳統(tǒng)的層次文件組織結(jié)構(gòu)，同現(xiàn)有的一些文件系統(tǒng)在操作上很類(lèi)似，比如你可以創(chuàng)建和刪除一個(gè)文件，把一個(gè)文件從一個(gè)目錄移到另一個(gè)目錄，重命名等等操作。Namenode管理著整個(gè)分布式文件系統(tǒng)，對(duì)文件系統(tǒng)的操作（如建立、刪除文件和文件夾）都是通過(guò)Namenode來(lái)控制。

HDFS的結(jié)構(gòu)圖中可以看出，Namenode，Datanode，Client之間的通信都是建立在TCP/IP的基礎(chǔ)之上的。當(dāng)Client要執(zhí)行一個(gè)寫(xiě)入的操作的時(shí)候，命令不是馬上就發(fā)送到Namenode，Client首先在本機(jī)上臨時(shí)文件夾中緩存這些數(shù)據(jù)，當(dāng)臨時(shí)文件夾中的數(shù)據(jù)塊達(dá)到了設(shè)定的Block的值（默認(rèn)是64M）時(shí)，Client便會(huì)通知Namenode，Namenode便響應(yīng)Client的RPC請(qǐng)求，將文件名插入文件系統(tǒng)層次中并且在Datanode中找到一塊存放該數(shù)據(jù)的block，同時(shí)將該Datanode及對(duì)應(yīng)的數(shù)據(jù)塊信息告訴Client，Client便這些本地臨時(shí)文件夾中的數(shù)據(jù)塊寫(xiě)入指定的數(shù)據(jù)節(jié)點(diǎn)。
HDFS采取了副本策略，其目的是為了提高系統(tǒng)的可靠性，可用性。HDFS的副本放置策略是三個(gè)副本，一個(gè)放在本節(jié)點(diǎn)上，一個(gè)放在同一機(jī)架中的另一個(gè)節(jié)點(diǎn)上，還有一個(gè)副本放在另一個(gè)不同的機(jī)架中的一個(gè)節(jié)點(diǎn)上。當(dāng)前版本的hadoop0.12.0中還沒(méi)有實(shí)現(xiàn)，但是正在進(jìn)行中，相信不久就可以出來(lái)了。

2、MapReduce的實(shí)現(xiàn)

Hadoop簡(jiǎn)介中MapReduce的實(shí)現(xiàn)。MapReduce是Google的一項(xiàng)重要技術(shù)，它是一個(gè)編程模型，用以進(jìn)行大數(shù)據(jù)量的計(jì)算。對(duì)于大數(shù)據(jù)量的計(jì)算，通常采用的處理手法就是并行計(jì)算。至少現(xiàn)階段而言，對(duì)許多開(kāi)發(fā)人員來(lái)說(shuō)，并行計(jì)算還是一個(gè)比較遙遠(yuǎn)的東西。MapReduce就是一種簡(jiǎn)化并行計(jì)算的編程模型，它讓那些沒(méi)有多少并行計(jì)算經(jīng)驗(yàn)的開(kāi)發(fā)人員也可以開(kāi)發(fā)并行應(yīng)用。
MapReduce的名字源于這個(gè)模型中的兩項(xiàng)核心操作：Map和Reduce。也許熟悉FunctionalProgramming（函數(shù)式編程）的人見(jiàn)到這兩個(gè)詞會(huì)倍感親切。簡(jiǎn)單的說(shuō)來(lái)，Map是把一組數(shù)據(jù)一對(duì)一的映射為另外的一組數(shù)據(jù)，其映射的規(guī)則由一個(gè)函數(shù)來(lái)指定，比如對(duì)[1,2,3,4]進(jìn)行乘2的映射就變成了[2,4,6,8]。Reduce是對(duì)一組數(shù)據(jù)進(jìn)行歸約，這個(gè)歸約的規(guī)則由一個(gè)函數(shù)指定，比如對(duì)[1,2,3,4]進(jìn)行求和的歸約得到結(jié)果是10，而對(duì)它進(jìn)行求積的歸約結(jié)果是24。本節(jié)關(guān)于Hadoop簡(jiǎn)介描述完畢。

【編輯推薦】

術(shù)語(yǔ)匯編 Hadoop簡(jiǎn)介
技術(shù)分享 Hadoop集群搭建方法
Hadoop文件系統(tǒng)如何快速安裝？
Hadoop集群搭建過(guò)程中相關(guān)環(huán)境配置詳解
Hadoop完全分布模式安裝實(shí)現(xiàn)詳解

文章名稱(chēng)：Hadoop簡(jiǎn)介：HDFS和MapReduce的實(shí)現(xiàn)
當(dāng)前鏈接：http://fisionsoft.com.cn/article/cdsjpjg.html

新聞中心

其他資訊