最近2018中文字幕在日韩欧美国产成人片_国产日韩精品一区二区在线_在线观看成年美女黄网色视频_国产精品一区三区五区_国产精彩刺激乱对白_看黄色黄大色黄片免费_人人超碰自拍cao_国产高清av在线_亚洲精品电影av_日韩美女尤物视频网站

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案
什么是Hadoop

這篇文章主要介紹“什么是Hadoop”,在日常操作中,相信很多人在什么是Hadoop問題上存在疑惑,小編查閱了各式資料,整理出簡(jiǎn)單好用的操作方法,希望對(duì)大家解答”什么是Hadoop”的疑惑有所幫助!接下來,請(qǐng)跟著小編一起來學(xué)習(xí)吧!

創(chuàng)新互聯(lián)專注為客戶提供全方位的互聯(lián)網(wǎng)綜合服務(wù),包含不限于成都網(wǎng)站設(shè)計(jì)、做網(wǎng)站、海港網(wǎng)絡(luò)推廣、小程序定制開發(fā)、海港網(wǎng)絡(luò)營(yíng)銷、海港企業(yè)策劃、海港品牌公關(guān)、搜索引擎seo、人物專訪、企業(yè)宣傳片、企業(yè)代運(yùn)營(yíng)等,從售前售中售后,我們都將竭誠(chéng)為您服務(wù),您的肯定,是我們最大的嘉獎(jiǎng);創(chuàng)新互聯(lián)為所有大學(xué)生創(chuàng)業(yè)者提供海港建站搭建服務(wù),24小時(shí)服務(wù)熱線:18982081108,官方網(wǎng)址:www.cdcxhl.com

2011年的時(shí)候我們?cè)诎俣人阉鱄adoop相關(guān)的問題每天只有零星幾個(gè),2015年再去百度搜索Hadoop已經(jīng)有800多萬個(gè)問題,而如今已然已經(jīng)過億了,Hadoop已成為大數(shù)據(jù)必備的基礎(chǔ)設(shè)施了。Hadoop被公認(rèn)是一套行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開源軟件,在分布式環(huán)境下提供了海量數(shù)據(jù)的處理能力。幾乎所有主流廠商都圍繞Hadoop開發(fā)工具、開源軟件、商業(yè)化工具和技術(shù)服務(wù)。近年大型IT公司,如EMC、Microsoft、Intel、Teradata、Cisco都明顯增加了Hadoop方面的投入。那么到底什么是Hadoop?它有什么作用?它的基礎(chǔ)架構(gòu)是怎么樣的?今天就Hadoop的這些基本概念來做一次簡(jiǎn)單的梳理。

一、Hadoop是什么?

Hadoop是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu), 是一個(gè)存儲(chǔ)系統(tǒng)+計(jì)算框架的軟件框架。主要解決海量數(shù)據(jù)存儲(chǔ)計(jì)算的問題,是大數(shù)據(jù)技術(shù)中的基石。Hadoop以一種可靠、高效、可伸縮的方式進(jìn)行數(shù)據(jù)處理,用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序,用戶可以輕松地在Hadoop上開發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序。

二、Hadoop能解決什么問題

1、海量數(shù)據(jù)存儲(chǔ)

HDFS有高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(High throughput)來訪問數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序,它由n臺(tái)運(yùn)行著DataNode的機(jī)器組成和1臺(tái)(另外一個(gè)standby)運(yùn)行NameNode進(jìn)程一起構(gòu)成。每個(gè)DataNode 管理一部分?jǐn)?shù)據(jù),然后NameNode負(fù)責(zé)管理整個(gè)HDFS 集群的信息(存儲(chǔ)元數(shù)據(jù))。

2、資源管理,調(diào)度和分配

Apache Hadoop YARN(Yet Another Resource Negotiator,另一種資源協(xié)調(diào)者)是一種新的 Hadoop 資源管理器,它是一個(gè)通用資源管理系統(tǒng)和調(diào)度平臺(tái),可為上層應(yīng)用提供統(tǒng) 一的資源管理和調(diào)度,它的引入為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來了巨 大好處。

三、Hadoop組件架構(gòu)是什么樣的

看過了Hadoop 的基本介紹之后。我們來了解HDFS 和 YARN的核心架構(gòu)和原理,先上HDFS框架圖:

什么是Hadoop

看完上面的圖之后,先來思考幾個(gè)問題:

1、元數(shù)據(jù)信息是什么,NameNode是如何維護(hù)元數(shù)據(jù)的,元數(shù)據(jù)信息如何保障一致性?

NameNode維護(hù)了HDFS 集群的元數(shù)據(jù)信息,包括文件的目錄樹,每個(gè)文件對(duì)應(yīng)的數(shù)據(jù)塊列表,權(quán)限設(shè)置,副本數(shù)等等。
元數(shù)據(jù)信息存儲(chǔ)在內(nèi)存里,那么NameNode異常宕機(jī)情況下咋辦?
NameNode對(duì)元數(shù)據(jù)的修改包含兩個(gè)部分
內(nèi)存數(shù)據(jù)修改
修改內(nèi)存之后寫一條EditLog
再來看兩個(gè)概念 FsImageEditLog:
FsImage:FsImage是NameNode內(nèi)存中元數(shù)據(jù)的鏡像文件,是元數(shù)據(jù)的一個(gè)永久性checkpoint,包含了HDFS的所有目錄和文件idnode的序列化信息,可以類比銀行的賬戶余額,只有簡(jiǎn)單的信息。
EditLog:EditLog是用于銜接內(nèi)存元數(shù)據(jù)和FsImage之間的操作日志,保存了自最后一次檢查點(diǎn)之后,所有針對(duì)HDFS文件系統(tǒng)的操作,比如增加文件、重命名文件、刪除目錄等等,可以類比銀行的賬戶流水,包括每一筆的記錄,如果日積月累,流水信息可以非常大。

那么如果Editlog變的非常大之后,宕機(jī)之后需要讀取Editlog進(jìn)行恢復(fù)元數(shù)據(jù),這是一個(gè)非常慢點(diǎn)過程。這個(gè)時(shí)候該StandbyNameNode 節(jié)點(diǎn)上場(chǎng)了。Standby 節(jié)點(diǎn)從JournalNode集合拉取Editlog,并定時(shí)將Editlog合并成FsImage. FsImage是一份合并之后的存量數(shù)據(jù)信息。同時(shí)將FsImage 上傳到ActiveNode節(jié)點(diǎn)。

2、NameNode Active 和 standby 之間是如何切換并始終保持一個(gè)ActiveNode?

我們可以在上面的HDFS框架圖中看到,鏈接ZK集群和NameNode的組件ZKFC
1、ZKFC 監(jiān)控NameNode的監(jiān)控狀態(tài)
2、ZKFC 利用ZK提供的主備節(jié)點(diǎn)選舉來切換
3、通知和修改NameNode的狀態(tài)
4、確認(rèn)元數(shù)據(jù)同步完成之后對(duì)外提供服務(wù)

再來看YARN框架圖:

什么是Hadoop

上圖描述了YARN的一個(gè)任務(wù)的提交和資源分配流程,在整個(gè)過程中涉及到如下的組件:

  • ResourceManeger:負(fù)責(zé)所有資源的監(jiān)控、分配和管理,并處理客戶端請(qǐng)求,啟動(dòng)和監(jiān)控AppMaster,NodeManager

  • NodeManager:?jiǎn)蝹€(gè)節(jié)點(diǎn)上的資源管理和任務(wù)管理,處理ResourceManager,AppMaster 的命令

  • AppMaster:負(fù)責(zé)某個(gè)具體應(yīng)用程序的調(diào)度和協(xié)調(diào),為應(yīng)用程序申請(qǐng)資源,并對(duì)任務(wù)進(jìn)行監(jiān)控

  • Container:YARN中的一個(gè)動(dòng)態(tài)資源分配的概念,其擁有一定的內(nèi)存,核數(shù)。

一個(gè)任務(wù)提交的整體流程:
(1)Client向YARN中提交應(yīng)用程序,
其中包括ApplicationMaster程序、命令、用戶程序,資源等。
(2)ResourceManager為該應(yīng)用程序分配第一個(gè)Container,并與對(duì)應(yīng)的NodeManager通信,要求它在這個(gè)Container中啟動(dòng)應(yīng)用程序的ApplicationMaster。
(3)ApplicationMaster首先向ResourceManager注冊(cè),這樣用戶可以直接通過ResourceManager查看應(yīng)用程序的運(yùn)行狀態(tài),然后它將為各個(gè)任務(wù)申請(qǐng)資源,并監(jiān)控它的運(yùn)行狀態(tài)
(4)ApplicationMaster采用輪詢的方式通過RPC協(xié)議向ResourceManager申請(qǐng)和領(lǐng)取資源。
(5)一旦ApplicationMaster申請(qǐng)到資源后,便與對(duì)應(yīng)的NodeManager通信,要求它啟動(dòng)任務(wù)。
(6)NodeManager為任務(wù)設(shè)置好運(yùn)行環(huán)境(包括環(huán)境變量、Jar包、二進(jìn)制程序等)后,將任務(wù)啟動(dòng)命令寫到一個(gè)腳本中,并通過運(yùn)行該腳本啟動(dòng)任務(wù)。
(7)各個(gè)任務(wù)通過某個(gè)RPC協(xié)議向ApplicationMaster匯報(bào)自己的狀態(tài)和進(jìn)度,以讓ApplicationMaster隨時(shí)掌握各個(gè)任務(wù)的運(yùn)行狀態(tài),從而可以在任務(wù)失敗時(shí)重新啟動(dòng)任務(wù)。在應(yīng)用程序運(yùn)行過程中,用戶可隨時(shí)通過RPC向ApplicationMaster查詢應(yīng)用程序的當(dāng)前運(yùn)行狀態(tài)。
(8)應(yīng)用程序運(yùn)行完成后,ApplicationMaster向ResourceManager注銷并關(guān)閉自己。

通過上面的內(nèi)容,可以對(duì)Hadoop 的一些基本框架有一些簡(jiǎn)單的印象了。之后在使用的時(shí)候可以對(duì)照上面的結(jié)構(gòu)圖和Hadoop 官網(wǎng)或者社區(qū)進(jìn)行深入理解。

到此,關(guān)于“什么是Hadoop”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí),請(qǐng)繼續(xù)關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編會(huì)繼續(xù)努力為大家?guī)砀鄬?shí)用的文章!


文章題目:什么是Hadoop
新聞來源:http://fisionsoft.com.cn/article/pchphp.html