最近2018中文字幕在日韩欧美国产成人片_国产日韩精品一区二区在线_在线观看成年美女黄网色视频_国产精品一区三区五区_国产精彩刺激乱对白_看黄色黄大色黄片免费_人人超碰自拍cao_国产高清av在线_亚洲精品电影av_日韩美女尤物视频网站

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案
Spark的應(yīng)用有哪些

本篇內(nèi)容介紹了“Spark的應(yīng)用有哪些”的有關(guān)知識(shí),在實(shí)際案例的操作過程中,不少人都會(huì)遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!

網(wǎng)站建設(shè)哪家好,找創(chuàng)新互聯(lián)公司!專注于網(wǎng)頁(yè)設(shè)計(jì)、網(wǎng)站建設(shè)、微信開發(fā)、微信小程序開發(fā)、集團(tuán)企業(yè)網(wǎng)站建設(shè)等服務(wù)項(xiàng)目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了洛江免費(fèi)建站歡迎大家使用!

一、MapReduce將死,Spark稱霸,Hadoop死而不僵

由于Hadoop的MapReduce高延遲的死穴,導(dǎo)致Hadoop無(wú)力處理很多對(duì)時(shí)間有要求的場(chǎng)景,人們對(duì)其批評(píng)越來(lái)越多,Hadoop無(wú)力改變現(xiàn)在而導(dǎo)致正在死亡。正如任何領(lǐng)域一樣,死亡是一個(gè)過程,Hadoop正在示例這樣的一個(gè)過程,Hadoop的死亡過程在2012年已經(jīng)開始,迭代與算法的無(wú)力是硬傷。

拿出五分鐘看看這個(gè)世界目前發(fā)生了什么?

1,原先支持Hadoop的四大商業(yè)機(jī)構(gòu)紛紛宣布支持Spark;

2,Mahout前一階段表示從現(xiàn)在起他們將不再接受任何形式的以MapReduce形式實(shí)現(xiàn)的算法,另外一方面,Mahout宣布新的算法基于Spark;

3,Cloudera的機(jī)器學(xué)習(xí)框架Oryx的執(zhí)行引擎也將由Hadoop的MapReduce替換成Spark;

4,Google已經(jīng)開始將負(fù)載從MapReduce轉(zhuǎn)移到Pregel和Dremel上  - 其實(shí)Mapreduce的論文一開始是被拋棄,才被公布于世。

5,F(xiàn)aceBook則將負(fù)載轉(zhuǎn)移到Presto上;

現(xiàn)在很多原來(lái)使用深度使用Hadoop的公司都在紛紛轉(zhuǎn)向Spark,國(guó)內(nèi)的淘寶是典型的案例。

在此,我們以使用世界上使用Hadoop最典型的公司Yahoo!為例,大家可以看一下其數(shù)據(jù)處理的架構(gòu)圖:

Spark的應(yīng)用有哪些

  無(wú)非是實(shí)時(shí)和非實(shí)時(shí)的兩條斗爭(zhēng)的線路,在引入了Spark之后

 Spark的應(yīng)用有哪些

隨著時(shí)間的推進(jìn)和Spark本身流處理、圖技術(shù)、機(jī)器學(xué)習(xí)、NOSQL查詢的出色特性可能會(huì)完成Spark全面取代Hadoop的計(jì)算能力,而這也代表了所有做云計(jì)算大數(shù)據(jù)公司的趨勢(shì)。

hadoop越來(lái)越退化為一個(gè)標(biāo)桿的文件系統(tǒng)下所抽象的容器。

或許有朋友會(huì)問,Hadoop為何不改進(jìn)自己?

其實(shí),Hadoop社區(qū)一直在改進(jìn)Hadoop本身,世界就是這樣,固有的事物總是強(qiáng)勢(shì),改革總不如革命來(lái)的猛烈。

1,Hadoop的改進(jìn)基本停留在代碼層次,也就是修修補(bǔ)補(bǔ)的事情,這就導(dǎo)致了Hadoop現(xiàn)在具有深度的“技術(shù)債務(wù)”,負(fù)載累累;Hadoop2.0的擴(kuò)展本章上就是:一旦不能駕馭某種事物,那就擴(kuò)大自身的范疇,以期待完全的包含關(guān)系。

2,Hadoop本身的計(jì)算模型決定了Hadoop上的所有工作都要轉(zhuǎn)化成Map、Shuffle和Reduce等核心階段,由于每次計(jì)算都要從磁盤讀或者寫數(shù)據(jù),同時(shí)真?zhèn)€計(jì)算模型需要網(wǎng)絡(luò)傳輸,這就導(dǎo)致了越來(lái)越不能忍受的延遲性,同時(shí)在前一個(gè)任務(wù)運(yùn)行完之前,任何一個(gè)任務(wù)都不可以運(yùn)行,這直接導(dǎo)致了其無(wú)力支持交互式應(yīng)用;

那么,為什么不全部重新寫一個(gè)更好的Hadoop呢 ? 答案是Spark的出現(xiàn)使得沒有必要這樣做了。

Spark是繼Hadoop之后,成為替代Hadoop的下一代云計(jì)算大數(shù)據(jù)核心技術(shù),目前SPARK已經(jīng)構(gòu)建了自己的整個(gè)大數(shù)據(jù)處理生態(tài)系統(tǒng),如流處理、圖技術(shù)、機(jī)器學(xué)習(xí)、NoSQL查詢等方面都有自己的技術(shù),并且是Apache頂級(jí)Project,可以預(yù)計(jì)的是2014年下半年到2015年在社區(qū)和商業(yè)應(yīng)用上會(huì)有爆發(fā)式的增長(zhǎng)。

國(guó)外一些大型互聯(lián)網(wǎng)公司已經(jīng)部署了Spark。

甚至連Hadoop的早期主要貢獻(xiàn)者Yahoo現(xiàn)在也在多個(gè)項(xiàng)目中部署使用Spark;

國(guó)內(nèi)的淘寶、優(yōu)酷土豆、網(wǎng)易、Baidu、騰訊等已經(jīng)使用Spark技術(shù)用于自己的商業(yè)生產(chǎn)系統(tǒng)中,國(guó)內(nèi)外的應(yīng)用開始越來(lái)越廣泛。

“Spark的應(yīng)用有哪些”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!


新聞名稱:Spark的應(yīng)用有哪些
標(biāo)題URL:http://fisionsoft.com.cn/article/jdscss.html