新聞中心
HBaseCon是Apache HBase官方舉辦的技術會議,主要目的是分享,交流HBase這個開源分布式大數(shù)據(jù)存儲的使用和開發(fā)以及發(fā)展。HBaseCon發(fā)起于2012年。通常HBaseCon的舉辦地是在美國,這是HBaseCon***次在亞洲舉行,命名為Apache HBaseCon 2017 Asia。而且這次會議舉辦地選擇在中國深圳,也足以見得HBase在中國的火爆程度和中國開發(fā)者們對HBase社區(qū)所做的卓越貢獻。

貢山網(wǎng)站建設公司創(chuàng)新互聯(lián),貢山網(wǎng)站設計制作,有大型網(wǎng)站制作公司豐富經(jīng)驗。已為貢山1000多家提供企業(yè)網(wǎng)站建設服務。企業(yè)網(wǎng)站搭建\成都外貿(mào)網(wǎng)站制作要多少錢,請找那個售后服務好的貢山做網(wǎng)站的公司定做!
Apache HBase是基于Apache Hadoop構建的一個分布式、可伸縮的Key-Value數(shù)據(jù)庫,它提供了大數(shù)據(jù)背景下的高性能的隨機讀寫能力。做為最早研究、使用和二次開發(fā)HBase技術的中國公司,阿里巴巴從2010年就開始使用HBase,經(jīng)過近7年的發(fā)展,現(xiàn)在采用HBase存儲的業(yè)務已經(jīng)超過1000+,擁有了上萬臺的HBase集群規(guī)模,在HBase上存儲的數(shù)據(jù)已達PB級。秉承開源和分享的精神,阿里把HBase的實踐經(jīng)驗和改進不斷回饋HBase社區(qū),比如說Bucket Cache和Reverse Scan等功能,給HBase技術發(fā)展帶來了非常深遠的影響。同時,也給HBase社區(qū)培養(yǎng)了2名PMC和2名Committer,阿里在HBase社區(qū)的影響力可見一斑。那么這次HBaseCon 2017 Asia。阿里派出了一位HBase PMC和2位Committer,還有兩位資深的HBase開發(fā),給大家?guī)砹耸愕母韶洝?/p>
阿里干貨系列
一、強同步復制
傳統(tǒng)的HBase主備集群同步使用的方案是異步復制,這使得主備集群數(shù)據(jù)之間會有短暫的數(shù)據(jù)不同步現(xiàn)象。用戶為了災備,不得不放棄強一致模型。沒法放棄強一致語義的用戶,必須自己寫一套復雜的邏輯來保證主備集群之間數(shù)據(jù)的讀寫一致性。阿里的HBase技術專家天引,在此次的HBaseCon Asia上給大家?guī)砹藦娡綇椭品桨浮?/p>
據(jù)天引介紹,強同步復制方案采用了主備并發(fā)寫和RemoteLog技術,使得在同城網(wǎng)絡條件下同步復制相對于異步復制僅有2%的吞吐量下降。當一個請求到達主庫后,并發(fā)寫本地和備庫,到達備庫的同步寫不需要走完整的寫入路徑,而是直接寫入RemoteLog,降低同步寫開銷與延時。除了同步鏈路外,還有一套異步鏈路將數(shù)據(jù)從主庫復制到備庫,因此正常情況下不需要回放RemoteLog的數(shù)據(jù)到備庫,在主庫不可服務的情況下,只需要回放RemoteLog中那些還沒有被異步復制鏈路同步到備庫的數(shù)據(jù),異步復制只有幾秒鐘的數(shù)據(jù)延遲,這保證了可以在很短的時間內(nèi)完成從主庫到備庫的切換。
此方案在大會現(xiàn)場引起了強烈反響,很多HBase用戶表示這是他們期待已久的功能,希望能盡快使用上。天引表示此功能目前基于阿里內(nèi)部分支實現(xiàn)、運行及完善,未來將會回饋給社區(qū)。
二、SQL on HBase
阿里HBase服務了大量的內(nèi)部用戶,并持續(xù)有新用戶接入。但是使用HBase的用戶有很大一部分是從傳統(tǒng)的SQL數(shù)據(jù)庫轉(zhuǎn)過來的,HBase的rowkey設計和API的使用習慣對于他們來說并不友好。為了降低這些轉(zhuǎn)型用戶的使用門檻,阿里在HBase上引入了SQL層。來自阿里的資深HBase開發(fā)工程師天穆,給大家詳細講解了如何玩轉(zhuǎn)SQL on HBase。
通過優(yōu)化,現(xiàn)在在阿里使用SQL訪問HBase和原生API的速度已經(jīng)相差無幾,而且在SQL語法上,創(chuàng)造性地支持HBase多版本和時間戳等NoSQL才具有的功能。
另外,在HBase上同時支持了全局二級索引和本地二級索引。使用戶可以在多列上建立索引,簡化了業(yè)務的設計,提升了請求效率,降低了使用成本。
三、跨集群分區(qū)拷貝
HBase上通常承載著海量的數(shù)據(jù),而在日常生產(chǎn)過程中,隨著業(yè)務的發(fā)展和公司數(shù)據(jù)中心的規(guī)劃等原因,這些海量數(shù)據(jù)需要經(jīng)常搬遷,這通常對于運維來說是一個非常頭疼的問題。來自阿里的HBase社區(qū)Committer正研,分享了阿里跨集群分區(qū)拷貝的場景和成熟解決方案。
正研首先介紹了在阿里內(nèi)部常見的需要數(shù)據(jù)拷貝的場景,比如說新建數(shù)據(jù)中心,HBase集群需要整體搬遷到新的機房;又比如說不同機房內(nèi)的HBase集群的增量數(shù)據(jù)同步,可以用replication來解決,但是對于存量數(shù)據(jù),目前還沒有比較高效的方案;另外還一個常見場景就是數(shù)據(jù)恢復,而傳統(tǒng)的HBase備份還原工具都沒法控制數(shù)據(jù)恢復的范圍。
因此,阿里研發(fā)了Range Data Copy功能內(nèi)置在HBase中,提供了一個簡單高效,而且能夠自動處理各種錯誤情況和災難恢復的數(shù)據(jù)拷貝功能,使用這個功能拷貝一張200TB的表到另外一個集群,所需時間不到5小時。
四、讀寫鏈路優(yōu)化
在阿里使用HBase的過程中,對HBase本身做了非常多的讀寫性能優(yōu)化。來自阿里的HBase社區(qū)PMC絕頂和Committer天照,一起給大家分享了阿里在這方面所取得的一些成果。
1、使用Netty替代HBase原生的RPC server,大大提升了HBaseRPC的吞吐能力,降低了延遲 ;
2、 引入新的HFileBlock編碼格式,把順序搜索變成了二分查找,提高了HBase隨機讀的能力
3、拆分寫鏈路,釋放阻塞的handler資源,提高了HBase寫的吞吐能力 ;
來自阿里的這些優(yōu)化黑科技,使HBase的能力又更上一個新臺階。并且這些優(yōu)化和功能目前已經(jīng)回饋給了社區(qū),所有的HBase用戶都能在新版本的使用獲得這些技術紅利。
總結
除了阿里帶來的技術分享,現(xiàn)場許多其他公司也都帶來了他們對HBase做出的改進和使用經(jīng)驗。比如說小米實現(xiàn)了AsyncClient,填補了HBase沒有原生異步API的缺口;知乎使用kubernetes自動擴容縮容HBase集群,靈活地適應業(yè)務高速發(fā)展和瞬息萬變;烽火網(wǎng)絡隔離讀寫資源使近線查詢更加穩(wěn)定等等。
除了上述提到的這幾個亮點技術分享,此次HBaseCon大會的每一個session都非常精彩,給大家?guī)砹艘粓鲇忠粓鏊季S碰撞的盛宴。Apache HBase“掌門人”Michael Stack也參加了此次會議,并與HBase開發(fā)者們舉行了一次圓桌會議,共同探討HBase的現(xiàn)狀和未來。
這次HBaseCon的火爆程度,直接展示了國內(nèi)企業(yè)和開發(fā)者們對HBase熱情和期望。HBaseCon大會不僅給HBase的使用者們帶來了***鮮的技術進展,互通有無,吸收其他公司的先進經(jīng)驗;也成為HBase使用者和開發(fā)者之間溝通的橋梁,能讓開發(fā)者們看到業(yè)界動態(tài),用戶的需求,共同把HBase打造成一個更加易用,更高性能,更穩(wěn)定的大數(shù)據(jù)存儲。這次HBaseCon大會是一個很好的開端,期望HBaseCon Asia越辦越好,給大家?guī)砀嗟母韶?
***
如果你對大數(shù)據(jù)在線存儲、對HBase感興趣,或者是想更好地使用HBase、開發(fā)更NB的產(chǎn)品,歡迎聯(lián)系我們(正研,[email protected]),一起交流,互相學習!
作者簡介:
楊文龍,花名正研,阿里巴巴存儲技術事業(yè)部資深研發(fā),HBase開源社區(qū)Committer。開源技術愛好者,對分布式存儲系統(tǒng)的設計、實踐具備豐富的大規(guī)模生產(chǎn)的經(jīng)驗。
網(wǎng)頁題目:阿里5位嘉賓3個分享:HBaseConAsia2017干貨滿滿
文章源于:http://fisionsoft.com.cn/article/dhehccc.html


咨詢
建站咨詢
