新聞中心
“最近看到一句話:“架構(gòu)設(shè)計的關(guān)鍵思維是判斷和取舍,程序設(shè)計的關(guān)鍵思維是邏輯和實現(xiàn)”,深以為然!
文 | 個推CTO Anson
創(chuàng)新互聯(lián)堅持“要么做到,要么別承諾”的工作理念,服務(wù)領(lǐng)域包括:成都做網(wǎng)站、網(wǎng)站制作、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣等服務(wù),滿足客戶于互聯(lián)網(wǎng)時代的萬柏林網(wǎng)站設(shè)計、移動媒體設(shè)計的需求,幫助企業(yè)找到有效的互聯(lián)網(wǎng)解決方案。努力成為您成熟可靠的網(wǎng)絡(luò)建設(shè)合作伙伴!
引言
前文回顧:《數(shù)據(jù)智能時代來臨:本質(zhì)及技術(shù)體系要求》作為本系列的第一篇文章,概括性地闡述了對于數(shù)據(jù)智能的理解以及推出了對應(yīng)的核心技術(shù)體系要求:
數(shù)據(jù)智能就是以數(shù)據(jù)作為生產(chǎn)資料,通過結(jié)合大規(guī)模數(shù)據(jù)處理、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、人機(jī)交互、可視化等多種技術(shù),從大量的數(shù)據(jù)中提煉、發(fā)掘、獲取知識,為人們在基于數(shù)據(jù)制定決策時提供有效的智能支持,減少或者消除不確定性。
從對數(shù)據(jù)智能的定義來看,數(shù)據(jù)智能的技術(shù)體系至少需要包含幾個方面,見下圖所示:
▲數(shù)據(jù)智能技術(shù)體系構(gòu)成
其中數(shù)據(jù)資產(chǎn)治理、數(shù)據(jù)質(zhì)量保證、數(shù)據(jù)智能下的安全計算體系會在后續(xù)的系列文章中重點闡述。
然而最近在實際工作中,發(fā)現(xiàn)大家對于如何處理多維數(shù)據(jù)進(jìn)行分析以解決實際業(yè)務(wù)問題方面存在一些實實在在的困擾,特別是對于選擇什么樣的底層系統(tǒng)無所適從,畢竟有資源給大家進(jìn)行試驗的公司并不是太多。
故此我和團(tuán)隊一起研究,同時也借鑒了外部的一些資料,針對這個議題撰寫了本系列的第二篇文章,主要圍繞“多維度分析系統(tǒng)的選型方法”的主題,供大家參考,希望能縮短大家的決策時間。
正文內(nèi)容
分析系統(tǒng)的考量要素
CAP 理論大家都已經(jīng)比較熟悉, C.A.P 之間無法兼得,只能有所取舍。在分析系統(tǒng)中同樣需要在三個要素間進(jìn)行取舍和平衡,三要素分別是數(shù)據(jù)量、靈活性以及性能。
▲分析系統(tǒng)考量三要素
有的系統(tǒng)在數(shù)據(jù)量達(dá)到一定數(shù)量,譬如超過P級別后,在資源不變情況下,就無法滿足處理要求了,哪怕是一個簡單的分析需求。
靈活性主要指操作數(shù)據(jù)時的方式是否靈活,比如對于一般的分析師而言,使用SQL來操作是首選,沒有太多的約束,如果使用特定領(lǐng)域的語言 (DSL) 相對就比較受限;另外一個意思是操作是否受預(yù)先條件的限制,譬如是否支持在多個維度下進(jìn)行靈活的即席(Ad-Hoc)查詢;最后一個就是性能要求,是否滿足多并發(fā)操作、能否在秒級進(jìn)行響應(yīng)。
數(shù)據(jù)查詢的過程分析
對數(shù)據(jù)進(jìn)行聚合類型的查詢時,一般按照以下三個步驟進(jìn)行:
▲實時查詢過程
首先,需要用索引檢索出數(shù)據(jù)所對應(yīng)的行號或者索引位置,要求能夠從上億條數(shù)據(jù)中快速過濾出幾十萬或幾百萬的數(shù)據(jù)。這方面是搜索引擎最擅長的領(lǐng)域,因為一般關(guān)系型數(shù)據(jù)庫擅長用索引檢索出比較精確的少量數(shù)據(jù)。
然后從主存儲按行號或者位置進(jìn)行具體數(shù)據(jù)的加載,要求能夠快速加載這過濾出的幾十上百萬條數(shù)據(jù)到內(nèi)存里。這方面是分析型數(shù)據(jù)庫最擅長的領(lǐng)域,因為一般它們采用列式存儲,有的還會采用mmap的方式來加快數(shù)據(jù)的處理。
最后進(jìn)行分布式計算,能夠把這些數(shù)據(jù)按照GROUP BY和SELECT的要求計算出最終的結(jié)果集。而這是大數(shù)據(jù)計算引擎最擅長的領(lǐng)域,如Spark、Hadoop等。
架構(gòu)的比較和分析
結(jié)合以上兩方面的要素,在架構(gòu)方面目前主要是三類:
MPP (Massively Parallel Processing)
基于搜索引擎的架構(gòu)
預(yù)計算系統(tǒng)架構(gòu)
MPP架構(gòu)
傳統(tǒng)的RDBMS在ACID方面具有絕對的優(yōu)勢。在大數(shù)據(jù)時代中,如果你的數(shù)據(jù)大部分依然還是結(jié)構(gòu)化的數(shù)據(jù),并且數(shù)據(jù)并不是如此巨大的話,不一定非要采用類似Hadoop這樣的平臺,自然也可以采用分布式的架構(gòu)來滿足數(shù)據(jù)規(guī)模的增長,并且去解決數(shù)據(jù)分析的需求,同時還可以用我們熟悉的SQL來進(jìn)行操作。
這個架構(gòu)就是MPP(Massively Parallel Processing)–大規(guī)模并行處理。
當(dāng)然實際上MPP只是一個架構(gòu),其底層未必一定是RDBMS, 而可以是架設(shè)在Hadoop底層設(shè)施并且加上分布式查詢引擎(由Query Planner、Query Coordinator和Query Exec Engine等組成),不使用MapReduce這樣的批處理方式。
這個架構(gòu)下的系統(tǒng)有:Greenplum、Impala、Drill、Shark等,其中Greenplum (一般簡稱GP) 使用PostgreSQL作為底層數(shù)據(jù)庫引擎。
基于搜索引擎的架構(gòu)
相對比MPP系統(tǒng),搜索引擎在進(jìn)行數(shù)據(jù)(文檔)入庫時將數(shù)據(jù)轉(zhuǎn)換為倒排索引,使用Term Index、Term Dictionary、Posting 三級結(jié)構(gòu)建立索引,同時采用一些壓縮技術(shù)來進(jìn)行空間的節(jié)省。
這些數(shù)據(jù)(文檔)會通過一定的規(guī)則(譬如對文檔ID進(jìn)行哈希算法)分散到各個節(jié)點上。在進(jìn)行數(shù)據(jù)檢索的時候,采用Scatter-Gather計算模型,在各個節(jié)點上分別進(jìn)行處理后,集中到發(fā)起搜索的節(jié)點進(jìn)行最終聚合。
這個架構(gòu)下的系統(tǒng)主要有:ElasticSearch、Solr,一般采用DSL進(jìn)行操作。
預(yù)計算系統(tǒng)架構(gòu)
類似Apache Kylin這樣的系統(tǒng)就是預(yù)計算系統(tǒng)架構(gòu)。其在數(shù)據(jù)入庫時對數(shù)據(jù)進(jìn)行預(yù)聚合,通過事先建立一定的模型,對數(shù)據(jù)進(jìn)行預(yù)先的處理,形成“物化視圖”或者數(shù)據(jù)Cube,這樣對于數(shù)據(jù)的大部分處理實際是在查詢階段之前就完成了,查詢階段相當(dāng)于進(jìn)行二次加工。
這個架構(gòu)下的系統(tǒng)主要有: Kylin,Druid。雖然Kylin和Druid都屬于預(yù)計算系統(tǒng)架構(gòu),兩者之間還是有不少差別。
Kylin是使用Cube的方式來進(jìn)行預(yù)計算(支持SQL方式),一旦模型確定,要去修改的成本會比較大,基本上需要重新計算整個Cube,而且預(yù)計算不是隨時進(jìn)行,是按照一定策略進(jìn)行,這個也限制了其作為實時數(shù)據(jù)查詢的要求。
而Druid 更加適合做實時計算、即席查詢(目前還不支持SQL),它采用Bitmap作為主要索引方式,因此可以很快地進(jìn)行數(shù)據(jù)的篩選及處理,但是對于復(fù)雜的查詢來說, 性能上比Kylin要差。
基于上面的分析,Kylin一般主推超大數(shù)據(jù)量下的離線的OLAP引擎,Druid是主推的大數(shù)據(jù)量下的實時OLAP引擎。
三種架構(gòu)的對比
MPP架構(gòu)的系統(tǒng):
有很好的數(shù)據(jù)量和靈活性支持,但是對響應(yīng)時間是沒有必然保證的。當(dāng)數(shù)據(jù)量和計算復(fù)雜度增加后,響應(yīng)時間會變慢,從秒級到分鐘級,甚至小時級都有可能。
搜索引擎架構(gòu)的系統(tǒng):
相對比MPP系統(tǒng),犧牲了一些靈活性換取很好的性能,在搜索類查詢上能做到亞秒級響應(yīng)。但是對于掃描聚合為主的查詢,隨著處理數(shù)據(jù)量的增加,響應(yīng)時間也會退化到分鐘級。
預(yù)計算系統(tǒng):
在入庫時對數(shù)據(jù)進(jìn)行預(yù)聚合,進(jìn)一步犧牲靈活性換取性能,以實現(xiàn)對超大數(shù)據(jù)集的秒級響應(yīng)。
結(jié)合上面的分析,以上三種分別是:
對于數(shù)據(jù)量的支持從小到大
靈活性從大到小
性能隨數(shù)據(jù)量變大從低到高
因此,我們可以基于實際業(yè)務(wù)數(shù)據(jù)量的大小、對于靈活性和性能的要求綜合來進(jìn)行考慮。譬如采用GP可能就能滿足大部分公司的需要,采用Kylin可以滿足超大數(shù)據(jù)量的需求等。
結(jié)語
最近看到一句話:“架構(gòu)設(shè)計的關(guān)鍵思維是判斷和取舍,程序設(shè)計的關(guān)鍵思維是邏輯和實現(xiàn)”,深以為然!
未來,我們個推技術(shù)團(tuán)隊也將不斷探索多維度分析系統(tǒng)的選型方法,與大家共同探討,一如既往地為各位開發(fā)者提供更優(yōu)質(zhì)的服務(wù)。
更多內(nèi)容請關(guān)注:個推技術(shù)學(xué)院
當(dāng)前名稱:【個推CTO談數(shù)據(jù)智能】之多維度分析系統(tǒng)的選型方法
瀏覽地址:http://fisionsoft.com.cn/article/gsojod.html