新聞中心
大數(shù)據(jù)究竟是什么?大數(shù)據(jù)有哪些技術(shù)呢?
大數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越成為數(shù)據(jù)的主要部分。據(jù)IDC的調(diào)查報(bào)告顯示:企業(yè)中80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)每年都按指數(shù)增長60%。 [6] 大數(shù)據(jù)就是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征而已,沒有必要神話它或?qū)λ3志次分?,在以云?jì)算為代表的技術(shù)創(chuàng)新大幕的襯托下,這些原本看起來很難收集和使用的數(shù)據(jù)開始容易被利用起來了,通過各行各業(yè)的不斷創(chuàng)新,大數(shù)據(jù)會(huì)逐步為人類創(chuàng)造更多的價(jià)值。

海城網(wǎng)站建設(shè)公司創(chuàng)新互聯(lián)建站,海城網(wǎng)站設(shè)計(jì)制作,有大型網(wǎng)站制作公司豐富經(jīng)驗(yàn)。已為海城上千余家提供企業(yè)網(wǎng)站建設(shè)服務(wù)。企業(yè)網(wǎng)站搭建\成都外貿(mào)網(wǎng)站建設(shè)公司要多少錢,請(qǐng)找那個(gè)售后服務(wù)好的海城做網(wǎng)站的公司定做!
想要系統(tǒng)的認(rèn)知大數(shù)據(jù),必須要全面而細(xì)致的分解它,著手從三個(gè)層面來展開:
第一層面是理論,理論是認(rèn)知的必經(jīng)途徑,也是被廣泛認(rèn)同和傳播的基線。在這里從大數(shù)據(jù)的特征定義理解行業(yè)對(duì)大數(shù)據(jù)的整體描繪和定性;從對(duì)大數(shù)據(jù)價(jià)值的探討來深入解析大數(shù)據(jù)的珍貴所在;洞悉大數(shù)據(jù)的發(fā)展趨勢(shì);從大數(shù)據(jù)隱私這個(gè)特別而重要的視角審視人和數(shù)據(jù)之間的長久博弈。
第二層面是技術(shù),技術(shù)是大數(shù)據(jù)價(jià)值體現(xiàn)的手段和前進(jìn)的基石。在這里分別從云計(jì)算、分布式處理技術(shù)、存儲(chǔ)技術(shù)和感知技術(shù)的發(fā)展來說明大數(shù)據(jù)從采集、處理、存儲(chǔ)到形成結(jié)果的整個(gè)過程。
第三層面是實(shí)踐,實(shí)踐是大數(shù)據(jù)的最終價(jià)值體現(xiàn)。在這里分別從互聯(lián)網(wǎng)的大數(shù)據(jù),政府的大數(shù)據(jù),企業(yè)的大數(shù)據(jù)和個(gè)人的大數(shù)據(jù)四個(gè)方面來描繪大數(shù)據(jù)已經(jīng)展現(xiàn)的美好景象及即將實(shí)現(xiàn)的藍(lán)圖。
就以悟空問答為例說說大數(shù)據(jù)的故事。以下說的數(shù)字都不是真實(shí)的,都是我的假設(shè)。
比如每天都有1億的用戶在悟空問答上回答問題或者閱讀問答。
假設(shè)平均有1000萬的用戶每天回答一個(gè)問題。一個(gè)問題平均有1000的字, 平均一個(gè)漢字占2個(gè)字節(jié)byte,三張圖片, 平均一帳圖片300KB。那么一天的數(shù)據(jù)量就是:
文字總量:10,000,000 * 1,000 * 2 B = 20 GB
圖片總量: 10,000,000 * 3 * 300KB = 9 TB
為了收集用戶行為,所有的進(jìn)出悟空問答頁面的用戶。點(diǎn)擊,查詢,停留,點(diǎn)贊,轉(zhuǎn)發(fā),收藏都會(huì)產(chǎn)生一條記錄存儲(chǔ)下來。這個(gè)量級(jí)更大。
所以粗略估計(jì)一天20TB的數(shù)據(jù)量. 一般的PC電腦配置大概1TB,一天就需要20臺(tái)PC的存儲(chǔ)。
如果一個(gè)月的,一年的數(shù)據(jù)可以算一下有多少。傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)在量上就很難做到。
另外這些數(shù)據(jù)都是文檔類型的數(shù)據(jù)。需要各種不同的存儲(chǔ)系統(tǒng)支持,比如NoSQL數(shù)據(jù)庫。
我有幸做了有五六七八年的大數(shù)據(jù)吧,談?wù)勛约旱目捶?。簡單來說,就是現(xiàn)在各個(gè)APP,網(wǎng)站產(chǎn)生的數(shù)據(jù)越來越多,越來越大,傳統(tǒng)的數(shù)據(jù)庫比如MySQL Oracle之類的,已經(jīng)處理不過來了。所以就產(chǎn)生了大數(shù)據(jù)相關(guān)的技術(shù)來處理這些龐大的數(shù)據(jù)。
第一,首先要把這些大數(shù)據(jù)都可靠的存儲(chǔ)起來,經(jīng)過多年的發(fā)展,hdfs已經(jīng)成了一個(gè)數(shù)據(jù)存儲(chǔ)的標(biāo)準(zhǔn)。
第二,既然有了這么多的數(shù)據(jù),我們可以開始基于這些數(shù)據(jù)做計(jì)算了,于是從最早的MapReduce到后來的hive,spark,都是做批處理的。
第三, 由于像hive這些基于MapReduce的引擎處理速度過慢,于是有了基于內(nèi)存的olap查詢引擎,比如impala,presto。
第四,由于批處理一般都是天級(jí)別或者小時(shí)級(jí)別的,為了更快的處理數(shù)據(jù),于是有了spark streaming或者flink這樣的流處理引擎。
第五,由于沒有一個(gè)軟件能覆蓋住所有場(chǎng)景。所以針對(duì)不同的領(lǐng)域,有了一些特有的軟件,來解決特定場(chǎng)景下的問題,比如基于時(shí)間序列的聚合分析查詢數(shù)據(jù)庫,inflexdb opentsdb等。采用預(yù)聚合數(shù)據(jù)以提高查詢的druid或者kylin等,
第六,還有其他用于數(shù)據(jù)削峰和消費(fèi)訂閱的消息隊(duì)列,比如kafka和其他各種mq
第七,還有一些其他的組件,比如用于資源管理的yarn,協(xié)調(diào)一致性的zookeeper等。
第八,由于hdfs 處理小文件問題不太好,還有為了解決大數(shù)據(jù)update和insert等問題,引入了數(shù)據(jù)湖的概念,比如hudi,iceberg等等。
第九,業(yè)務(wù)方面,我們基于大數(shù)據(jù)做一些計(jì)算,給公司的運(yùn)營提供數(shù)據(jù)支撐。做一些推薦,給用戶做個(gè)性化推薦。機(jī)器學(xué)習(xí),報(bào)警監(jiān)控等等。
到此,以上就是小編對(duì)于mongodb查詢速度慢的問題就介紹到這了,希望這1點(diǎn)解答對(duì)大家有用。
分享標(biāo)題:大數(shù)據(jù)究竟是什么?大數(shù)據(jù)有哪些技術(shù)呢?(mongodb查詢時(shí)快時(shí)慢怎么解決)
本文網(wǎng)址:http://fisionsoft.com.cn/article/cocgdid.html


咨詢
建站咨詢
