欢乐颂小说txt,完美世界小说txt下载

新聞中心

這里有您想知道的互聯(lián)網營銷解決方案

如何選擇大數(shù)據(jù)的編程語言

前言

成都創(chuàng)新互聯(lián)是專業(yè)的肇源網站建設公司，肇源接單;提供成都網站建設、成都網站制作,網頁設計,網站設計,建網站,PHP網站建設等專業(yè)做網站服務;采用PHP框架,可快速的進行肇源網站開發(fā)網頁制作和功能擴展;專業(yè)做搜索引擎喜愛的網站,專業(yè)的做網站團隊,希望更多企業(yè)前來合作!

有一個大數(shù)據(jù)項目，你知道問題領域(problem domain)，也知道使用什么基礎設施，甚至可能已決定使用哪種框架來處理所有這些數(shù)據(jù)，但是有一個決定遲遲未能做出：我該選擇哪種語言?(或者可能更有針對性的問題是，我該迫使我的所有開發(fā)人員和數(shù)據(jù)科學家非要用哪種語言?)這個問題不會推遲太久，遲早要定奪。

分享之前我還是要推薦下我自己創(chuàng)建的大數(shù)據(jù)學習交流Qun531629188無論是大牛還是想轉行想學習的大學生小編我都挺歡迎，今天的已經資訊上傳到群文件，不定期分享干貨，包括我自己整理的一份最新的適合2018年學習的大數(shù)據(jù)教程，歡迎初學和進階中的小伙伴。

當然，沒有什么阻止得了你使用其他機制(比如XSLT轉換)來處理大數(shù)據(jù)工作。但通常來說，如今大數(shù)據(jù)方面有三種語言可以選擇：R、Python和Scala，外加一直以來屹立于企業(yè)界的Java。那么，你該選擇哪種語言?為何要選擇它，或者說何時選擇它?

下面簡要介紹了每種語言，幫助你做出合理的決定。

R經常被稱為是“統(tǒng)計人員為統(tǒng)計人員開發(fā)的一種語言”。如果你需要深奧的統(tǒng)計模型用于計算，可能會在CRAN上找到它――你知道，CRAN叫綜合R檔案網絡(Comprehensive R Archive Network)并非無緣無故。說到用于分析和標繪，沒有什么比得過ggplot2。而如果你想利用比你機器提供的功能還強大的功能，那可以使用SparkR綁定，在R上運行Spark。

然而，如果你不是數(shù)據(jù)科學家，之前也沒有用過Matlab、SAS或OCTAVE，可能需要一番調整，才能使用R來高效地處理。雖然R很適合分析數(shù)據(jù)，但是就一般用途而言不太擅長。你可以用R構建模型，但是你需要考慮將模型轉換成Scala或Python，才能用于生產環(huán)境，你不太可能使用這種語言編寫一種集群控制系統(tǒng)(運氣好的話，你可以對它進行調試)。

Python

如果你的數(shù)據(jù)科學家不使用R，他們可能就會徹底了解Python。十多年來，Python在學術界當中一直很流行，尤其是在自然語言處理(NLP)等領域。因而，如果你有一個需要NLP處理的項目，就會面臨數(shù)量多得讓人眼花繚亂的選擇，包括經典的NTLK、使用GenSim的主題建模，或者超快、準確的spaCy。同樣，說到神經網絡，Python同樣游刃有余，有Theano和Tensorflow;隨后還有面向機器學習的scikit-learn，以及面向數(shù)據(jù)分析的NumPy和Pandas。

還有Juypter/iPython――這種基于Web的筆記本服務器框架讓你可以使用一種可共享的日志格式，將代碼、圖形以及幾乎任何對象混合起來。這一直是Python的殺手級功能之一，不過這年頭，這個概念證明大有用途，以至于出現(xiàn)在了奉行讀取-讀取-輸出-循環(huán)(REPL)概念的幾乎所有語言上，包括Scala和R。

Python往往在大數(shù)據(jù)處理框架中得到支持，但與此同時，它往往又不是“一等公民”。比如說，Spark中的新功能幾乎總是出現(xiàn)在Scala/Java綁定的首位，可能需要用PySpark編寫面向那些更新版的幾個次要版本(對Spark Streaming/MLLib方面的開發(fā)工具而言尤為如此)。

與R相反，Python是一種傳統(tǒng)的面向對象語言，所以大多數(shù)開發(fā)人員用起來會相當?shù)眯膽郑醮谓佑|R或Scala會讓人心生畏懼。一個小問題就是你的代碼中需要留出正確的空白處。這將人員分成兩大陣營，一派覺得“這非常有助于確?？勺x性”，另一派則認為，2016年，我們應該不需要就因為一行代碼有個字符不在適當?shù)奈恢?，就要迫使解釋器讓程序運行起來。

Scala

現(xiàn)在說說Scala：在本文介紹的四種語言中，Scala是最輕松的語言，因為大家都欣賞其類型系統(tǒng)。Scala在JVM上運行，基本上成功地結合了函數(shù)范式和面向對象范式，目前它在金融界和需要處理海量數(shù)據(jù)的公司企業(yè)中取得了巨大進展，常常采用一種大規(guī)模分布式方式來處理(比如Twitter和LinkedIn)。它還是驅動Spark和Kafka的一種語言。

由于Scala在JVM里面運行，它可以立即隨意訪問Java生態(tài)系統(tǒng)，不過它也有一系列廣泛的“原生”庫，用于處理大規(guī)模數(shù)據(jù)(尤其是Twitter的Algebird和Summingbird)。它還包括一個使用非常方便的REPL，用于交互式開發(fā)和分析，就像使用Python和R那樣。

我個人非常喜歡Scala，因為它包括許多實用的編程功能，比如模式匹配，而且被認為比標準的Java簡潔得多。然而，用Scala來開發(fā)不止一種方法，這種語言將此作為一項特色來宣傳。這是好事!不過考慮到它擁有圖靈完備(Turing-complete)的類型系統(tǒng)和各種彎彎曲曲的運算符(“/:”代表foldLeft，“:”代表foldRight)，很容易打開Scala文件，以為你看到的是某段討厭的Perl代碼。這就需要在編寫Scala時遵循一套好的實踐和準則(Databricks的就很合理)。

另一個缺點是，Scala編譯器運行起來有點慢，以至于讓人想起以前“編譯!”的日子。不過，它有REPL、支持大數(shù)據(jù)，還有采用Jupyter和Zeppelin這一形式的基于Web的筆記本框架，所以我覺得它的許多小問題還是情有可原。

Java

最終，總是少不了Java――這種語言沒人愛，被遺棄，歸一家只有通過起訴谷歌才有錢可賺時才似乎關心它的公司(注：Oracle)所有，完全不時髦。只有企業(yè)界的無人機才使用Java!不過，Java可能很適合你的大數(shù)據(jù)項目。想一想Hadoop MapReduce，它用Java編寫。HDFS呢?也用Java來編寫。連Storm、Kafka和Spark都可以在JVM上運行(使用Clojure和Scala)，這意味著Java是這些項目中的“一等公民”。另外還有像Google Cloud Dataflow(現(xiàn)在是Apache Beam)這些新技術，直到最近它們還只支持Java。

Java也許不是搖滾明星般備受喜愛的首選語言。但是由于研發(fā)人員在竭力理清Node.js應用程序中的一套回調，使用Java讓你可以訪問一個龐大的生態(tài)系統(tǒng)(包括分析器、調試器、監(jiān)控工具以及確保企業(yè)安全和互操作性的庫)，以及除此之外的更多內容，大多數(shù)內容在過去二十年已久經考驗(很遺憾，Java今年迎來21歲，我們都老矣)。

炮轟Java的一個主要理由是，非常繁瑣冗長，而且缺少交互式開發(fā)所需的REPL(R、Python和Scala都有)。我見過10行基于Scala的Spark代碼迅速變成用Java編寫的變態(tài)的200行代碼，還有龐大的類型語句，它們占據(jù)了屏幕的大部分空間。然而，Java 8中新的Lambda支持功能對于改善這種情況大有幫助。Java從來不會像Scala那么緊湊，但是Java 8確確實實使得用Java進行開發(fā)不那么痛苦。

至于REPL?好吧，目前還沒有。明年推出的Java 9會包括JShell，有望滿足你的所有REPL要求。

哪種語言勝出?

你該使用哪種語言用于大數(shù)據(jù)項目?恐怕這還得“視情況而定”。如果你對晦澀的統(tǒng)計運算進行繁重的數(shù)據(jù)分析工作，那么你不青睞R才怪。如果你跨GPU進行NLP或密集的神經網絡處理，那么Python是很好的選擇。如果想要一種加固的、面向生產環(huán)境的數(shù)據(jù)流解決方案，又擁有所有重要的操作工具，Java或Scala絕對是出色的選擇。

當然，不一定非此即彼。比如說，如果使用Spark，你可以借助靜態(tài)數(shù)據(jù)，使用R或Python來訓練模型和機器學習管道(pipeline)，然后對該管道進行序列化處理，倒出到存儲系統(tǒng)，那里它可以供你的生產Scala Spark Streaming應用程序使用。雖然你不應該過分迷戀某一種語言(不然你的團隊很快會產生語言疲勞)，使用一套發(fā)揮各自所長的異構語言也許會給大數(shù)據(jù)項目帶來成效。

當前名稱：如何選擇大數(shù)據(jù)的編程語言
鏈接URL：http://fisionsoft.com.cn/article/dhjhcjg.html

新聞中心

其他資訊