新聞中心
什么是Hadoop?
Hadoop是一個(gè)開(kāi)源的分布式存儲(chǔ)和計(jì)算框架,它可以在大規(guī)模數(shù)據(jù)集上進(jìn)行高效的分布式處理,Hadoop的核心組件包括HDFS(Hadoop Distributed FileSystem)和MapReduce,HDFS是一個(gè)高度容錯(cuò)的分布式文件系統(tǒng),可以在廉價(jià)的硬件上提供高吞吐量的數(shù)據(jù)訪(fǎng)問(wèn),MapReduce是一種編程模型,用于處理和生成大型數(shù)據(jù)集,通過(guò)將計(jì)算任務(wù)分布到集群中的多個(gè)節(jié)點(diǎn)上,Hadoop可以有效地處理大量數(shù)據(jù)。

如何安裝Hadoop?
1、下載Hadoop安裝包
從Apache Hadoop官網(wǎng)下載相應(yīng)版本的Hadoop安裝包:https://hadoop.apache.org/releases.html
2、解壓安裝包
將下載的壓縮包解壓到指定目錄,/usr/local/hadoop
3、配置環(huán)境變量
編輯~/.bashrc文件,添加以下內(nèi)容:
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
然后執(zhí)行source ~/.bashrc使配置生效。
4、配置Hadoop
編輯$HADOOP_HOME/etc/hadoop/core-site.xml文件,添加以下內(nèi)容:
fs.defaultFS hdfs://localhost:9000
編輯$HADOOP_HOME/etc/hadoop/hdfs-site.xml文件,添加以下內(nèi)容:
dfs.replication 1
5、格式化HDFS
執(zhí)行以下命令格式化HDFS:
$HADOOP_HOME/bin/hdfs namenode -format
6、啟動(dòng)Hadoop集群
執(zhí)行以下命令啟動(dòng)Hadoop集群:
$HADOOP_HOME/sbin/start-all.sh
7、驗(yàn)證Hadoop是否安裝成功
執(zhí)行以下命令查看Hadoop集群狀態(tài):
$HADOOP_HOME/bin/jps
如果看到NameNode、DataNode等進(jìn)程,則說(shuō)明Hadoop安裝成功。
如何引入第三方j(luò)ar包?
在Hadoop中引入第三方j(luò)ar包有兩種方法:一種是將jar包復(fù)制到Hadoop的lib目錄下;另一種是使用Hadoop的類(lèi)加載器機(jī)制動(dòng)態(tài)加載jar包,下面分別介紹這兩種方法。
1、將jar包復(fù)制到Hadoop的lib目錄下
將需要引入的第三方j(luò)ar包復(fù)制到Hadoop的lib目錄下,/usr/local/hadoop/lib,在運(yùn)行MapReduce作業(yè)時(shí),使用-libjars參數(shù)指定需要加載的jar包,
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-*.jar
-files hdfs://localhost:9000/user/input.txt
-files hdfs://localhost:9000/user/output.txt
-mapper "python my_mapper.py"
-reducer "python my_reducer.py"
-inputformat org.apache.hadoop.mapred.TextInputFormat
-outputformat org.apache.hadoop.mapred.TextOutputFormat
-jobconf mapred.job.name="my_job"
-libjars /usr/local/hadoop/lib/*.jar
-verbose
hdfs://localhost:9000/user/my_job_output
2、使用Hadoop的類(lèi)加載器機(jī)制動(dòng)態(tài)加載jar包
在運(yùn)行MapReduce作業(yè)時(shí),可以使用-archives參數(shù)指定需要加載的jar包,
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-*.jar
-files hdfs://localhost:9000/user/input.txt
-files hdfs://localhost:9000/user/output.txt
-mapper "python my_mapper.py"
-reducer "python my_reducer.py"
-inputformat org.apache.hadoop.mapred.TextInputFormat
-outputformat org.apache.hadoop.mapred.TextOutputFormat
-jobconf mapred.job.name="my_job"
-archives hdfs://localhost:9000/user/my_job_input.zip,hdfs://localhost:9000/user/my_job_output.zip
-verbose
hdfs://localhost:9000/user/my_job_output
hdfs://localhost:9000/user/my_job_input.zip和hdfs://localhost:9000/user/my_job_output.zip分別是需要加載的兩個(gè)jar包,它們的路徑可以是本地文件系統(tǒng)或者HDFS上的路徑,注意,這兩個(gè)jar包必須是zip格式。
當(dāng)前標(biāo)題:hadoop2.2.0第三方j(luò)ar包引入的操作方法
當(dāng)前網(wǎng)址:http://fisionsoft.com.cn/article/cccppdp.html


咨詢(xún)
建站咨詢(xún)
