Hadoop2.X/YARN环境搭建--CentOS7.0 JDK配置

环境准备

系统：CentOS 7.0
JDK版本：Java 1.8

JDK配置

下载JDK：在官网下载JDK安装包，或者使用yum命令安装：

sudo yum install java-1.8.0-openjdk-devel

配置环境变量：在/etc/profile文件中添加以下内容：

shell export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export PATH=$PATH:$JAVA_HOME/bin

使配置文件生效：

source /etc/profile

验证JDK是否配置成功：

java -version

如果能够输出正确的版本信息，则说明配置成功。

Hadoop2.X/YARN环境搭建

下载并解压缩Hadoop：在官网下载Hadoop压缩包，将其解压缩到合适的目录。

shell wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.10.1/hadoop-2.10.1.tar.gz tar -zxvf hadoop-2.10.1.tar.gz -C /usr/local/

配置环境变量：在/etc/profile文件中添加以下内容：

shell export HADOOP_HOME=/usr/local/hadoop-2.10.1 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

修改Hadoop配置文件：
修改$HADOOP_HOME/etc/hadoop/hadoop-env.sh文件：

shell export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
修改$HADOOP_HOME/etc/hadoop/core-site.xml文件：

xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/local/hadoop-2.10.1/tmp</value> </property> </configuration>
修改$HADOOP_HOME/etc/hadoop/hdfs-site.xml文件：

xml <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/usr/local/hadoop-2.10.1/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop-2.10.1/dfs/data</value> </property> </configuration>
修改$HADOOP_HOME/etc/hadoop/mapred-site.xml文件：如果没有该文件，则需要自己创建。

xml <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>yarn.app.mapreduce.am.env</name> <value>HADOOP_MAPRED_HOME=/usr/local/hadoop-2.10.1</value> </property> </configuration>
修改$HADOOP_HOME/etc/hadoop/yarn-site.xml文件：

xml <configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>localhost</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> </configuration>
格式化HDFS：在命令行输入以下命令：

shell hdfs namenode -format

启动Hadoop：在命令行输入以下命令：

shell start-all.sh

验证Hadoop是否启动成功：在浏览器中输入http://localhost:8088/，可以看到YARN的信息页面。

示例说明：

示例1：上传文件到HDFS

假设现在要上传一个文件到HDFS上，可以使用以下命令：

hdfs dfs -put /本地文件路径 /HDFS文件路径

例如上传一个文件test.txt到HDFS的/data/input目录下：

hdfs dfs -put ~/test.txt /data/input

示例2：运行Hadoop自带的WordCount例子

Hadoop自带一个WordCount例子程序，可以用于统计文本中各单词出现的次数。

首先需要将例子程序拷贝到HDFS上：

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar wordcount /data/input /data/output

上述命令的含义是运行Hadoop自带的WordCount程序，输入文件为HDFS上的/data/input目录，输出文件为HDFS上的/data/output目录。

然后查看输出结果：

hdfs dfs -cat /data/output/*

输出结果为每个单词以及其出现的次数。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Hadoop2.X/YARN环境搭建–CentOS7.0 JDK配置 - Python技术站

Hadoop2.X/YARN环境搭建–CentOS7.0 JDK配置