Hadoop2.X/YARN环境搭建--CentOS7.0 JDK配置
环境准备
- 系统:CentOS 7.0
- JDK版本:Java 1.8
JDK配置
- 下载JDK:在官网下载JDK安装包,或者使用yum命令安装:
sudo yum install java-1.8.0-openjdk-devel
- 配置环境变量:在
/etc/profile
文件中添加以下内容:
shell
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
- 使配置文件生效:
source /etc/profile
- 验证JDK是否配置成功:
java -version
如果能够输出正确的版本信息,则说明配置成功。
Hadoop2.X/YARN环境搭建
- 下载并解压缩Hadoop:在官网下载Hadoop压缩包,将其解压缩到合适的目录。
shell
wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.10.1/hadoop-2.10.1.tar.gz
tar -zxvf hadoop-2.10.1.tar.gz -C /usr/local/
- 配置环境变量:在
/etc/profile
文件中添加以下内容:
shell
export HADOOP_HOME=/usr/local/hadoop-2.10.1
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
-
修改Hadoop配置文件:
-
修改
$HADOOP_HOME/etc/hadoop/hadoop-env.sh
文件:shell
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk -
修改
$HADOOP_HOME/etc/hadoop/core-site.xml
文件:xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop-2.10.1/tmp</value>
</property>
</configuration> -
修改
$HADOOP_HOME/etc/hadoop/hdfs-site.xml
文件:xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop-2.10.1/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop-2.10.1/dfs/data</value>
</property>
</configuration> -
修改
$HADOOP_HOME/etc/hadoop/mapred-site.xml
文件:如果没有该文件,则需要自己创建。xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>yarn.app.mapreduce.am.env</name>
<value>HADOOP_MAPRED_HOME=/usr/local/hadoop-2.10.1</value>
</property>
</configuration> -
修改
$HADOOP_HOME/etc/hadoop/yarn-site.xml
文件:xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration> -
格式化HDFS:在命令行输入以下命令:
shell
hdfs namenode -format
- 启动Hadoop:在命令行输入以下命令:
shell
start-all.sh
- 验证Hadoop是否启动成功:在浏览器中输入
http://localhost:8088/
,可以看到YARN的信息页面。
示例说明:
示例1:上传文件到HDFS
假设现在要上传一个文件到HDFS上,可以使用以下命令:
hdfs dfs -put /本地文件路径 /HDFS文件路径
例如上传一个文件test.txt
到HDFS的/data/input
目录下:
hdfs dfs -put ~/test.txt /data/input
示例2:运行Hadoop自带的WordCount例子
Hadoop自带一个WordCount例子程序,可以用于统计文本中各单词出现的次数。
首先需要将例子程序拷贝到HDFS上:
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar wordcount /data/input /data/output
上述命令的含义是运行Hadoop自带的WordCount程序,输入文件为HDFS上的/data/input
目录,输出文件为HDFS上的/data/output
目录。
然后查看输出结果:
hdfs dfs -cat /data/output/*
输出结果为每个单词以及其出现的次数。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Hadoop2.X/YARN环境搭建–CentOS7.0 JDK配置 - Python技术站