下面是“Linux下安装Hadoop集群详细步骤”的完整攻略:
步骤一:安装JDK和SSH
- 安装JDK(版本 1.8或以上):
$ sudo apt-get update
$ sudo apt-get install openjdk-8-jdk - 安装SSH:
$ sudo apt-get install ssh
步骤二:配置主机名和IP地址
- 打开/etc/hosts文件:
$ sudo nano /etc/hosts
- 添加以下内容,其中替换[IP地址]和[主机名]为你的实际IP地址和主机名:
[IP地址] [主机名]
- 保存并退出/etc/hosts文件。
步骤三:下载Hadoop并解压
- 下载Hadoop:
$ wget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
- 解压Hadoop:
$ tar -zxvf hadoop-3.3.1.tar.gz
- 将解压后的Hadoop文件夹移动到指定目录:
$ sudo mv hadoop-3.3.1 /usr/local/hadoop
步骤四:配置Hadoop环境变量
- 打开/etc/profile文件:
$ sudo nano /etc/profile
- 添加以下内容到文件的末尾:
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin - 保存并退出/etc/profile文件。
- 命令行输入以下命令使得刚才的配置生效:
$ source /etc/profile
步骤五:配置Hadoop
- 打开$HADOOP_HOME/etc/hadoop目录下的hadoop-env.sh文件:
$ sudo nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh
- 找到Java库的路径,确保下面代码所指的路径正确,如果你的Java版本不是1.8,请修改并配置好JAVA_HOME变量:
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
- 保存并退出hadoop-env.sh文件。
- 打开$HADOOP_HOME/etc/hadoop目录下的core-site.xml文件,添加以下配置:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://[主节点IP地址]:9000</value>
</property>
</configuration> - 打开$HADOOP_HOME/etc/hadoop目录下的hdfs-site.xml文件,添加以下配置:
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop/data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/local/hadoop/data/datanode</value>
</property>
</configuration> - 打开$HADOOP_HOME/etc/hadoop目录下的mapred-site.xml文件,添加以下配置:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.application.classpath</name>
<value>
$HADOOP_HOME/share/hadoop/mapreduce/*:$HADOOP_HOME/share/hadoop/mapreduce/lib/*:$HADOOP_HOME/share/hadoop/common/*:$HADOOP_HOME/share/hadoop/common/lib/*
</value>
</property>
</configuration> - 打开$HADOOP_HOME/etc/hadoop目录下的yarn-site.xml文件,添加以下配置:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
步骤六:格式化HDFS
- 运行以下命令格式化HDFS:
$ hdfs namenode -format
步骤七:启动Hadoop集群
- 执行以下命令启动Hadoop集群:
$ start-all.sh
- 等待Hadoop集群启动完成,可以通过以下命令查看Hadoop的状态:
$ jps
如果看到与Hadoop相关的进程,表示启动成功。
步骤八:测试Hadoop集群
- 创建一个HDFS目录并上传文件:
$ hdfs dfs -mkdir /input
$ hdfs dfs -put /etc/hosts /input - 运行MapReduce作业:
$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount /input /output
- 查看MapReduce作业的结果:
$ hdfs dfs -cat /output/*
以上就是“Linux下安装Hadoop集群详细步骤”的完整攻略。示例说明包括:
- 在步骤五中,示例展示了如何修改core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml文件;
- 在步骤八中,示例演示了如何创建HDFS目录、上传文件和运行MapReduce作业。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Linux下安装Hadoop集群详细步骤 - Python技术站