Linux下的如何快速安装Hadoop

安装Hadoop前,需要先安装Java和SSH。

安装Java

Hadoop需要Java环境支持。可以通过以下命令安装Java:

sudo apt-get update
sudo apt-get install openjdk-8-jdk

安装完成后,可以使用以下命令检查Java版本:

java -version

安装SSH

Hadoop要求在集群上可以无密码登录,需要安装SSH。

sudo apt-get install ssh

使用以下命令检查SSH服务是否正常启动:

sudo service ssh status

如果SSH服务未启动,则使用以下命令启动:

sudo service ssh start

安装Hadoop

接下来开始安装Hadoop。

  1. 下载Hadoop

下载Hadoop官方稳定版本:

shell
wget https://archive.apache.org/dist/hadoop/core/hadoop-3.2.2/hadoop-3.2.2.tar.gz

  1. 解压Hadoop文件

bash
tar -xvf hadoop-3.2.2.tar.gz -C /opt/
sudo mv /opt/hadoop-3.2.2/ /opt/hadoop/

  1. 配置Hadoop

bash
cd /opt/hadoop/etc/hadoop
sudo nano hadoop-env.sh

找到export JAVA_HOME行,将路径更改为Java路径:

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

找到export HADOOP_HOME行,将路径更改为Hadoop安装目录

export HADOOP_HOME=/opt/hadoop

配置Hadoop中所有节点的主机名和IP地址,打开core-site.xml文件并添加以下属性:

xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop/tmp</value>
</property>
</configuration>

打开hdfs-site.xml文件并配置数据目录:

xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/opt/hadoop/data/dfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/opt/hadoop/data/dfs/datanode</value>
</property>
<property>
<name>dfs.datanode.max.transfer.threads</name>
<value>4096</value>
</property>
</configuration>

打开mapred-site.xml文件并配置MapReduce框架:

xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

打开yarn-site.xml文件并配置YARN资源管理器和节点管理器:

xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>2592000</value>
</property>
<property>
<name>yarn.nodemanager.local-dirs</name>
<value>/opt/hadoop/yarnlocal</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
</configuration>

  1. 格式化Hadoop文件系统

在安装并配置Hadoop之后,需要格式化HDFS文件系统。使用以下命令:

bash
sudo mkdir -p /opt/hadoop/data/dfs/namenode
sudo mkdir -p /opt/hadoop/data/dfs/datanode
sudo chown -R hadoop:hadoop /opt/hadoop
sudo chmod 755 /opt/hadoop/tmp
sudo -u hadoop hdfs namenode -format

  1. 启动Hadoop

使用以下命令启动Hadoop命令:

bash
/opt/hadoop/sbin/start-all.sh

如果启动成功,可以使用jps命令检查Hadoop进程是否正常运行:

bash
sudo jps

如果输出结果包含以下进程,则表明Hadoop启动成功:

16946 NameNode
17173 SecondaryNameNode
17311 ResourceManager
17542 Jps
17408 DataNode
17607 NodeManager

示例说明

示例一

在单个节点上安装Hadoop:

  1. 下载安装包

bash
wget https://archive.apache.org/dist/hadoop/core/hadoop-3.2.2/hadoop-3.2.2.tar.gz

  1. 解压文件

与上述步骤相同

  1. 配置文件

与上述步骤相同

  1. 格式化文件系统

与上述步骤相同

  1. 启动Hadoop

与上述步骤相同

示例二

在多个节点上安装Hadoop:

  1. 在每个节点上安装Java和SSH

bash
sudo apt-get update
sudo apt-get install openjdk-8-jdk
sudo apt-get install ssh

  1. 下载Hadoop

bash
wget https://archive.apache.org/dist/hadoop/core/hadoop-3.2.2/hadoop-3.2.2.tar.gz

  1. 解压Hadoop文件

与上述步骤相同

  1. 配置Hadoop

在所有节点上配置Hadoop文件,详见上述步骤。

  1. 创建主节点

在一个节点上作为主节点创建Hadoop集群,将其他节点添加到集群中。

bash
/opt/hadoop/bin/hadoop namenode -format
/opt/hadoop/sbin/start-dfs.sh
/opt/hadoop/sbin/start-yarn.sh

如果启动成功,可以使用jps命令检查Hadoop进程是否正常运行。

  1. 将所有节点加入集群

在所有其他节点上运行以下命令,将这些节点添加到集群中:

bash
/opt/hadoop/sbin/hadoop-daemon.sh start datanode
/opt/hadoop/sbin/yarn-daemon.sh start nodemanager

  1. 在主节点上检查集群状态

在主节点上使用以下命令检查集群状态:

bash
/opt/hadoop/bin/hadoop dfsadmin -report
/opt/hadoop/bin/yarn node -list

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Linux下的如何快速安装Hadoop - Python技术站

(0)
上一篇 2023年5月14日
下一篇 2023年5月14日

相关文章

  • vmware虚拟机安装centos7.3的教程图解

    vmware虚拟机安装centos7.3的教程图解 确定安装版本 首先,需要确定要安装的CentOS版本。在CentOS官方网站可以找到各版本的下载链接。 创建虚拟机 打开VMware虚拟机软件,选择“新建虚拟机”; 在“虚拟机配置”界面,选择“自定义”,点击“下一步”; 选择要安装的CentOS版本,如“Linux CentOS 7 64位”,点击“下一步…

    Linux 2023年5月24日
    00
  • Linux系统扩容根目录磁盘空间的操作方法

    下面我将给您详细讲解Linux系统扩容根目录磁盘空间的操作方法的完整攻略,该攻略包含如下几个步骤: 查看磁盘使用情况 检查并卸载磁盘分区 扩展磁盘分区 重新挂载磁盘分区 验证扩容是否成功 接下来我将详细讲解每个步骤所需执行的命令及示例。 1. 查看磁盘使用情况 首先需要了解当前磁盘使用情况,执行以下命令: df -h 该命令将会列出当前磁盘使用情况的详细信息…

    Linux 2023年5月24日
    00
  • python中requests模拟登录的三种方式(携带cookie/session进行请求网站)

    当需要在Python中爬取一些需要用户登录后才能获取的信息时,就需要模拟登录。requests库是常用的网络请求库之一,它可以轻松模拟登录获取网页内容,下面就是Python中requests模拟登录的三种方式的完整攻略。 1. 使用cookies模拟登录 首先,登录网站需要携带一些数据,如用户名、密码等。成功登录后,网站服务器会返回一个session_id,…

    Linux 2023年5月14日
    00
  • Linux基础

    Linux基础 一、计算机种类 台式机 笔记本 服务器 1.服务器的作用 可以尽量避免数据不会丢失 可以24小时不间断提供服务 可以在速度上提升用户体验 2.服务器的分类 云主机服务器 ⼤企业服务器过多可能造成资源浪费,所以对服务器资源进⾏整合 之后根据付费多少分配对应资源给相应⽤户使⽤(类似于租房⼦) 物理主机服务器 机架式服务器 多⽤于服务器数量较多的⼤…

    Linux 2023年4月11日
    00
  • 在Linux系统上安装Linux内核头文件的教程

    安装Linux内核头文件是开发和编译某些软件需要的先决条件之一。以下是在Linux系统上安装Linux内核头文件的完整攻略: 确认内核版本 在安装内核头文件之前,应首先确认当前安装的内核版本。使用以下命令确认内核版本: uname -r 输出示例: 5.4.0-92-generic 安装内核头文件命令 使用以下命令安装当前内核版本的头文件: sudo apt…

    Linux 2023年5月14日
    00
  • linux更换ssh端口 CentOS7修改SSH端口

          一、修改ssh配置文件sshd_config [root@bogon ~]# vi /etc/ssh/sshd_config   二、防火墙放行 [root@bogon ~]# firewall-cmd –zone=public –add-port=22345/tcp –permanent [root@bogon ~]# firewall-…

    Linux 2023年4月11日
    00
  • Linux:进程模型和进程管理

    1 进程与程序 在Linux系统中,执行一个程序或命令就可以触发一个进程,系统会给予这个进程一个ID,称为PID,同时根据触发这个进程的用户与相关属性关系,基于这个PID一组有效的权限设置。如下图所示(图片来自《鸟哥的Linux私房菜》[1]): 举个常见的例子,我们要操作系统的时候通常是利用ssh连接程序或直接在主机上登录,然后获取shell。默认的she…

    Linux 2023年4月17日
    00
  • 详解CentOS8更换yum源后出现同步仓库缓存失败的问题

    针对“详解CentOS8更换yum源后出现同步仓库缓存失败的问题”的解决方案,以下是完整攻略: 问题背景 当我们在CentOS 8系统上更换yum源时,可能会出现同步yum缓存失败的情况。这种情况一般是由于新的yum源中的某些包缺失或者有误导致的。为了解决这个问题,我们可以将yum源回退到缺少包的版本或者修复缺少包的问题。 解决方案 针对上述问题,我们可以尝…

    Linux 2023年5月14日
    00
合作推广
合作推广
分享本页
返回顶部