Linux下的如何快速安装Hadoop

安装Hadoop前,需要先安装Java和SSH。

安装Java

Hadoop需要Java环境支持。可以通过以下命令安装Java:

sudo apt-get update
sudo apt-get install openjdk-8-jdk

安装完成后,可以使用以下命令检查Java版本:

java -version

安装SSH

Hadoop要求在集群上可以无密码登录,需要安装SSH。

sudo apt-get install ssh

使用以下命令检查SSH服务是否正常启动:

sudo service ssh status

如果SSH服务未启动,则使用以下命令启动:

sudo service ssh start

安装Hadoop

接下来开始安装Hadoop。

  1. 下载Hadoop

下载Hadoop官方稳定版本:

shell
wget https://archive.apache.org/dist/hadoop/core/hadoop-3.2.2/hadoop-3.2.2.tar.gz

  1. 解压Hadoop文件

bash
tar -xvf hadoop-3.2.2.tar.gz -C /opt/
sudo mv /opt/hadoop-3.2.2/ /opt/hadoop/

  1. 配置Hadoop

bash
cd /opt/hadoop/etc/hadoop
sudo nano hadoop-env.sh

找到export JAVA_HOME行,将路径更改为Java路径:

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

找到export HADOOP_HOME行,将路径更改为Hadoop安装目录

export HADOOP_HOME=/opt/hadoop

配置Hadoop中所有节点的主机名和IP地址,打开core-site.xml文件并添加以下属性:

xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop/tmp</value>
</property>
</configuration>

打开hdfs-site.xml文件并配置数据目录:

xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/opt/hadoop/data/dfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/opt/hadoop/data/dfs/datanode</value>
</property>
<property>
<name>dfs.datanode.max.transfer.threads</name>
<value>4096</value>
</property>
</configuration>

打开mapred-site.xml文件并配置MapReduce框架:

xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

打开yarn-site.xml文件并配置YARN资源管理器和节点管理器:

xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>2592000</value>
</property>
<property>
<name>yarn.nodemanager.local-dirs</name>
<value>/opt/hadoop/yarnlocal</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
</configuration>

  1. 格式化Hadoop文件系统

在安装并配置Hadoop之后,需要格式化HDFS文件系统。使用以下命令:

bash
sudo mkdir -p /opt/hadoop/data/dfs/namenode
sudo mkdir -p /opt/hadoop/data/dfs/datanode
sudo chown -R hadoop:hadoop /opt/hadoop
sudo chmod 755 /opt/hadoop/tmp
sudo -u hadoop hdfs namenode -format

  1. 启动Hadoop

使用以下命令启动Hadoop命令:

bash
/opt/hadoop/sbin/start-all.sh

如果启动成功,可以使用jps命令检查Hadoop进程是否正常运行:

bash
sudo jps

如果输出结果包含以下进程,则表明Hadoop启动成功:

16946 NameNode
17173 SecondaryNameNode
17311 ResourceManager
17542 Jps
17408 DataNode
17607 NodeManager

示例说明

示例一

在单个节点上安装Hadoop:

  1. 下载安装包

bash
wget https://archive.apache.org/dist/hadoop/core/hadoop-3.2.2/hadoop-3.2.2.tar.gz

  1. 解压文件

与上述步骤相同

  1. 配置文件

与上述步骤相同

  1. 格式化文件系统

与上述步骤相同

  1. 启动Hadoop

与上述步骤相同

示例二

在多个节点上安装Hadoop:

  1. 在每个节点上安装Java和SSH

bash
sudo apt-get update
sudo apt-get install openjdk-8-jdk
sudo apt-get install ssh

  1. 下载Hadoop

bash
wget https://archive.apache.org/dist/hadoop/core/hadoop-3.2.2/hadoop-3.2.2.tar.gz

  1. 解压Hadoop文件

与上述步骤相同

  1. 配置Hadoop

在所有节点上配置Hadoop文件,详见上述步骤。

  1. 创建主节点

在一个节点上作为主节点创建Hadoop集群,将其他节点添加到集群中。

bash
/opt/hadoop/bin/hadoop namenode -format
/opt/hadoop/sbin/start-dfs.sh
/opt/hadoop/sbin/start-yarn.sh

如果启动成功,可以使用jps命令检查Hadoop进程是否正常运行。

  1. 将所有节点加入集群

在所有其他节点上运行以下命令,将这些节点添加到集群中:

bash
/opt/hadoop/sbin/hadoop-daemon.sh start datanode
/opt/hadoop/sbin/yarn-daemon.sh start nodemanager

  1. 在主节点上检查集群状态

在主节点上使用以下命令检查集群状态:

bash
/opt/hadoop/bin/hadoop dfsadmin -report
/opt/hadoop/bin/yarn node -list

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Linux下的如何快速安装Hadoop - Python技术站

(0)
上一篇 2023年5月14日
下一篇 2023年5月14日

相关文章

  • Linux 全称列表【转】

    Linux 全称列表 /bin = BINaries /dev = DEVices /etc = ETCetera /lib = LIBrary /proc = PROCesses /sbin = Superuser BINaries /tmp = TeMPorary /usr = Unix Shared Resources /var = VARiable …

    Linux 2023年4月12日
    00
  • 快速上手Linux核心命令(十一):Linux用户相关命令

    目录 前言 useradd 创建用户 usermod 修改用户信息 userdel 删除用户 groupadd 创建新的用户组 groupdel 删除用户组 passwd 修改用户密码 chage 修改用户密码有效期 批量更新用户密码 su 切换用户 visudo 编辑sudoers文件 sudo 以另一个用户身份执行命令 id 显示用户与用户组信息 w 显…

    Linux 2023年5月7日
    00
  • 在Linux中使用Inxi获取系统和硬件信息的教程

    下面是详细讲解“在Linux中使用Inxi获取系统和硬件信息的教程”的完整攻略。 1. 什么是Inxi Inxi是一款在Linux系统中获取各种系统和硬件信息的命令行工具。它可以提供有关CPU、GPU、内存、磁盘、网络设备等方面的详细信息。 安装Inxi非常简单,只需要在终端中输入相应的命令即可。 2. Inxi的安装 在Debian/Ubuntu系统中安装…

    Linux 2023年5月14日
    00
  • vmware中的Ubuntu Docker安装(容器搭建)

    VMWare中的Ubuntu Docker安装 Docker 是一个开源的应用容器引擎,它可以让开发者将应用及其依赖打包到一个独立的可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化技术,从而快速构建和发布基于容器的应用程序。在本文中,我们将介绍在 VMware 虚拟机上安装 Docker 的步骤。 步骤 1:安装 Ubuntu 操作…

    Linux 2023年5月24日
    00
  • Vmware虚拟机下网络模式配置详解

    Vmware虚拟机下网络模式配置详解 前言: 在Vmware中,虚拟机网络是连接物理网络和虚拟机设备的桥梁。正确配置虚拟网络可以使得虚拟机在访问物理网络时能够做到与主机一样的随时联接,比如局域网内能够相互ping通。接下来我们将会讲解四种虚拟机网络模式的配置方式。 四种网络模式: NAT模式(网络地址转换模式) 桥接模式(连接到物理局域网) 主机模式(仅与宿…

    Linux 2023年5月24日
    00
  • 虚拟机安装linux系统无法上网的解决方法

    下面我将详细讲解一下“虚拟机安装linux系统无法上网的解决方法”的完整攻略。 背景 在虚拟机软件中安装 Linux 系统时,常常会遇到无法上网的情况。这是由于虚拟机默认无法正常获取网络连接导致的,需要我们手动配置才能上网。 解决方法 1. 修改虚拟机网络设置 进入虚拟机软件的虚拟网络编辑器,选择对应的虚拟机网络接口,启用 DHCP 服务器,并勾选 NAT …

    Linux 2023年5月24日
    00
  • Linux下安装telnet的方法

    下面我将为您详细讲解“Linux下安装telnet的方法”的完整攻略。 1. 检查系统是否安装telnet 在开始安装telnet之前,我们需要先检查系统是否已经安装telnet。可以通过命令行执行以下命令进行检查: telnet 如果系统中已经安装了telnet,会显示如下提示信息: telnet: 缺少主机参数 使用方法: telnet [-8] [-E…

    Linux 2023年5月14日
    00
  • LINUX添加磁盘

    博客网站原因,图片不能很好插入,望谅解 第一步:设置加载硬盘。由于是虚拟硬盘大小,不会一开始直接占用全部空间,使用多少占用多少,为了避免后期磁盘满前期设计大容量        第二步加载查看磁盘:  再执行fdisk -l命令,发现磁盘sdb [root@KS ~]# init 6 [root@KS ~]# fdisk -l     Disk /dev/sd…

    Linux 2023年4月13日
    00
合作推广
合作推广
分享本页
返回顶部