VMware + Ubuntu18.04 搭建Hadoop集群环境的图文教程

下面是VMware + Ubuntu18.04 搭建Hadoop集群环境的图文教程。

准备工作

  1. 下载安装VMware Workstation Pro 15或更高版本。
  2. 下载并安装Ubuntu18.04 LTS系统镜像。
  3. 配置VMware虚拟网络环境,建议采用NAT模式和子网IP。
  4. 下载Hadoop 2.9.2安装包。

在VMware上配置Ubuntu系统

  1. 创建Ubuntu虚拟机,建议配置内存8GB以上,CPU核心数4以上。
  2. 启动Ubuntu虚拟机,进行系统安装,支持网络连接等配置。
  3. 配置Java开发环境,建议采用Oracle Java8或11版本。
sudo add-apt-repository ppa:webupd8team/java
sudo apt update
sudo apt install oracle-java8-installer
sudo apt install oracle-java8-set-default
  1. 安装openssh-server,建议配置无密码登录。
sudo apt install openssh-server
ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  1. 配置hosts文件,将各个节点的IP地址和域名进行映射。
sudo vim /etc/hosts
192.168.0.101 hadoop-101
192.168.0.102 hadoop-102
192.168.0.103 hadoop-103

配置Hadoop集群环境

  1. 将Hadoop 2.9.2安装包解压到/usr/local/hadoop目录下。
sudo tar zxvf hadoop-2.9.2.tar.gz -C /usr/local
sudo mv /usr/local/hadoop-2.9.2 /usr/local/hadoop
  1. 编辑文件/etc/profile,添加Hadoop环境变量。
sudo vim /etc/profile

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
  1. 配置Hadoop的环境变量。
sudo vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh

export JAVA_HOME=/usr/lib/jvm/java-8-oracle
  1. 配置Hadoop的核心配置文件等。
sudo vim /usr/local/hadoop/etc/hadoop/core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop-101:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop/tmp</value>
    </property>
</configuration>

sudo vim /usr/local/hadoop/etc/hadoop/hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/local/hadoop/tmp/hdfs/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/local/hadoop/tmp/hdfs/datanode</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>hadoop-101:9001</value>
    </property>
</configuration>

sudo vim /usr/local/hadoop/etc/hadoop/mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobtracker.address</name>
        <value>hadoop-101:54311</value>
    </property>
    <property>
        <name>mapreduce.jobtracker.http.address</name>
        <value>hadoop-101:50030</value>
    </property>
    <property>
        <name>yarn.app.mapreduce.am.resource.mb</name>
        <value>512</value>
    </property>
</configuration>

sudo vim /usr/local/hadoop/etc/hadoop/yarn-site.xml

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop-101</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
    <property>
        <name>yarn.nodemanager.local-dirs</name>
        <value>/usr/local/hadoop/yarn/local</value>
    </property>
    <property>
        <name>yarn.nodemanager.log-dirs</name>
        <value>/usr/local/hadoop/yarn/logs</value>
    </property>
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
    <property>
        <name>yarn.scheduler.minimum-allocation-mb</name>
        <value>512</value>
    </property>
    <property>
        <name>yarn.scheduler.maximum-allocation-mb</name>
        <value>4096</value>
    </property>
</configuration>
  1. 格式化HDFS文件系统。
sudo /usr/local/hadoop/bin/hadoop namenode -format

启动Hadoop集群服务

  1. 启动HDFS服务。
sudo /usr/local/hadoop/sbin/start-dfs.sh
  1. 查看HDFS服务状态,确认服务已经启动。
sudo /usr/local/hadoop/sbin/hadoop-daemon.sh start namenode
sudo /usr/local/hadoop/sbin/hadoop-daemon.sh start datanode
sudo jps
  1. 启动YARN服务。
sudo /usr/local/hadoop/sbin/start-yarn.sh
  1. 查看YARN服务状态,确认服务已经启动。
sudo /usr/local/hadoop/sbin/yarn-daemon.sh start resourcemanager
sudo /usr/local/hadoop/sbin/yarn-daemon.sh start nodemanager
sudo jps

示例说明

  1. 在Hadoop集群中上传并运行MapReduce程序。
sudo /usr/local/hadoop/bin/hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar pi 16 10000
  1. 在Hadoop集群中上传并运行Hive SQL查询。
sudo /usr/local/hadoop/bin/hdfs dfs -mkdir /data
sudo /usr/local/hadoop/bin/hdfs dfs -put /usr/local/hadoop/etc/hadoop/*.xml /data/
sudo /usr/local/hadoop/bin/hive
hive> CREATE TABLE pokes (foo INT, bar STRING);
hive> LOAD DATA INPATH '/data/*.xml' INTO TABLE pokes;
hive> SELECT * FROM pokes;

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:VMware + Ubuntu18.04 搭建Hadoop集群环境的图文教程 - Python技术站

(0)
上一篇 2023年5月24日
下一篇 2023年5月24日

相关文章

  • SoC的软件开发流程,主要包含一些Linux下的操作命令

    该笔记主要记录SoC的软件开发流程,主要包含一些Linux下的操作命令 1. 编写design file .c .h 2. 编写makefile    可执行文件名,交叉编译环境,compile flags  3. 拷贝文件到SD Card     (1)通过USB mount       1)mount命令格式:         mount [-t vfs…

    Linux 2023年4月11日
    00
  • VMware安装Linux CentOS 7.7系统的详细教程

    VMware安装Linux CentOS 7.7 系统详细教程 在使用 VMware 进行虚拟化配置时,我们可以使用 ISO 镜像文件来安装 Linux CentOS 7.7 系统。接下来,我们将详细介绍该安装过程。 步骤 1:下载 ISO 镜像文件 我们需要先下载 Linux CentOS 7.7 的 ISO 镜像文件。你可以在CentOS 官方网站下载。…

    Linux 2023年5月14日
    00
  • Linux jar包部署启停脚本

    一、对jar包统一管理     一、重启脚本 app_dir为jar包存放路径,根据自己的情况进行填写,这里我放在了/mycloud目录下apps 中填写jar包的名称,多个jar包中间以空格分开(注:jar包名称可以不完全填写,这里只写了前半部分,不和其他的应用重名即可) #!/bin/bash app_dir=/mycloud apps=(mycloud…

    Linux 2023年4月12日
    00
  • Linux系统镜像制作

    Linux系统镜像制作 https://biux.cn/archives/26.htmlhttps://www.cnblogs.com/linuxAndMcu/p/10774020.htmlhttps://www.cnblogs.com/sztom/p/10184766.htmlhttps://developer.aliyun.com/article/481…

    Linux 2023年4月11日
    00
  • Xshell连接centOS7并与CentOS7联网

    下面我将介绍如何使用Xshell连接CentOS 7并连接网络的完整攻略: 1. 安装CentOS 7 如果你还没有安装CentOS 7,请先根据官方文档进行安装。 2. 连接网络 在CentOS 7中,连接网络的方式主要有两种:动态IP和静态IP。在这里,我们以动态IP为例来演示。 首先,需要编辑网卡配置文件。以网卡eth0为例,运行以下命令: sudo …

    Linux 2023年5月24日
    00
  • Linux—more命令学习

    More命令 more命令一般用于分页显示文件的内容,more会显示文件第一屏的内容,在屏幕的底部,more用反白字体显示文件的百分比,这时如果按空格键,文件下一屏内容会显示出来,如果按回车键,显示的则是下一行,如果输入“ q ”,则是结束显示。   more命令的几种用法 第一种: $ more filename  显示文件filename的内容。   第…

    Linux 2023年4月13日
    00
  • Linux下Python多版本环境安装

    1 需求描述   在测试环境提供一台机器给部分开发同事使用,每个用户单独一个账户,都是普通用户。在开发过程中,不同的开发人员需要使用不同版本的Python,Centos7操作系统默认的Python2 版本为2.7.5, Python3的为Python3.4 ,一般无法满足用户的需求。故在每个用户在自己的/home目录下使用源码安装自己所需要的Python版本…

    Linux 2023年4月13日
    00
  • 详解云与备份之VMware虚机备份和恢复

    详解云与备份之VMware虚机备份和恢复 什么是VMware虚机备份和恢复? 虚机备份和恢复是指将虚拟机中的所有配置文件、虚机磁盘文件等重要数据备份,并可以在需要时进行恢复操作,以达到保护虚机和数据,减少潜在风险的目的。 VMware虚机备份和恢复是将VMware虚拟机备份到本地或云端,以确保在虚拟机机器出现故障时,可以快速地恢复虚拟机运行,尽量降低企业业务…

    Linux 2023年5月24日
    00
合作推广
合作推广
分享本页
返回顶部