VMware + Ubuntu18.04 搭建Hadoop集群环境的图文教程

下面是VMware + Ubuntu18.04 搭建Hadoop集群环境的图文教程。

准备工作

  1. 下载安装VMware Workstation Pro 15或更高版本。
  2. 下载并安装Ubuntu18.04 LTS系统镜像。
  3. 配置VMware虚拟网络环境,建议采用NAT模式和子网IP。
  4. 下载Hadoop 2.9.2安装包。

在VMware上配置Ubuntu系统

  1. 创建Ubuntu虚拟机,建议配置内存8GB以上,CPU核心数4以上。
  2. 启动Ubuntu虚拟机,进行系统安装,支持网络连接等配置。
  3. 配置Java开发环境,建议采用Oracle Java8或11版本。
sudo add-apt-repository ppa:webupd8team/java
sudo apt update
sudo apt install oracle-java8-installer
sudo apt install oracle-java8-set-default
  1. 安装openssh-server,建议配置无密码登录。
sudo apt install openssh-server
ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  1. 配置hosts文件,将各个节点的IP地址和域名进行映射。
sudo vim /etc/hosts
192.168.0.101 hadoop-101
192.168.0.102 hadoop-102
192.168.0.103 hadoop-103

配置Hadoop集群环境

  1. 将Hadoop 2.9.2安装包解压到/usr/local/hadoop目录下。
sudo tar zxvf hadoop-2.9.2.tar.gz -C /usr/local
sudo mv /usr/local/hadoop-2.9.2 /usr/local/hadoop
  1. 编辑文件/etc/profile,添加Hadoop环境变量。
sudo vim /etc/profile

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
  1. 配置Hadoop的环境变量。
sudo vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh

export JAVA_HOME=/usr/lib/jvm/java-8-oracle
  1. 配置Hadoop的核心配置文件等。
sudo vim /usr/local/hadoop/etc/hadoop/core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop-101:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop/tmp</value>
    </property>
</configuration>

sudo vim /usr/local/hadoop/etc/hadoop/hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/local/hadoop/tmp/hdfs/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/local/hadoop/tmp/hdfs/datanode</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>hadoop-101:9001</value>
    </property>
</configuration>

sudo vim /usr/local/hadoop/etc/hadoop/mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobtracker.address</name>
        <value>hadoop-101:54311</value>
    </property>
    <property>
        <name>mapreduce.jobtracker.http.address</name>
        <value>hadoop-101:50030</value>
    </property>
    <property>
        <name>yarn.app.mapreduce.am.resource.mb</name>
        <value>512</value>
    </property>
</configuration>

sudo vim /usr/local/hadoop/etc/hadoop/yarn-site.xml

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop-101</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
    <property>
        <name>yarn.nodemanager.local-dirs</name>
        <value>/usr/local/hadoop/yarn/local</value>
    </property>
    <property>
        <name>yarn.nodemanager.log-dirs</name>
        <value>/usr/local/hadoop/yarn/logs</value>
    </property>
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
    <property>
        <name>yarn.scheduler.minimum-allocation-mb</name>
        <value>512</value>
    </property>
    <property>
        <name>yarn.scheduler.maximum-allocation-mb</name>
        <value>4096</value>
    </property>
</configuration>
  1. 格式化HDFS文件系统。
sudo /usr/local/hadoop/bin/hadoop namenode -format

启动Hadoop集群服务

  1. 启动HDFS服务。
sudo /usr/local/hadoop/sbin/start-dfs.sh
  1. 查看HDFS服务状态,确认服务已经启动。
sudo /usr/local/hadoop/sbin/hadoop-daemon.sh start namenode
sudo /usr/local/hadoop/sbin/hadoop-daemon.sh start datanode
sudo jps
  1. 启动YARN服务。
sudo /usr/local/hadoop/sbin/start-yarn.sh
  1. 查看YARN服务状态,确认服务已经启动。
sudo /usr/local/hadoop/sbin/yarn-daemon.sh start resourcemanager
sudo /usr/local/hadoop/sbin/yarn-daemon.sh start nodemanager
sudo jps

示例说明

  1. 在Hadoop集群中上传并运行MapReduce程序。
sudo /usr/local/hadoop/bin/hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar pi 16 10000
  1. 在Hadoop集群中上传并运行Hive SQL查询。
sudo /usr/local/hadoop/bin/hdfs dfs -mkdir /data
sudo /usr/local/hadoop/bin/hdfs dfs -put /usr/local/hadoop/etc/hadoop/*.xml /data/
sudo /usr/local/hadoop/bin/hive
hive> CREATE TABLE pokes (foo INT, bar STRING);
hive> LOAD DATA INPATH '/data/*.xml' INTO TABLE pokes;
hive> SELECT * FROM pokes;

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:VMware + Ubuntu18.04 搭建Hadoop集群环境的图文教程 - Python技术站

(0)
上一篇 2023年5月24日
下一篇 2023年5月24日

相关文章

  • SUSE Linux下通过RPM方式卸载MySQL 5过程笔记

    SUSE Linux下通过RPM方式卸载MySQL5过程笔记 1. 确认MySQL5已经通过RPM方式安装 在卸载MySQL5之前,首先需要确认MySQL5是通过RPM方式安装的。可以通过以下命令查看系统中是否安装了MySQL5: rpm -qa | grep mysql 如果显示了类似于以下的内容,那么说明MySQL5已经安装成功了: mysql-comm…

    Linux 2023年5月14日
    00
  • CentOS6.5下Tomcat7 Nginx Redis配置步骤教程详解

    CentOS6.5下Tomcat7NginxRedis配置步骤教程详解 一、安装Java和Tomcat 1. 安装Java 在CentOS 6.5上安装Java的方法有很多种,此处介绍使用yum方式进行安装。执行以下命令进行安装: yum install java-1.7.0-openjdk 安装完成后,可以通过以下命令查看安装版本: java -versi…

    Linux 2023年5月14日
    00
  • Linux中c语言动态创建数组

    在Linux中进行动态创建一个数组,思路就是,通过动态创建堆中的空间,来满足数组, 首先我们需要知道要创建的数组的长度大小,然后就是通过calloc函数(这里也可以用malloc函数这里可以根据自己的个人喜好)进行动态创建(这个函数存在于stdlib.h中) 下面直接上代码:并附上一个c代码中内存的粗略图。      

    Linux 2023年4月11日
    00
  • 详解Linux平台 Oracle 10gR2(10.2.0.5)RAC安装 Part1:准备工作

    详解Linux平台Oracle10gR2(10.2.0.5)RAC安装Part1:准备工作 本文介绍在Linux平台上安装Oracle10gR2(10.2.0.5)RAC时的准备工作。 系统配置要求 在安装Oracle 10gR2 RAC前,请先检查您的系统是否符合以下要求: 操作系统:Red Hat Enterprise Linux 4, 5, 6或Sus…

    Linux 2023年5月14日
    00
  • 在Linux上安装SVN

    【参考博文https://www.cnblogs.com/puloieswind/p/5856326.html】 检查是否已安装  ——   # rpm -qa subversion 安装SVN服务器  ——   # yum install httpd httpd-devel subversion mod_dav_svn mod_auth_m…

    Linux 2023年4月11日
    00
  • php遇到错误Call to undefined function ImageCreate()解决方法

    当我们在使用 PHP 编写图像处理相关的代码时,可能会遇到错误信息 Call to undefined function ImageCreate()。这个错误意味着 ImageCreate() 函数未定义或未被正确加载,导致 PHP 无法识别该函数,以下是解决方法的完整攻略: 1. 安装 PHP GD 扩展 GD 是 PHP 中一个常用的图像处理库,需要根据…

    Linux 2023年5月14日
    00
  • LRF020 DRIVER FOR LINUX(BASED ON TQ2440/ARM9)

    LRF020 DRIVER FOR LINUX======================= using includes/linux/spi/spidev.h,driver/spi/spidev.c 2012-3-23 xiaoyang@HIT Kernel Version: linux2.6.30Board Info: tq2440 arm9(S3C24…

    Linux 2023年4月12日
    00
  • Linux nc命令如何使用

    这篇文章主要介绍了Linux nc命令如何使用的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇Linux nc命令如何使用文章都会有所收获,下面我们一起来看看吧。 一、命令简介 nc是netcat的简写,是一个功能强大的网络工具,有着网络界的瑞士军刀美誉。nc命令在linux系统中实际命令是ncat,nc是软连接到ncat。nc命…

    2023年4月8日
    00
合作推广
合作推广
分享本页
返回顶部