一台虚拟机基于docker搭建大数据HDP集群的思路详解

一台虚拟机基于docker搭建大数据HDP集群思路详解

1. 前置条件

  • 一台Linux操作系统虚拟机,建议使用CentOS 7.x版本。
  • Docker环境已经安装并启动,如果未安装可以先参考官网文档安装:https://docs.docker.com/get-docker/
  • 准备好HDP镜像文件,例如"hortonworks/hdp:3.1.4.0-centos7"。

2. 搭建HDP集群步骤

2.1. 拉取HDP镜像并创建容器

执行以下命令拉取HDP镜像,并在容器中运行:

docker pull hortonworks/hdp:3.1.4.0-centos7

docker run --hostname sandbox-hdp.hortonworks.com \
--privileged \
-d \
-p 2222:22 \
-p 7777:7777 \
-p 4200:4200 \
-p 6080:6080 \
-p 9090:9090 \
-p 8080:8080 \
-p 8443:8443 \
-p 8744:8744 \
-p 8886:8886 \
-p 8887:8887 \
-p 8888:8888 \
-p 8889:8889 \
-p 9995:9995 \
-p 11000:11000 \
-p 15000:15000 \
-p 16010:16010 \
-p 18080:18080 \
-p 19888:19888 \
-p 2222:22 \
-p 8088:8088 \
--name sandbox hortonworks/hdp:3.1.4.0-centos7
  • 说明:
  • --hostname:设置容器主机名。
  • --privileged:容器特权模式。
  • -d:设置容器为后台方式运行。
  • -p:映射容器端口到宿主机端口。
  • --name:设置容器名称。

2.2. 启动HDP服务

进入容器:

docker exec -it sandbox bash

执行以下命令启动HDP服务:

ambari-server start
ambari-agent start

2.3. 配置HDP集群

在主机的浏览器中输入Web UI地址:http://localhost:8080/ (宿主机localhost)。

登录用户名密码分别为:admin/admin。

按照提示进行以下步骤:

  • 创建集群。
  • 指定主机,并安装所需的服务,例如HDFS、YARN、Hive、Spark等。
  • 配置所需服务参数。
  • 启动集群服务。

2.4. 验证集群

在Web UI中打开Ambari服务,查看各项服务的运行状态。

2.5. 示例1

启动Hive服务:

hive

连接数据库:

!connect jdbc:hive2://localhost:10000/default

执行查询:

SELECT * FROM test_table;

2.6. 示例2

启动Spark服务:

spark-shell

创建RDD:

val textFile = sc.textFile("file:///usr/hdp/current/hadoop-client/README.txt")

统计行数:

textFile.count()

3. 总结

通过Docker搭建HDP集群,除了可以快速搭建外,还可以避免其他因素对系统环境的影响。同时,在开发或测试时可以方便地搭建不同版本镜像的HDP集群。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:一台虚拟机基于docker搭建大数据HDP集群的思路详解 - Python技术站

(0)
上一篇 2023年5月18日
下一篇 2023年5月18日

相关文章

  • .net webapi接收xml格式数据的3种情况小结

    请看下面的攻略。 .NET WebAPI接收XML格式数据的3种情况小结 在Web应用程序中,接收XML格式数据是非常常见的操作。在.NET WebAPI中,我们可以通过多种方式来接收XML格式数据,下面将介绍其中的3种情况。 1. 直接读取RequestBody 直接读取Request的Body,把XML转换为对应的对象或集合: public HttpRe…

    云计算 2023年5月17日
    00
  • 高德地图WEB版基础控件展示 原创

    下面我会详细地讲解“高德地图WEB版基础控件展示 原创”的完整攻略,包含以下几个内容: 搭建高德地图 Web版本 实现地图基础控件展示 示例说明 搭建高德地图 Web版本 在开始使用高德地图 Web版本之前,需要先在高德开放平台上注册并创建应用,然后获取应用的API Key。具体步骤如下: 访问高德开放平台官网 点击“开发者中心”,进入开发者中心页面 点击“…

    云计算 2023年5月17日
    00
  • 计算机组成原理 — 输入输出系统 – 云物互联

    计算机组成原理 — 输入输出系统 2019-07-24 19:11 云物互联 阅读(658) 评论(0) 编辑 收藏 举报 目录 文章目录 目录 前言列表 输入输出系统 设备控制器 设备控制器的组成 外部设备的编址方式 数据传输控制方式 程序直接控制 程序中断控制 直接存储器存取(DMA)控制 I/O 通道控制 外围处理机控制 外设接口 磁盘控制器接口类型 …

    2023年4月9日
    00
  • 云计算和大数据时代网络技术揭秘(十三)VXLAN

    Vxlan(virtual Extensible LAN)虚拟可扩展局域网,是一种Overlay方式的网络技术,采用了mac in UDP的方式 进行封装,共50字节的报头。该技术的目标是解决虚拟机在数据中心内部的漂移及网络灵活扩展问题。   图 LISP、OTV、VXLAN完美组合                                 左边的NS…

    云计算 2023年4月11日
    00
  • python文件数据分析治理提取

    下面是“python文件数据分析治理提取”的完整攻略。 1. 准备工作 首先,在开始文件数据分析之前,你需要确保你已经准备好了以下环境: Python3 一些Python模块,比如pandas、numpy、matplotlib等 数据文件 如果你还没有安装上述环境,你可以在Python官网上找到Python3的下载链接,或者在终端使用包管理工具(比如pip)…

    云计算 2023年5月18日
    00
  • 云计算 kvm 虚拟化 简单介绍

    云计算是什么 一种网络资源的使用模式具有弹性计算,按需付费,快速扩展的特点 云计算的分类 私有云     在自建机房,内部使用。(安全、机密) 公有云    使用云提供商提供的服务。(方便、快捷、免维护) 混合云    上述两者都用 云的解决方案 IAAS(基础设施即服务) 网络、存储、虚拟化资源都不需要关心,只负责操作系统以上的东西 使用案例   open…

    2023年4月10日
    00
  • Crane如何做到利用率提升3倍稳定性还不受损?

    作为云平台用户,我们都希望购买的服务器物尽其用,能够达到最大利用率。然而要达到理论上的节点负载目标是很的,计算节点总是存在一些装箱碎片和低负载导致的闲置资源。下图展示了某个生产系统的CPU资源现状,从图中可以看出,浪费主要来自以下几个方面: 业务需求与节点可调度资源很难完全匹配,因此在每个节点上都可能剩余一些碎片资源无法被分配出去。 业务通常为了绝对稳定,会…

    2023年4月10日
    00
  • [AWS vs Azure] 云计算里AWS和Azure的探究(3)

      云计算里AWS和Azure的探究(3) ——Amazon EC2 和 Windows Azure Virtual Machine   今天我来比较一下AWS EC2和Azure VM的具体流程上的异同。以及稍微比较一下他们在网络环境上的一些基本差别,具体的比较我们会留到以后的文章中。 今天我会常见一台中等大小的机器,AWS的是M1 Medium,内存3.…

    云计算 2023年4月10日
    00
合作推广
合作推广
分享本页
返回顶部