一台虚拟机基于docker搭建大数据HDP集群的思路详解

2023年5月18日下午4:15 • 云计算

一台虚拟机基于docker搭建大数据HDP集群思路详解

1. 前置条件

一台Linux操作系统虚拟机，建议使用CentOS 7.x版本。
Docker环境已经安装并启动，如果未安装可以先参考官网文档安装：https://docs.docker.com/get-docker/
准备好HDP镜像文件，例如"hortonworks/hdp:3.1.4.0-centos7"。

2. 搭建HDP集群步骤

2.1. 拉取HDP镜像并创建容器

执行以下命令拉取HDP镜像，并在容器中运行：

docker pull hortonworks/hdp:3.1.4.0-centos7

docker run --hostname sandbox-hdp.hortonworks.com \
--privileged \
-d \
-p 2222:22 \
-p 7777:7777 \
-p 4200:4200 \
-p 6080:6080 \
-p 9090:9090 \
-p 8080:8080 \
-p 8443:8443 \
-p 8744:8744 \
-p 8886:8886 \
-p 8887:8887 \
-p 8888:8888 \
-p 8889:8889 \
-p 9995:9995 \
-p 11000:11000 \
-p 15000:15000 \
-p 16010:16010 \
-p 18080:18080 \
-p 19888:19888 \
-p 2222:22 \
-p 8088:8088 \
--name sandbox hortonworks/hdp:3.1.4.0-centos7

说明：
--hostname：设置容器主机名。
--privileged：容器特权模式。
-d：设置容器为后台方式运行。
-p：映射容器端口到宿主机端口。
--name：设置容器名称。

2.2. 启动HDP服务

进入容器：

docker exec -it sandbox bash

执行以下命令启动HDP服务：

ambari-server start
ambari-agent start

2.3. 配置HDP集群

在主机的浏览器中输入Web UI地址：http://localhost:8080/ （宿主机localhost）。

登录用户名密码分别为：admin/admin。

按照提示进行以下步骤：

创建集群。
指定主机，并安装所需的服务，例如HDFS、YARN、Hive、Spark等。
配置所需服务参数。
启动集群服务。

2.4. 验证集群

在Web UI中打开Ambari服务，查看各项服务的运行状态。

2.5. 示例1

启动Hive服务：

hive

连接数据库：

!connect jdbc:hive2://localhost:10000/default

执行查询：

SELECT * FROM test_table;

2.6. 示例2

启动Spark服务：

spark-shell

创建RDD：

val textFile = sc.textFile("file:///usr/hdp/current/hadoop-client/README.txt")

统计行数：

textFile.count()

3. 总结

通过Docker搭建HDP集群，除了可以快速搭建外，还可以避免其他因素对系统环境的影响。同时，在开发或测试时可以方便地搭建不同版本镜像的HDP集群。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：一台虚拟机基于docker搭建大数据HDP集群的思路详解 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

MathWorks Matlab R2021a中文版永久激活详细教程(含下载+密钥)

上一篇 2023年5月18日

QT自定义QTextEdit实现大数据的实时刷新显示功能实例

下一篇 2023年5月18日

.net webapi接收xml格式数据的3种情况小结

请看下面的攻略。 .NET WebAPI接收XML格式数据的3种情况小结在Web应用程序中，接收XML格式数据是非常常见的操作。在.NET WebAPI中，我们可以通过多种方式来接收XML格式数据，下面将介绍其中的3种情况。 1. 直接读取RequestBody 直接读取Request的Body，把XML转换为对应的对象或集合: public HttpRe…

云计算 2023年5月17日
000
高德地图WEB版基础控件展示原创

下面我会详细地讲解“高德地图WEB版基础控件展示原创”的完整攻略，包含以下几个内容：搭建高德地图 Web版本实现地图基础控件展示示例说明搭建高德地图 Web版本在开始使用高德地图 Web版本之前，需要先在高德开放平台上注册并创建应用，然后获取应用的API Key。具体步骤如下：访问高德开放平台官网点击“开发者中心”，进入开发者中心页面点击“…

云计算 2023年5月17日
000
云计算

计算机组成原理 — 输入输出系统 – 云物互联

计算机组成原理 — 输入输出系统 2019-07-24 19:11 云物互联阅读(658) 评论(0) 编辑收藏举报目录文章目录目录前言列表输入输出系统设备控制器设备控制器的组成外部设备的编址方式数据传输控制方式程序直接控制程序中断控制直接存储器存取（DMA）控制 I/O 通道控制外围处理机控制外设接口磁盘控制器接口类型 …

2023年4月9日
000
云计算和大数据时代网络技术揭秘（十三）VXLAN

Vxlan(virtual Extensible LAN)虚拟可扩展局域网，是一种Overlay方式的网络技术，采用了mac in UDP的方式进行封装，共50字节的报头。该技术的目标是解决虚拟机在数据中心内部的漂移及网络灵活扩展问题。图 LISP、OTV、VXLAN完美组合左边的NS…

云计算 2023年4月11日
000
python文件数据分析治理提取

下面是“python文件数据分析治理提取”的完整攻略。 1. 准备工作首先，在开始文件数据分析之前，你需要确保你已经准备好了以下环境： Python3 一些Python模块，比如pandas、numpy、matplotlib等数据文件如果你还没有安装上述环境，你可以在Python官网上找到Python3的下载链接，或者在终端使用包管理工具（比如pip）…

云计算 2023年5月18日
000
云计算

云计算 kvm 虚拟化简单介绍

云计算是什么一种网络资源的使用模式具有弹性计算，按需付费，快速扩展的特点云计算的分类私有云　　　　在自建机房，内部使用。（安全、机密）公有云　　　　使用云提供商提供的服务。（方便、快捷、免维护）混合云　　　　上述两者都用云的解决方案 IAAS(基础设施即服务) 网络、存储、虚拟化资源都不需要关心，只负责操作系统以上的东西使用案例　　open…

2023年4月10日
000
云计算

Crane如何做到利用率提升3倍稳定性还不受损？

作为云平台用户，我们都希望购买的服务器物尽其用，能够达到最大利用率。然而要达到理论上的节点负载目标是很的，计算节点总是存在一些装箱碎片和低负载导致的闲置资源。下图展示了某个生产系统的CPU资源现状，从图中可以看出，浪费主要来自以下几个方面：业务需求与节点可调度资源很难完全匹配，因此在每个节点上都可能剩余一些碎片资源无法被分配出去。业务通常为了绝对稳定，会…

2023年4月10日
000
[AWS vs Azure] 云计算里AWS和Azure的探究(3)

云计算里AWS和Azure的探究(3) ——Amazon EC2 和 Windows Azure Virtual Machine 今天我来比较一下AWS EC2和Azure VM的具体流程上的异同。以及稍微比较一下他们在网络环境上的一些基本差别，具体的比较我们会留到以后的文章中。今天我会常见一台中等大小的机器,AWS的是M1 Medium，内存3.…

云计算 2023年4月10日
001

合作推广

合作推广

返回顶部