一台虚拟机基于docker搭建大数据HDP集群思路详解
1. 前置条件
- 一台Linux操作系统虚拟机,建议使用CentOS 7.x版本。
- Docker环境已经安装并启动,如果未安装可以先参考官网文档安装:https://docs.docker.com/get-docker/
- 准备好HDP镜像文件,例如"hortonworks/hdp:3.1.4.0-centos7"。
2. 搭建HDP集群步骤
2.1. 拉取HDP镜像并创建容器
执行以下命令拉取HDP镜像,并在容器中运行:
docker pull hortonworks/hdp:3.1.4.0-centos7
docker run --hostname sandbox-hdp.hortonworks.com \
--privileged \
-d \
-p 2222:22 \
-p 7777:7777 \
-p 4200:4200 \
-p 6080:6080 \
-p 9090:9090 \
-p 8080:8080 \
-p 8443:8443 \
-p 8744:8744 \
-p 8886:8886 \
-p 8887:8887 \
-p 8888:8888 \
-p 8889:8889 \
-p 9995:9995 \
-p 11000:11000 \
-p 15000:15000 \
-p 16010:16010 \
-p 18080:18080 \
-p 19888:19888 \
-p 2222:22 \
-p 8088:8088 \
--name sandbox hortonworks/hdp:3.1.4.0-centos7
- 说明:
--hostname
:设置容器主机名。--privileged
:容器特权模式。-d
:设置容器为后台方式运行。-p
:映射容器端口到宿主机端口。--name
:设置容器名称。
2.2. 启动HDP服务
进入容器:
docker exec -it sandbox bash
执行以下命令启动HDP服务:
ambari-server start
ambari-agent start
2.3. 配置HDP集群
在主机的浏览器中输入Web UI地址:http://localhost:8080/ (宿主机localhost)。
登录用户名密码分别为:admin/admin。
按照提示进行以下步骤:
- 创建集群。
- 指定主机,并安装所需的服务,例如HDFS、YARN、Hive、Spark等。
- 配置所需服务参数。
- 启动集群服务。
2.4. 验证集群
在Web UI中打开Ambari服务,查看各项服务的运行状态。
2.5. 示例1
启动Hive服务:
hive
连接数据库:
!connect jdbc:hive2://localhost:10000/default
执行查询:
SELECT * FROM test_table;
2.6. 示例2
启动Spark服务:
spark-shell
创建RDD:
val textFile = sc.textFile("file:///usr/hdp/current/hadoop-client/README.txt")
统计行数:
textFile.count()
3. 总结
通过Docker搭建HDP集群,除了可以快速搭建外,还可以避免其他因素对系统环境的影响。同时,在开发或测试时可以方便地搭建不同版本镜像的HDP集群。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:一台虚拟机基于docker搭建大数据HDP集群的思路详解 - Python技术站