读书笔记《Hadoop开源云计算平台》

2023年4月11日上午1:47 • 云计算

HDFS-Hadoop Distributed File System，对大文件效率高，小文件效率低。和普通本地的文件系统区别在于HDFS中的文件是分布在多台计算机上的，并且访问文件需要通过HDFS中的NameNode来访问。比如一个文件1g，被分成了10份分别保存在计算机01-10中，当客户端要获取这个文件时，会发生：

客户端request到NameNode
NameNode返回这个文件分布情况：会返回一堆DataNode列表和文件block对应关系
1. DataNode就是保存文件block的各个计算机，就是数据节点
2. 客户端得知文件信息后，就直接和DataNode联系拿数据

在一个HDFS集群中，如果NameNode down了，那HDFS也就down了

在一个HDFS集群中，如果单个DataNode down了，HDFS照样提供服务。

HDFS有Secondary NameNode，可以用来合并NameNode的日志等操作

Zookeeper是这对分布式应用的分布式协作服务器

数据库服务

HBase，数据库服务，由1个HMaster和多个HRegion组成，它能快速读取、保存大表，是个基于列保存的系统

比如保存一行：rowId, A, B, Cè{001, A1Content, BContent, CContent}，HBase会将这一行数据拆分成3块，分别保存进HRegion001-003这3个计算机节点中（如果C列为null，则根本不会做保存这个动作）

缺点

不能使用join等关系型数据库的语法
如果要使用join等操作，需要自己写MapReduce来合并结果，比较麻烦
不支持SQL查询

Hive, 数据库服务，能够使用HSQL语句（类似SQL语法），能够join、group by等，并且能自动进行MapReduce操作（更加智能）

CloudBase，数据仓库服务，支持SQL查询

MapReduce简化

Pig语言能够通过写脚本实现MapReduce功能，比较方便。
Eclipse有个MapReduce的插件，可以简化MapReduce程序的开发。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：读书笔记《Hadoop开源云计算平台》 - Python技术站

云计算

0 0 打赏

微信扫一扫

支付宝扫一扫

云计算平台(数据篇)-MySql高可用平台搭建Master-Slave

上一篇 2023年4月11日

新浪推出开放云计算平台Sina App Engine

下一篇 2023年4月11日

云钉一体加速，阿里云计算巢与钉钉深度融合、共建应用新生态

简介：云合计划再升级，“云钉一体”战略按下加速键。 1月13日，阿里云宣布云合计划再升级，计算巢与钉钉深度融合互通，实现一键上云、一键上钉钉，助力软件厂商更快地完成技术升级，更好地专注于自身的产品创新和客户服务，为“云钉一体”战略按下加速键。【图：云钉一体阿里云计算巢整合策略发布会】阿里巴巴集团副总裁、阿里云销售管理与生态发展部总经理郭继军在阿里云计…

云计算 2023年4月12日
000
云计算的理解

什么是云计算？　　云计算（cloud computing）是一种基于因特网的超级计算模式，在远程的数据中心里，成千上万台电脑和服务器连接成一片电脑云。因此，云计算甚至可以让你体验每秒 10万亿次的运算能力，拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用户通过电脑、笔记本、手机等方式接入数据中心，按自己的需求进行运算。 IT精英们如…

云计算 2023年4月9日
000
基于云计算的SAAS商业模式类比研究

本文讲的是基于云计算的SAAS商业模式类比研究,云计算是现在一个炙手可热的概念，而SAAS是云计算的重要组成部分。SAAS是企业走向信息化的重要途径，对其成功企业商业模式的研究可对即将走向SAAS的企业有着至关重要的参考作用。本文对当前典型的SAAS企业的商业模式做出描述与分析，分别分析了以软件超市著称的阿里软件，企业管理专家NETSUITE，以及对比了在线…

云计算 2023年4月12日
000
如何借助 OVN 来提高 OVS 在云计算环境中的性能

众所周知，OpenvSwitch 以其丰富的功能和不错的性能，已经成为 Openstack 部署中最受欢迎的虚拟交换机。由于 Openstack Neutron 的架构引入了一些性能问题，比如 neutron-server 要与非常多的 agent 通信，RPC 就是一个性能瓶颈，还有 neutron 里面用到非常多的 namespace，namespace…

云计算 2023年4月10日
000
【Docker】镜像制作和管理

一、Docker镜像说明二、基于容器通过 docker commit 手动制作镜像 1、基于容器手动制作镜像步骤 1、下载官方系统镜像 2、基于官方基础镜像启动容器，并进入容器 3、在容器中进行配置操作　　3.1、安装基础工具　　3.2、配置运行环境　　3.3、安装并配置服务　　3.4、存放业务程序代码 4、docker commit 提交生成新镜…

云计算 2023年4月27日
000
Swagger2匹配多个controller代码实例

下面是关于“Swagger2匹配多个controller代码实例”的完整攻略，包含两个示例说明。简介 Swagger2是一个流行的API文档生成工具，它可以自动生成API文档，并提供交互式API测试功能。在使用Swagger2时，我们可能会遇到一个问题，即如何匹配多个controller。本攻略中，我们将介绍如何使用Swagger2来匹配多个control…

云计算 2023年5月16日
000
阿里云大数据利器之-使用sql实现流计算做实时展现业务（ flume故障转移版）

摘要：实时业务处理的需求越来越多，也有各种处理方案，比如storm，spark等都可以。那以数据流的方向可以总结成数据源-数据搜集-缓存队列-实时处理计算-数据展现。本文就用阿里云产品简单实现了一个实时处理的方案。实时业务处理的需求越来越多，也有各种处理方案，比如storm，spark等都可以。那以数据流的方向可以总结成数据源-数据搜集-缓存队列-实时处…

云计算 2023年4月10日
000
函数计算+云市场实现手机号归属地和图片爬虫系统设计 …

很荣幸今天能邀请大家来参加阿里云2018年的MVP的动手实践活动，今天小编带着大家完成两个动手实践活动，通过两个简单实用的例子来演示无服务器架构的真正魅力，case1：通过函数计算+Http触发器+云市场三者结合起来，提供一个能查询手机号归属地天气预报，case2：通过输入指定的网站抓取图片的案例，这两个例子都不需要配置WEB容器、不需要搭建运行环境、不需要…

云计算 2023年4月13日
000

读书笔记《Hadoop开源云计算平台》

相关文章