云计算:分布式文件系统、云管理平台、虚拟化、结构化分布式数据存储、大规模并行计算。

云计算系统体系结构

云计算技术第二堂课20210310

 

虚拟化技术

存储虚拟化与统一IO

服务器和桌面的虚拟化

组件的虚拟化

交换系统虚拟化

网络虚拟化

网络服务虚拟化

 

虚拟化不等于云计算

虚拟化转化为云计算的要素:

动态计算基础设施

以IT服务为中心的方法

基于自助服务的使用资源

 

云计算关键技术:

一、资源管理与调度

二、分布式文件系统

三、智能空间管理实现资源动态分配

自动精简配置

快照空间自动扩展

分级存储

四、统一管理

五、并行计算

MapReduce技术

六、分布并行编程模型

数据并行处理技术

MapReduce举例:单词计数问题,如果有一个巨大的文本,如何计算单词出现的数目?

Step1:自动对文本进行分割split

Step2:在分割之后的每一对<key,value>进行用户定义的Map进行处理,再生成对

Step3:对输出的结果集归并

Step4:reduce操作生成最后的结果

特点:自己定义网页的物理含义。

 

互联网公司的大数据处理框架:

Google:GFS

亚马逊:S3

等等

 

CloudStack+Hadoop系统

Cloud平台和技术支持

Core CloudStack Components

从小到大:Host ,Primary Storage ,Cluster,Pod

问题:优化很难,但是逻辑上划分和分层的思想是正确的。划分后,问题清晰不复杂了,但是优化很难。

Deployment Architecture

资源池运营管理平台时序

CloudStack的主要功能:资源池、自动化管理

The Hadoop Ecosystem

HDFS:是整个系统的基础。整个设计都受限于HDFS。HDFS对每一个数据块创建多个副本,并实现高可靠的计算。他的核心就是分块和MapReduce。

HDFS的主要组件:NameNode (是主节点,存储元数据)+ DateNode(存储文件内容,存储文件块数据,以及块数据的校验和),前者在顶层,后者在下层。

文件:切分成块,64M,以块为单位,每个块有多个副本存储在不同的机器上,副本数可在文件生成时指定(默认3)

 

HDFS如何读文件?

节点失效

DateNode的磁盘挂了怎么办?

 HBase 中的表一般有这样的特点:大、面向列、稀疏。

HBase整体架构

云计算技术第二堂课20210310

 

 

Hive:数据仓库工具。优点是学习成本低

Snoop:

Avro:

Tez:

Spark:并行计算框架,性能更高。适用于需要迭代的算法,比如机器学习和数据挖掘等。

下节课:怎么做学术报告的培训。