云计算:分布式文件系统、云管理平台、虚拟化、结构化分布式数据存储、大规模并行计算。
云计算系统体系结构
虚拟化技术
存储虚拟化与统一IO
服务器和桌面的虚拟化
组件的虚拟化
交换系统虚拟化
网络虚拟化
网络服务虚拟化
虚拟化不等于云计算
虚拟化转化为云计算的要素:
动态计算基础设施
以IT服务为中心的方法
基于自助服务的使用资源
云计算关键技术:
一、资源管理与调度
二、分布式文件系统
三、智能空间管理实现资源动态分配
自动精简配置
快照空间自动扩展
分级存储
四、统一管理
五、并行计算
MapReduce技术
六、分布并行编程模型
数据并行处理技术
MapReduce举例:单词计数问题,如果有一个巨大的文本,如何计算单词出现的数目?
Step1:自动对文本进行分割split
Step2:在分割之后的每一对<key,value>进行用户定义的Map进行处理,再生成对
Step3:对输出的结果集归并
Step4:reduce操作生成最后的结果
特点:自己定义网页的物理含义。
互联网公司的大数据处理框架:
Google:GFS
亚马逊:S3
等等
CloudStack+Hadoop系统
Cloud平台和技术支持
Core CloudStack Components
从小到大:Host ,Primary Storage ,Cluster,Pod
问题:优化很难,但是逻辑上划分和分层的思想是正确的。划分后,问题清晰不复杂了,但是优化很难。
Deployment Architecture
资源池运营管理平台时序
CloudStack的主要功能:资源池、自动化管理
The Hadoop Ecosystem
HDFS:是整个系统的基础。整个设计都受限于HDFS。HDFS对每一个数据块创建多个副本,并实现高可靠的计算。他的核心就是分块和MapReduce。
HDFS的主要组件:NameNode (是主节点,存储元数据)+ DateNode(存储文件内容,存储文件块数据,以及块数据的校验和),前者在顶层,后者在下层。
文件:切分成块,64M,以块为单位,每个块有多个副本存储在不同的机器上,副本数可在文件生成时指定(默认3)
HDFS如何读文件?
节点失效
DateNode的磁盘挂了怎么办?
HBase 中的表一般有这样的特点:大、面向列、稀疏。
HBase整体架构
Hive:数据仓库工具。优点是学习成本低
Snoop:
Avro:
Tez:
Spark:并行计算框架,性能更高。适用于需要迭代的算法,比如机器学习和数据挖掘等。
下节课:怎么做学术报告的培训。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:云计算技术第二堂课20210310 - Python技术站