无论您是不是业内人士,对于大数据这个词一定不陌生。在过去的 4 到 5 年里,每个人都在谈论大数据。但是您真的知道大数据到底是什么吗?它如何影响我们的生活?大量企业寻找具有大数据技能的专业人士的目的是什么?在本大数据教程中,将带您全面了解大数据。
大数据的来源
由于多种原因,近些年地球上的数据量呈指数级增长。各种来源和我们的日常活动会产生大量数据。随着互联网的诞生,整个世界都上网了,我们所做的每一件事都会留下数字痕迹。随着智能对象的上线,数据增速迅速提升。大数据的主要来源是社交媒体网站、传感器网络、数字图像/视频、手机、购买交易记录、网络日志、医疗记录、档案、军事监控、电子商务、复杂的科学研究等。而且目前每天都在产生新的大数据。
什么是大数据?
大数据是一个术语,用于描述大量复杂的数据集的集合,这些数据集很难使用可用的数据库管理工具或传统的数据处理应用程序进行存储和处理。挑战包括捕获、管理、存储、搜索、共享、传输、分析和可视化这些数据。
大数据特征
定义大数据的五个特征是:体积、速度、多样性、准确性和价值。
体积
体积 指的是“数据量”,它每天都在以非常快的速度增长。人类、机器及其在社交媒体上的互动产生的数据量是巨大的。有研究报告显示,在 2020 年即产生了 40 ZB字节数据,比 2005 年增长了 300 倍。
速度
速度被定义为不同来源每天生成数据的速度。这种数据流是巨大且连续的。截至目前,移动设备上的每日活跃用户为 10.3 亿,同比增长 22%。这显示了社交媒体上用户数量的增长速度以及每天生成数据的速度。
多样性
大数据的来源多种多样,因此它们生成的数据类型也各不相同。它可以是结构化的、半结构化的或非结构化的。每天都会产生各种各样的数据。早些时候,我们过去常常从 excel 和数据库中获取数据,现在数据以图像、音频、视频、传感器数据等形式出现,如下图所示。因此,这种非结构化数据在捕获、存储、挖掘和分析数据方面产生了问题。
可用数据有时会变得混乱,并且可能难以信任。对于多种形式的大数据,质量和准确性都难以控制,就像带有标签、缩写、拼写错误和口语化的帖子一样。过多的数量通常是数据质量和准确性不足的原因之一。
非结构化的数据导致了一系列的问题:
- 由于数据的不确定性,三分之一的企业领导者不信任他们用来做出决策的信息。
- 在一项调查中发现,27% 的受访者不确定他们的数据有多少是不准确的。
- 糟糕的数据质量每年给美国经济造成约 3.1 万亿美元的损失。
价值
在讨论了 体积、速度、多样性和准确性 之后,在查看大数据时还应该考虑另一个 V,即价值。能够访问大数据固然很好,但除非我们能够将其转化为有价值的东西,否则它毫无用处。
如何让大数据产生可持续的价值?首先它需要为大数据分析的企业带来盈利,并且它可以使致力于大数据分析的企业实现高 ROI(投资回报率)。让企业通过处理大数据来增加他们的利润,这才是真正有价值的,否则大数据就是一张白纸毫无用处。
大数据的类型
大数据可以分为三种类型:
- 结构化的
- 半结构化
- 非结构化
结构化
可以以固定格式存储和处理的数据称为结构化数据。存储在关系数据库管理系统 (RDBMS) 中的数据是“结构化”数据的一个示例。结构化数据很容易处理,因为它有一个固定的模式。结构化查询语言 (SQL) 通常用于管理此类数据。
半结构化
半结构化数据是一种数据类型,它没有数据模型的正式结构,即关系 DBMS 中的表定义,但它具有一些组织属性,如标签和其他标记来分隔语义元素,使其更容易分析。XML 文件或 JSON 文档是半结构化数据的示例。
非结构化
具有未知形式并且不能存储在RDBMS中并且除非将其转换为结构化格式才能分析的数据称为非结构化数据。文本文件和图像、音频、视频等多媒体内容是非结构化数据的示例。非结构化数据的增长速度比其他数据更快,专家表示,组织中 80% 的数据都是非结构化数据。
大数据的实例
我们每天产生数百万字节的数据。世界上 90% 的数据是在过去两年内产生的。
以下是几个例子:
- 沃尔玛每小时处理超过 100 万笔客户交易。
- Facebook 存储、访问和分析超过 30 PB的用户生成数据。
- Twitter 每天创建230 多万条推文。
- 全球有超过 50 亿人使用手机打电话、发短信和浏览网页。
- YouTube 用户每天每分钟上传 48 小时的新视频。
- 亚马逊每天处理1500 万客户点击流用户数据来推荐产品。
- 谷歌每天发送 2940 亿封电子邮件。服务分析此数据以查找垃圾邮件。
- 现代汽车有近 100 个监测油位、轮胎压力等的传感器,每辆车都会产生大量的传感器数据。
大数据的应用
近几年,大数据的重要性更加显而易见。很多前沿企业开始使用大数据。以下是比较热门的利用大数据提升效益的实际应用。
- 更智能的医疗保健:利用 PB 量级的患者数据,医疗机构可以提取有意义的信息,然后构建可以提前预测患者病情恶化的应用程序。
- 电信:电信部门收集信息,对其进行分析并针对不同问题提供解决方案。通过使用大数据应用程序,电信公司已经能够显着减少网络过载时发生的数据包丢失,从而为客户提供无缝连接。
- 零售业:零售业的利润率最低,是大数据的最大受益者之一。在零售业中使用大数据的好处在于了解消费者行为。亚马逊的推荐引擎根据消费者的浏览历史提供建议。
- 交通管制:交通拥堵是全球许多城市面临的主要挑战。随着城市人口越来越密集,有效使用数据和传感器将成为更好地管理交通的关键。
- 制造业:分析制造业中的大数据可以减少组件缺陷、提高产品质量、提高效率并节省时间和金钱。
- 搜索质量:每次我们从谷歌中提取信息时,我们都会同时为其生成数据。Google 存储这些数据并使用它来提高搜索质量。
有人说得对:“不是花园里的一切都是玫瑰色的!” 。 以上内容向您展示了大数据的美好图景。但是,如果利用大数据并非如此容易,否则所有企业不都会对其进行投资了吗?事实确实没有如此。
这是因为使用大数据时会遇到一些挑战,让企业不得不付出更多的成本。
下一部分将向您阐明大数据面临的一些主要挑战。
大数据的挑战
-
数据质量——这里的问题是第 4个V 即准确性。这里的数据很乱,不一致,不完整。在美国,脏数据每年给公司造成 6000 亿美元的损失。
-
发现——寻找有关大数据的见解就像大海捞针。使用极其强大的算法分析 PB 级数据以找到模式和见解非常困难。
-
存储——组织拥有的数据越多,管理数据的问题就越复杂。这里出现的问题是“在哪里存储它?”。我们需要一个可以轻松按需扩展或缩减的存储系统。
-
分析——就大数据而言,大多数时候我们并不知道我们正在处理的数据类型,因此分析这些数据更加困难。
-
安全性——由于数据量巨大,确保数据安全是另一个挑战。它包括用户身份验证、基于用户的访问限制、记录数据访问历史、正确使用数据加密等。
-
人才匮乏——主要组织中有很多大数据项目,但一支由开发人员、数据科学家和分析师组成并拥有足够领域知识的成熟团队仍然是一个挑战。
大数据框架 Hadoop
我们有一个应对大数据挑战的救星——Hadoop。Hadoop 是一个开源的、基于 Java 的编程框架,支持在分布式计算环境中存储和处理超大数据集。它是 Apache 软件基金会赞助的 Apache 项目的一部分。
具有分布式处理能力的 Hadoop 比传统的企业数据仓库更有效地处理大量结构化和非结构化数据。Hadoop 使得在具有数千个商用硬件节点的系统上运行应用程序以及处理数千 TB 的数据成为可能。组织正在采用 Hadoop,因为它是一种开源软件,可以在商用硬件(您的个人计算机)上运行。由于商品硬件非常便宜,最初的成本节省是巨大的。随着组织数据的增加,您需要动态添加越来越多的商品硬件来存储它,因此,Hadoop 被证明是经济的。此外,Hadoop 背后有一个强大的 Apache 社区,该社区继续为其进步做出贡献。
这篇关于大数据教程的博客,为您提供了对大数据领域的大多数内容。在接下来的文章里,主要是了解和学习 Hadoop。我们有一系列 Hadoop 教程博客,将详细介绍完整的 Hadoop 生态系统。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:大数据教程:关于大数据您需要知道的一切! - Python技术站