大数据教程：关于大数据您需要知道的一切！

2023年1月8日下午6:03 • 认识大数据

无论您是不是业内人士，对于大数据这个词一定不陌生。在过去的 4 到 5 年里，每个人都在谈论大数据。但是您真的知道大数据到底是什么吗？它如何影响我们的生活？大量企业寻找具有大数据技能的专业人士的目的是什么？在本大数据教程中，将带您全面了解大数据。

大数据的来源

由于多种原因，近些年地球上的数据量呈指数级增长。各种来源和我们的日常活动会产生大量数据。随着互联网的诞生，整个世界都上网了，我们所做的每一件事都会留下数字痕迹。随着智能对象的上线，数据增速迅速提升。大数据的主要来源是社交媒体网站、传感器网络、数字图像/视频、手机、购买交易记录、网络日志、医疗记录、档案、军事监控、电子商务、复杂的科学研究等。而且目前每天都在产生新的大数据。

什么是大数据？

大数据是一个术语，用于描述大量复杂的数据集的集合，这些数据集很难使用可用的数据库管理工具或传统的数据处理应用程序进行存储和处理。挑战包括捕获、管理、存储、搜索、共享、传输、分析和可视化这些数据。

大数据特征

定义大数据的五个特征是：体积、速度、多样性、准确性和价值。

体积

体积指的是“数据量”，它每天都在以非常快的速度增长。人类、机器及其在社交媒体上的互动产生的数据量是巨大的。有研究报告显示，在 2020 年即产生了 40 ZB字节数据，比 2005 年增长了 300 倍。

速度

速度被定义为不同来源每天生成数据的速度。这种数据流是巨大且连续的。截至目前，移动设备上的每日活跃用户为 10.3 亿，同比增长 22%。这显示了社交媒体上用户数量的增长速度以及每天生成数据的速度。

多样性

大数据的来源多种多样，因此它们生成的数据类型也各不相同。它可以是结构化的、半结构化的或非结构化的。每天都会产生各种各样的数据。早些时候，我们过去常常从 excel 和数据库中获取数据，现在数据以图像、音频、视频、传感器数据等形式出现，如下图所示。因此，这种非结构化数据在捕获、存储、挖掘和分析数据方面产生了问题。

可用数据有时会变得混乱，并且可能难以信任。对于多种形式的大数据，质量和准确性都难以控制，就像带有标签、缩写、拼写错误和口语化的帖子一样。过多的数量通常是数据质量和准确性不足的原因之一。

非结构化的数据导致了一系列的问题：

由于数据的不确定性，三分之一的企业领导者不信任他们用来做出决策的信息。
在一项调查中发现，27% 的受访者不确定他们的数据有多少是不准确的。
糟糕的数据质量每年给美国经济造成约 3.1 万亿美元的损失。

价值

在讨论了体积、速度、多样性和准确性之后，在查看大数据时还应该考虑另一个 V，即价值。能够访问大数据固然很好，但除非我们能够将其转化为有价值的东西，否则它毫无用处。

如何让大数据产生可持续的价值？首先它需要为大数据分析的企业带来盈利，并且它可以使致力于大数据分析的企业实现高 ROI（投资回报率）。让企业通过处理大数据来增加他们的利润，这才是真正有价值的，否则大数据就是一张白纸毫无用处。

大数据的类型

大数据可以分为三种类型：

结构化的
半结构化
非结构化

结构化

可以以固定格式存储和处理的数据称为结构化数据。存储在关系数据库管理系统 (RDBMS) 中的数据是“结构化”数据的一个示例。结构化数据很容易处理，因为它有一个固定的模式。结构化查询语言 (SQL) 通常用于管理此类数据。

半结构化

半结构化数据是一种数据类型，它没有数据模型的正式结构，即关系 DBMS 中的表定义，但它具有一些组织属性，如标签和其他标记来分隔语义元素，使其更容易分析。XML 文件或 JSON 文档是半结构化数据的示例。

非结构化

具有未知形式并且不能存储在RDBMS中并且除非将其转换为结构化格式才能分析的数据称为非结构化数据。文本文件和图像、音频、视频等多媒体内容是非结构化数据的示例。非结构化数据的增长速度比其他数据更快，专家表示，组织中 80% 的数据都是非结构化数据。

大数据的实例

我们每天产生数百万字节的数据。世界上 90% 的数据是在过去两年内产生的。

以下是几个例子：

沃尔玛每小时处理超过 100 万笔客户交易。
Facebook 存储、访问和分析超过 30 PB的用户生成数据。
Twitter 每天创建230 多万条推文。
全球有超过 50 亿人使用手机打电话、发短信和浏览网页。
YouTube 用户每天每分钟上传 48 小时的新视频。
亚马逊每天处理1500 万客户点击流用户数据来推荐产品。
谷歌每天发送 2940 亿封电子邮件。服务分析此数据以查找垃圾邮件。
现代汽车有近 100 个监测油位、轮胎压力等的传感器，每辆车都会产生大量的传感器数据。

大数据的应用

近几年，大数据的重要性更加显而易见。很多前沿企业开始使用大数据。以下是比较热门的利用大数据提升效益的实际应用。

更智能的医疗保健：利用 PB 量级的患者数据，医疗机构可以提取有意义的信息，然后构建可以提前预测患者病情恶化的应用程序。
电信：电信部门收集信息，对其进行分析并针对不同问题提供解决方案。通过使用大数据应用程序，电信公司已经能够显着减少网络过载时发生的数据包丢失，从而为客户提供无缝连接。
零售业：零售业的利润率最低，是大数据的最大受益者之一。在零售业中使用大数据的好处在于了解消费者行为。亚马逊的推荐引擎根据消费者的浏览历史提供建议。
交通管制：交通拥堵是全球许多城市面临的主要挑战。随着城市人口越来越密集，有效使用数据和传感器将成为更好地管理交通的关键。
制造业：分析制造业中的大数据可以减少组件缺陷、提高产品质量、提高效率并节省时间和金钱。
搜索质量：每次我们从谷歌中提取信息时，我们都会同时为其生成数据。Google 存储这些数据并使用它来提高搜索质量。

有人说得对：“不是花园里的一切都是玫瑰色的！” 。以上内容向您展示了大数据的美好图景。但是，如果利用大数据并非如此容易，否则所有企业不都会对其进行投资了吗？事实确实没有如此。

这是因为使用大数据时会遇到一些挑战，让企业不得不付出更多的成本。

下一部分将向您阐明大数据面临的一些主要挑战。

大数据的挑战

数据质量——这里的问题是第 4个V 即准确性。这里的数据很乱，不一致，不完整。在美国，脏数据每年给公司造成 6000 亿美元的损失。
发现——寻找有关大数据的见解就像大海捞针。使用极其强大的算法分析 PB 级数据以找到模式和见解非常困难。
存储——组织拥有的数据越多，管理数据的问题就越复杂。这里出现的问题是“在哪里存储它？”。我们需要一个可以轻松按需扩展或缩减的存储系统。
分析——就大数据而言，大多数时候我们并不知道我们正在处理的数据类型，因此分析这些数据更加困难。
安全性——由于数据量巨大，确保数据安全是另一个挑战。它包括用户身份验证、基于用户的访问限制、记录数据访问历史、正确使用数据加密等。
人才匮乏——主要组织中有很多大数据项目，但一支由开发人员、数据科学家和分析师组成并拥有足够领域知识的成熟团队仍然是一个挑战。

大数据框架 Hadoop

我们有一个应对大数据挑战的救星——Hadoop。Hadoop 是一个开源的、基于 Java 的编程框架，支持在分布式计算环境中存储和处理超大数据集。它是 Apache 软件基金会赞助的 Apache 项目的一部分。

具有分布式处理能力的 Hadoop 比传统的企业数据仓库更有效地处理大量结构化和非结构化数据。Hadoop 使得在具有数千个商用硬件节点的系统上运行应用程序以及处理数千 TB 的数据成为可能。组织正在采用 Hadoop，因为它是一种开源软件，可以在商用硬件（您的个人计算机）上运行。由于商品硬件非常便宜，最初的成本节省是巨大的。随着组织数据的增加，您需要动态添加越来越多的商品硬件来存储它，因此，Hadoop 被证明是经济的。此外，Hadoop 背后有一个强大的 Apache 社区，该社区继续为其进步做出贡献。

这篇关于大数据教程的博客，为您提供了对大数据领域的大多数内容。在接下来的文章里，主要是了解和学习 Hadoop。我们有一系列 Hadoop 教程博客，将详细介绍完整的 Hadoop 生态系统。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：大数据教程：关于大数据您需要知道的一切！ - Python技术站

大数据

0 0 打赏

微信扫一扫

支付宝扫一扫

什么是大数据？– 大数据初学者指南

上一篇 2023年1月7日下午8:23

大数据分析是什么？——如何将理论转化为行动

下一篇 2023年1月8日下午8:11

ER模型中属性与关系的关系

ER模型是一种用于描述实体-关系之间的信息模型，其中实体代表现实世界中的对象，关系代表这些对象之间的联系。在ER模型中，属性表示实体所具有的特征，关系表示实体之间的联系。属性和关系之间有着密切的关系。属性和实体之间的关系：在ER模型中，如果一个实体具有某个特征，这个特征就被称为属性。属性是实体的一种基本特征。属性可以是唯一的，也可以是复杂的。唯一属性是指…

bigdata 2023年3月27日
000
数据预处理的步骤是什么？

数据预处理是数据分析中必不可少的步骤，它可以清除无效数据、处理缺失值和异常值，将数据转换为适合建模和分析的格式等。其基本步骤包括数据清洗、数据集成、数据变换和数据规约。以下是数据预处理步骤的详细解释以及两条示例说明：数据清洗数据清洗是指清除数据中的无效、错误、重复和不一致的部分，以减少后续分析中的误差。具体的清洗过程包括：删除重复数据；处理异常值；…

大数据 2023年4月19日
000
什么是信号处理？

什么是信号处理？信号处理是指对信号进行各种处理的过程。信号可以是人类声音、图像、物理现象等，信号处理的任务包括信号采集、处理、分析和还原等方面。信号处理是一门涉及到电子工程、计算机科学、统计学、数学和物理学的交叉学科。完成信号处理的攻略 1. 了解信号的基本概念在进行信号处理前，需要了解信号的基本概念，如采样率、带宽、功率谱密度等。信号的不同特性会对信…

大数据 2023年4月19日
000
认识大数据

大数据分析是什么？——如何将理论转化为行动

就像据说整个宇宙和我们的银河系是由于大爆炸形成的一样，同样，由于如此多的技术进步，数据也呈指数级增长，导致大数据爆炸。在此博客中，您将深入了解大数据分析及其应用。此数据来自各种来源，具有不同的格式，以可变速率生成，并且还可能包含不一致之处。因此，我们可以简单地将此类数据的爆炸称为大数据。我将在本博客中解释以下主题，让您深入了解大数据分析：为什么要进行大数…

2023年1月8日
000
数据科学与 Web开发的区别

区别介绍数据科学和 web 开发是两个不同的领域，其差异主要体现在以下几个方面：目的不同数据科学旨在从数据中进行分析和发现有价值的信息，以帮助做出决策。而 web 开发是为了创建和构建互联网应用程序和网站。技能需求不同数据科学需要精通数据分析、统计学、机器学习、可视化等技能。而 web 开发则需要精通编程语言和框架，如 JavaScript、Rea…

bigdata 2023年3月27日
000
数据可视化的步骤是什么？

数据可视化是将数据通过图形等视觉化方式进行呈现，帮助人们更加直观地理解数据的内容。数据可视化的步骤如下： 1. 数据准备数据可视化的前提是要有数据。在进行数据可视化之前，需要对数据进行整理、清洗、筛选等处理，以便更好地展现数据的特征和趋势。 2. 选择可视化工具选择合适的可视化工具可以帮助我们更快速地制作出高质量的可视化图表，如Excel、Tableau…

大数据 2023年4月19日
000
Hive 和 Hue 的区别

Hive和Hue是两个密切相关的工具，都是Hadoop生态系统当中的一部分。但是他们的功能和用途却不一样。接下来我们来分别详细讲解。 Hive 介绍 Hive是一个运行于Hadoop上的数据仓库框架，它可以协助我们以SQL的方式查询、处理和管理大规模的数据集。Hive把Hadoop认为是可扩展、高可用、高性能的数据存储，以及复杂数据处理的平台。 Hive的优…

bigdata 2023年3月27日
000
大数据和数据科学的区别

当我们在处理数据时，通常会使用“大数据”和“数据科学”的术语。虽然它们之间存在重叠，但它们具有不同的意义和聚焦点。大数据 “大数据”是一个用于描述数据集大小的术语，它指的是具有以下属性的数据：数据的大小远远超过了可一次性处理的存储和计算能力；数据可以是结构化、半结构化或非结构化的；它可以从任何数据源收集，包括数据交换、监视、日志记录、传感器等。大数据的功…

bigdata 2023年3月27日
000