您必须了解的最全面的数据清洗指南！

由于大数据是机器学习和人工智能技术的前提，所以企业需要确保大数据的质量。

尽管市场上有可以帮助企业获得干净且结构化的数据，但这些平台并不能使确保企业自身数据的质量。因此，企业需要了解数据清洗策略的必要步骤，并使用数据清洗工具来消除数据集中的问题。

数据清理（或数据清洗）泛指为帮助企业拥有更好的数据而开发的工作流。

我们在这篇文章中介绍的与数据清理相关的一些常见问题包括以下：

什么是数据清洗？

数据清理或清理是从数据库或表中更正和删除不准确记录的过程。从广义上讲，数据清理或清理包括识别和替换不完整、不准确、不相关或有其他问题（“脏”）的数据和记录。

通过有效的清理，所有数据集都应该是一致的，并且没有任何在以后的使用或分析过程中可能出现问题的错误。

数据清洗和数据迁移有什么关系？

数据迁移是从一个位置提取数据并将其传输到另一个位置的过程。尽管这个过程看起来很简单，但它的主要挑战是提取的数据最终存放的位置可能已经包含重复项、不完整或格式错误。

为什么我们需要数据清洗？

数据可以说是组织必须帮助支持和引导其成功的最重要资产之一。根据IBM的一项研究，糟糕的数据质量每年在美国造成 3.1 万亿美元的损失。所以劣质数据应立即修复。

不准确数据可能引起的一些问题示例如下：

营销：一种使用低质量数据并向用户提供不相关优惠的广告活动。这不仅会降低客户满意度，还会错失重要的销售机会。
销售：销售代表未能联系以前的客户，因为没有他们完整、准确的数据。
合规性：任何因不满足其客户的数据隐私规则而受到政府处罚的在线业务。因此，数据清理供应商应向您提供充分的保证，确保数据将在 GDPR 合规框架内进行处理。
操作：根据低质量的操作数据配置机器人和其他生产机器，可能会给制造公司带来重大问题

行业

医疗保健：在医疗保健领域，肮脏可能导致错误的治疗和失败的药物治疗。根据埃森哲的一项调查，18% 的医疗保健主管认为缺乏干净的数据是人工智能在医疗保健领域发挥真正潜力的主要障碍。
会计与财务：不准确和不完整的数据可能会导致违反监管规定、由于人工检查而延迟决策以及次优交易策略。
制造与物流：库存估值取决于准确的数据。如果数据丢失或不一致，这可能会导致交付问题和客户不满意。
干净的数据使组织能够避免这些情况和问题。

数据清洗有什么好处？

更高质量的数据会影响包含数据的每项活动。几乎所有现代业务流程都涉及数据。随后，当数据清理被视为一项重要的组织工作时，它可以为所有人带来广泛的好处。一些最大的优势包括：

简化的业务实践：想象一下，如果您的任何记录中没有重复、错误或不一致的情况。您所有主要的日常活动的效率会提高多少？
提高生产力：能够专注于关键工作任务，而不是找到正确的数据或因数据不正确而不得不进行更正，这一点至关重要。在有效的知识管理的帮助下，获得干净的高质量数据可以改变游戏规则。
更快的销售周期：营销决策取决于数据。为您的营销部门提供尽可能最好的质量数据意味着您的销售团队可以转换更好、更多的销售线索。同样的概念也适用于 B2C 关系！
更好的决策：我们之前提到过这一点，但它非常重要，值得重复。更好的数据 = 更好的决策。
这些不同的好处结合在一起通常会带来更有利可图的业务。这不仅是因为更好的外部销售工作，还因为更有效的内部工作和运营。

有哪些不同类型的数据问题？

当企业合并来自多个地方的数据集、从网络上抓取数据或从客户/其他部门接收数据时，会出现各种类型的数据问题。一些示例数据问题是：

重复数据：有 2 个或更多相同的记录。这可能会导致库存计数的虚假陈述/营销抵押品的重复或不必要的计费活动。
冲突数据：当有相同记录但属性不同时，表示数据冲突。例如，具有不同版本地址的公司可能会导致交付问题。
不完整数据：缺少属性的数据。由于数据库中缺少社会安全号码，员工的工资单可能无法处理。
无效数据：数据属性不符合标准。例如，记录 9 位电话号码而不是 10 位。

数据问题的根本原因是什么？

数据问题是由于技术问题引起的，例如：

同步问题：当两个系统之间的数据共享不当时，也可能会导致问题。例如，银行销售系统捕获了一个新的抵押贷款，但未能更新银行的营销系统，那么如果客户从营销部门收到消息，他们可能会感到困惑。
数据处理应用程序中的软件错误：由于各种错误，应用程序可能会写入错误的数据或覆盖正确的数据。
用户信息混淆：有意隐藏数据。人们可能会提供不完整或不正确的数据以保护他们的隐私。

什么是高质量数据？

有一些标准有助于将数据限定为高质量。他们是：

有效性：数据与定义的业务规则或约束的符合程度。一些常见的约束包括：
- 强制约束：某些列不能为空
- 数据类型约束：列中的值必须属于特定数据类型
- 范围限制：数字或日期的最小值和最大值
- 外键约束：列中的一组值在包含唯一值的另一个表的列中定义
- 唯一约束：一个或多个字段在数据集中必须是唯一的
- 正则表达式模式：必须以这种方式验证文本字段。
- 跨字段验证：必须满足使用多个字段的某些条件
- 集合成员约束：这是外键约束的子类别。列的值来自一组离散值或代码。
准确性：数据与标准或真实值的符合程度。
完整性：已知的数据和相关措施的彻底性或全面性
一致性：跨系统和主题的措施的等效性
统一性：确保在所有系统中使用相同的计量单位
可追溯性：能够找到（和访问）数据源
及时性：数据更新的速度和最近程度

这些不同的特征一起可以帮助组织拥有高质量的数据，并且可以用于广泛的目的，而对有根据的假设的需求最少。

清洁数据的 5 个步骤

想要更干净的数据？有时考虑聘请外部顾问来帮助您开始可能会有所帮助。但是，在您这样做之前，任何组织都可以遵循一些通用步骤来开始进入更好的数据清理心态：

1 制定数据质量计划

必须首先了解大部分错误发生的位置，以便确定根本原因并制定管理计划。请记住，有效的数据清理实践将对整个组织产生总体影响，因此尽可能保持开放和沟通非常重要。一个计划需要包括

负责人：C 级高管、首席数据官 (CDO)（如果公司已经任命了这样的高管）。此外，需要为不同的数据分配业务和技术负责人
指标：理想情况下，数据质量应该可以概括为 1-100 范围内的单个数字。虽然不同的数据可能具有不同的数据质量，但拥有一个总体数字可以帮助组织衡量其持续改进。这个总数可以给对公司成功至关重要的数据更多的权重，帮助优先考虑影响重要数据的数据质量计划。
行动：应该确定一组明确的行动来启动数据质量计划。随着时间的推移，这些行动将需要随着数据质量的变化和公司优先事项的变化而更新。

2 从源头更正数据

如果可以在数据成为系统中的错误（或重复）条目之前修复数据，则可以节省数小时的时间并减轻生产线的压力。例如，如果您的表单人满为患并且需要填写的字段太多，您将从这些表单中获得数据质量问题。鉴于企业不断产生更多数据，从源头修复数据至关重要。

3 衡量数据准确性

投入必要的时间、工具和研究来实时衡量数据的准确性。如果您需要购买数据质量工具来衡量数据准确性，您可以查看我们的数据质量工具文章，其中我们解释了正确数据质量工具的选择标准。

衡量数据准确性的另一种方法是根据公共资源进行检查。对于自动化网络数据提取，您可以依靠网络爬虫或网络抓取 API（例如Bright Data 的 Web Scraper）从在线资源中提取数据并以指定格式交付给您。

4 管理数据和重复项

如果某些重复项确实偷偷通过了您的新条目实践，请务必主动检测并删除它们。删除所有重复条目后，还必须考虑以下事项：

标准化：确认每一列中存在相同类型的数据。
规范化：确保所有数据的记录一致。
合并：当数据分散在多个数据集中时，合并是组合这些数据集的相关部分以创建新文件的行为。
聚合：对数据进行排序并以摘要形式表示。
过滤：缩小数据集以仅包含我们想要的信息
缩放：转换数据以使其适合特定比例，例如 0-100 或 0-1
删除：删除重复和离群数据点以防止线性回归中的拟合不佳。

5 添加数据

追加是一个帮助组织定义和完成缺失信息的过程。可靠的第三方来源通常是管理这种做法的最佳选择之一。

完成这 5 个步骤后，您的数据就可以导出到数据目录，并在需要分析时使用。请记住，对于大型数据集，几乎不可能实现 100% 的清洁度。

清理数据可能具有挑战性，它只是数据科学项目的组成部分之一。或者，您可以从数据科学咨询服务中受益，以满足您所有与数据相关的需求。Positronic 是一家数据科学和人工智能顾问，提供从数据收集、清洗、标记和分析到深度学习应用程序的端到端数据科学解决方案。

数据清理技术

与许多其他行动一样，确保大数据的清洁度有其独特的考虑因素。随后，已经开发了许多技术来帮助清洗大数据：

转换表：当某些数据问题已知时（例如，数据集中包含的名称以多种方式编写），可以通过相关键对其进行排序，然后可以使用查找来进行转换。
直方图：这些允许识别出现频率较低且可能无效的值。
工具：每天，主要供应商都在推出新的更好的工具来管理大数据以及随之而来的复杂性。
算法：例如拼写检查或语音算法可能很有用——但它们也可能会给出错误的建议。

关于手动数据干预

今天，手动编辑数据以进行改进几乎是不经济的。然而，如果数据非常有价值，或者需要数百万个标记数据点（如图像识别系统），手动数据更新可能是有意义的。如果要对数据进行手动更新，请牢记一些最佳实践，包括：

确保按不同属性对数据进行排序
对于较大的数据集，尝试将它们分解成较小的集合以提高迭代速度
考虑创建一组实用函数，例如基于 CSV 文件或正则表达式搜索和替换的重新映射值
记录每次清洁操作
抽样是评估质量的好方法。了解数据质量容差限值后，这些可以帮助您确定样本大小以评估质量。例如，如果您有 1,000 行并且需要确保数据质量问题的发生率不超过 5%，则检查 10% 的案例
分析汇总统计数据，例如标准偏差或缺失值数量，以快速定位最常见的问题
在任何手动数据清理计划中牢记这些有助于确保项目的持续成功。

数据清理的最佳实践

在任何数据清理工作中，都应牢记几个最佳实践。他们是：

尽可能以最全面的方式考虑您的数据——不仅要考虑谁将进行分析，还要考虑谁将使用从中得出的结果
增加对数据库输入的控制可以确保更干净的数据最终在系统中使用
选择能够在故障数据出现问题之前突出显示甚至可能解决故障数据的软件解决方案
在大型数据集的情况下，请务必限制样本大小，以最大程度地减少准备时间并提高性能
全程抽查以防止任何错误被复制。
如果你想在内部处理数据清洗，而你的数据团队在数据清洗方面没有足够的经验，可以利用免费的在线课程，比如数据科学竞赛平台Kaggle 的数据清洗课程。

数据清理的挑战

数据清理虽然对于您的组织的持续成功至关重要，但并非没有其自身的挑战。一些最常见的包括：

对导致异常的原因的了解有限，在创建正确的转换方面造成困难
数据删除，信息丢失导致数据不完整，无法准确“填写”
持续维护可能既昂贵又耗时
很难构建数据清理图来提前协助流程

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：您必须了解的最全面的数据清洗指南！ - Python技术站