数据仓库和数据挖掘的区别

数据仓库和数据挖掘的区别

数据仓库

数据仓库是指一个集中、稳定、历史悠久、可供决策支持系统使用的数据管理系统,是一个分离于操作性系统的应用系统,按照主题维度对企业中分散、分散、分级存放的数据进行整合、清洗、转换和统一,得到的结构化、标准化的数据信息集合。从而为企业提供决策支持信息,提升企业决策水平,辅助企业发掘更多业务机会。

数据仓库通常具有以下特点:

  • 面向主题:按照某一主题进行数据的整合和存储,如客户、产品、销售等。
  • 集成性:数据来自于企业不同的数据库,并进行清洗、转换和标准化等步骤,使得数据具有一致、标准的格式。
  • 时间性:数据具有时间维度,能够体现历史、现在和未来的特征。
  • 稳定性:数据常态化存储,在数据量上进行扩充或缩小,保证数据的稳定性和用户体验。

以下是一段数据仓库的建模实例:

# 订单数据仓库

## 维度表

### 时间维度表

| 时间键 | 年 | 季度 | 月 | 日 | 周 | 节假日 | 备注 |
|:-----:|:--:|:--:|:--:|:--:|:--:|:-----:|:---:|
| 20190101 | 2019 | Q1 | 01 | 01 | 1 |   1   | 元旦  |
| 20190102 | 2019 | Q1 | 01 | 02 | 1 |   0   |       |

### 产品维度表

| 产品键 | 产品名称 | 产品类型 | 品牌 | 包装 | 价格 | 备注 |
|:------:|:------:|:------:|:---:|:----:|:---:|:---:|
|  1   |  可乐  |  饮料  |  可口可乐  |  500ml  |  3.5  |      |
|  2   |  红茶  |  饮料  |  王老吉  |  500ml  |  4.5  |      |

### 地区维度表

| 地区键 | 地区名称 | 城市 | 区/县 | 省份 | 国家 | 经度 | 纬度 | 备注 |
|:-----:|:-----:|:--:|:----:|:--:|:----:|:---:|:---:|:---:|
|  1  |  中国  |    |      |    |       |      |      |      |
|  2  |  上海  | 上海市 |   |    | 中国    |      |      |      |

## 事实表

### 订单事实表

| 订单键 | 时间键 | 产品键 | 地区键 | 销售额 | 数量 | 原价 | 折扣价 | 实付金额 | 备注 |
|:-----:|:---:|:----:|:----:|:----:|:---:|:---:|:---:|:----:|:---:|
|  1  |  20190101  | 1 | 2 | 8  | 2 | 7  | 7  | 14 |        |
|  2  |  20190102  | 2 | 2 | 13.5 | 3 | 13.5 | 13.5 | 40.5 |        |

以上是一个简单的订单数据仓库实例,其中主题为订单,维度有时间、产品和地区,事实为订单信息。

数据挖掘

数据挖掘是指对数据进行探索性的、非局限性的分析处理,通过对数据挖掘算法的应用提取数据的潜在、未知、重要信息,以此进行预测和发掘隐含的知识。数据挖掘的目标是通过数据挖掘算法找到内在的数据模式,发现特征关系、随机性和规律性,利用这些规律性预测新的事件和趋势,为决策提供更加全面、准确的信息。

数据挖掘常见的应用领域包括推荐系统、预测分析、聚类分析等。

以下是一段数据挖掘实例:

# Airbnb房源挖掘

## 数据集

数据集包含airbnb的房源信息,其中房源共有49,033个,含6个特征。

| 特征名称 | 特征类型 | 特征取值  |
|:-----:|:--:|:----:|
| neighbourhood_group | 字符串 | Brooklyn, Manhattan, Staten Island, Bronx, Queens |
| latitude | 浮点数 |    |
| longitude | 浮点数 |    |
| room_type | 字符串 | Entire home/apt, Private room, Shared room |
| price | 整数 |    |
| minimum_nights | 整数 |    |

## 需求

- 按照价格、房间类型和地理位置,统计每个区域的平均价格。
- 从最受欢迎的房型、地区、房东等方面分析airbnb房源的特征。
- 预测未来一个月的房源价格,根据uni-variate、multi-variate和时间序列分别建模和预测。

# 分析和建模

## 数据探索

首先通过对数据进行可视化,对特征进行探索,确定建模方法和预测特征。如下图:

![房源价格散点图][1]

![房源类型柱状图][2]

![房源地理位置热力图][3]

## 建模

1. uni-variate建模:使用单个特征变量(price)作为变量,建立价格预测模型。

2. multi-variate建模:使用多个特征变量(latitude, longitude, minimum_nights and number_of_reviews)作为变量,建立价格预测模型。

3. 时间序列分析: 使用时间维度分析airbnb房源价格的趋势,比较时间趋势差异,建立时间序列模型预测未来一个月的价格。

## 结论

在可视化数据和建模预测的基础上,我们得出以下结论:

- 从平均价格和房源数量的热力图可以看出,曼哈顿地区的房源价格最高,布鲁克林的房源数量最多。
- 对比不同的房型,Entire home/apt类型的房源数量最多,Shared room类型房源数量最少,但价格最低。
- uni-variate、multi-variate和时间序列模型预测结果均支持未来一个月的房源价格呈现稳定状态。

[1]: https://img-blog.csdnimg.cn/20210519115655852.png
[2]: https://img-blog.csdnimg.cn/20210519115727605.png
[3]: https://img-blog.csdnimg.cn/20210519115747777.png

以上是一个简单的Airbnb房源数据挖掘实例,其中通过可视化和建模预测的方式探索房源的特征和预测未来一个月的价格趋势。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:数据仓库和数据挖掘的区别 - Python技术站

(0)
上一篇 2023年3月27日
下一篇 2023年3月27日

相关文章

  • 超级计算和量子计算的区别

    超级计算和量子计算的区别 超级计算 超级计算,也称为高性能计算,是利用高度可扩展的系统完成大量和复杂的计算任务。它具有高带宽、高计算能力、大内存等特点,能够在相对较短的时间内处理海量数据。超级计算通常采用并行计算的方式,将一个任务分解成多个子任务,由多个计算机节点分别进行计算,最后将结果汇总得到最终结果。超级计算广泛应用于气象预测、天文学、生物学、金融等众多…

    bigdata 2023年3月27日
    00
  • 数据挖掘典型场景及其应用的算法

    数据挖掘的典型场景及其应用算法 1. 电子商务领域 1.1 商品推荐 商品推荐是电子商务最常见的应用场景之一,通过用户的历史购买记录、搜索词、浏览记录等信息,推荐用户可能感兴趣的商品。 常用算法:协同过滤、基于内容的过滤、隐语义模型、矩阵分解等。 实例说明: 以电商平台购物车推荐为例。当用户加入商品到购物车时,根据购物车中已选商品,用户浏览记录、商品分类等信…

    bigdata 2023年3月27日
    00
  • 数据科学和人工智能的区别

    数据科学和人工智能的区别 在当前信息化技术快速发展的时代,数据科学和人工智能成为了热门话题,也是电子商务、金融、医疗、物流等领域研究的关键。它们同样都涉及到数据的处理、分析和预测,但却有着不同的重点和应用场景。 数据科学 数据科学在处理信息中主要关注于数据的处理和分析。数据科学家通过数据分析来发掘数据背后的规律和趋势,帮助企业分析业务数据、提高数据质量,并通…

    bigdata 2023年3月27日
    00
  • 商业智能和商业分析的区别

    商业智能和商业分析两者常常被视为同一概念,但在实际应用中,它们有明显的区别。本文将详细讲解商业智能和商业分析的区别,同时通过实例进行说明。 商业智能和商业分析的定义 商业智能(Business Intelligence)是一种基于数据整合和可视化的数据分析系统,可以基于多种数据维度,通过数据挖掘和数据分析算法,从数据源中进行关键信息的提取、整合和展示,支持用…

    bigdata 2023年3月27日
    00
  • DSS和专家系统的区别

    DSS(Decision Support System)和专家系统(Expert System)都是用于帮助人们在做决策时提供支持的计算机应用程序。然而,它们在解决问题的方式和功能上存在明显的区别。在本篇攻略中,我将结合实例详细讲解DSS和专家系统的区别。 1. DSS的定义 DSS即决策支持系统,是通过结合计算机技术、数学模型和决策理论,为决策者提供合理的…

    bigdata 2023年3月27日
    00
  • 大数据技术发展史

    大数据技术发展史的完整攻略可以分为以下几个阶段:数据采集、数据存储与处理、数据分析与挖掘。以下将对每个阶段进行详细阐述,并且对每个阶段都会用实例说明。 阶段一:数据采集 数据采集是大数据技术发展史的重要阶段之一,也是整个大数据处理的第一步。在这个阶段,我们需要把各种数据来源收集起来,为后面的处理做好准备。 实例:例如,现在我们需要收集社交媒体平台上的用户数据…

    bigdata 2023年3月27日
    00
  • 云计算和大数据分析的区别

    云计算和大数据分析的区别 什么是云计算 云计算是一种通过互联网提供计算资源和服务的方式,即将计算资源进行云化,使其可以以服务的形式向用户提供。 云计算的优点是可以实现快速、高效地部署、管理和扩展基础设施,使计算资源可以根据需要进行动态调整,从而降低了企业信息化建设的成本。 例如,很多企业需要购买服务器来存储和处理数据,但是这样的投资成本非常高,同时,服务器的…

    bigdata 2023年3月27日
    00
  • 大数据和预测分析的区别

    一、大数据和预测分析的概念 大数据指的是数据集过大、复杂度高、处理难度大等特征的数据,传统的数据处理方法已经难以胜任,需要借助大数据技术进行有效的处理和分析。 预测分析则是根据历史数据和趋势,预测未来某种现象或事件的发生情况。 二、大数据和预测分析的联系 大数据往往为预测分析提供了更多更全面的数据支持。传统的数据处理方式往往无法处理大量的数据,而通过利用大数…

    bigdata 2023年3月27日
    00
合作推广
合作推广
分享本页
返回顶部