数据仓库和数据挖掘的区别

数据仓库和数据挖掘的区别

数据仓库

数据仓库是指一个集中、稳定、历史悠久、可供决策支持系统使用的数据管理系统,是一个分离于操作性系统的应用系统,按照主题维度对企业中分散、分散、分级存放的数据进行整合、清洗、转换和统一,得到的结构化、标准化的数据信息集合。从而为企业提供决策支持信息,提升企业决策水平,辅助企业发掘更多业务机会。

数据仓库通常具有以下特点:

  • 面向主题:按照某一主题进行数据的整合和存储,如客户、产品、销售等。
  • 集成性:数据来自于企业不同的数据库,并进行清洗、转换和标准化等步骤,使得数据具有一致、标准的格式。
  • 时间性:数据具有时间维度,能够体现历史、现在和未来的特征。
  • 稳定性:数据常态化存储,在数据量上进行扩充或缩小,保证数据的稳定性和用户体验。

以下是一段数据仓库的建模实例:

# 订单数据仓库

## 维度表

### 时间维度表

| 时间键 | 年 | 季度 | 月 | 日 | 周 | 节假日 | 备注 |
|:-----:|:--:|:--:|:--:|:--:|:--:|:-----:|:---:|
| 20190101 | 2019 | Q1 | 01 | 01 | 1 |   1   | 元旦  |
| 20190102 | 2019 | Q1 | 01 | 02 | 1 |   0   |       |

### 产品维度表

| 产品键 | 产品名称 | 产品类型 | 品牌 | 包装 | 价格 | 备注 |
|:------:|:------:|:------:|:---:|:----:|:---:|:---:|
|  1   |  可乐  |  饮料  |  可口可乐  |  500ml  |  3.5  |      |
|  2   |  红茶  |  饮料  |  王老吉  |  500ml  |  4.5  |      |

### 地区维度表

| 地区键 | 地区名称 | 城市 | 区/县 | 省份 | 国家 | 经度 | 纬度 | 备注 |
|:-----:|:-----:|:--:|:----:|:--:|:----:|:---:|:---:|:---:|
|  1  |  中国  |    |      |    |       |      |      |      |
|  2  |  上海  | 上海市 |   |    | 中国    |      |      |      |

## 事实表

### 订单事实表

| 订单键 | 时间键 | 产品键 | 地区键 | 销售额 | 数量 | 原价 | 折扣价 | 实付金额 | 备注 |
|:-----:|:---:|:----:|:----:|:----:|:---:|:---:|:---:|:----:|:---:|
|  1  |  20190101  | 1 | 2 | 8  | 2 | 7  | 7  | 14 |        |
|  2  |  20190102  | 2 | 2 | 13.5 | 3 | 13.5 | 13.5 | 40.5 |        |

以上是一个简单的订单数据仓库实例,其中主题为订单,维度有时间、产品和地区,事实为订单信息。

数据挖掘

数据挖掘是指对数据进行探索性的、非局限性的分析处理,通过对数据挖掘算法的应用提取数据的潜在、未知、重要信息,以此进行预测和发掘隐含的知识。数据挖掘的目标是通过数据挖掘算法找到内在的数据模式,发现特征关系、随机性和规律性,利用这些规律性预测新的事件和趋势,为决策提供更加全面、准确的信息。

数据挖掘常见的应用领域包括推荐系统、预测分析、聚类分析等。

以下是一段数据挖掘实例:

# Airbnb房源挖掘

## 数据集

数据集包含airbnb的房源信息,其中房源共有49,033个,含6个特征。

| 特征名称 | 特征类型 | 特征取值  |
|:-----:|:--:|:----:|
| neighbourhood_group | 字符串 | Brooklyn, Manhattan, Staten Island, Bronx, Queens |
| latitude | 浮点数 |    |
| longitude | 浮点数 |    |
| room_type | 字符串 | Entire home/apt, Private room, Shared room |
| price | 整数 |    |
| minimum_nights | 整数 |    |

## 需求

- 按照价格、房间类型和地理位置,统计每个区域的平均价格。
- 从最受欢迎的房型、地区、房东等方面分析airbnb房源的特征。
- 预测未来一个月的房源价格,根据uni-variate、multi-variate和时间序列分别建模和预测。

# 分析和建模

## 数据探索

首先通过对数据进行可视化,对特征进行探索,确定建模方法和预测特征。如下图:

![房源价格散点图][1]

![房源类型柱状图][2]

![房源地理位置热力图][3]

## 建模

1. uni-variate建模:使用单个特征变量(price)作为变量,建立价格预测模型。

2. multi-variate建模:使用多个特征变量(latitude, longitude, minimum_nights and number_of_reviews)作为变量,建立价格预测模型。

3. 时间序列分析: 使用时间维度分析airbnb房源价格的趋势,比较时间趋势差异,建立时间序列模型预测未来一个月的价格。

## 结论

在可视化数据和建模预测的基础上,我们得出以下结论:

- 从平均价格和房源数量的热力图可以看出,曼哈顿地区的房源价格最高,布鲁克林的房源数量最多。
- 对比不同的房型,Entire home/apt类型的房源数量最多,Shared room类型房源数量最少,但价格最低。
- uni-variate、multi-variate和时间序列模型预测结果均支持未来一个月的房源价格呈现稳定状态。

[1]: https://img-blog.csdnimg.cn/20210519115655852.png
[2]: https://img-blog.csdnimg.cn/20210519115727605.png
[3]: https://img-blog.csdnimg.cn/20210519115747777.png

以上是一个简单的Airbnb房源数据挖掘实例,其中通过可视化和建模预测的方式探索房源的特征和预测未来一个月的价格趋势。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:数据仓库和数据挖掘的区别 - Python技术站

(0)
上一篇 2023年3月27日
下一篇 2023年3月27日

相关文章

  • 大数据和数据挖掘的区别

    大数据和数据挖掘是两个概念,它们之间的区别很重要,因为它们能够帮助企业更好地了解数据和运用数据。以下是详细讲解大数据和数据挖掘的区别的完整攻略,并配有实例说明。 大数据 定义 大数据(Big Data)是指解决传统数据处理技术无法胜任的海量数据处理技术。它指的不仅仅是数据的规模,而是对于数据的采集、存储、管理、分析和挖掘提出了更高的技术和方法要求。 特点 速…

    bigdata 2023年3月27日
    00
  • 2023年最热门的10大数据分析工具

    过去几年中得益于技术的发展,每分钟生成的数据量呈指数级增加,我们在网上所做的一切行为都会产生某类数据。 DOMO的报告系列“数据永不眠”统计了每分钟生成的数据量。在第八版报告中,它显示单独的互联网分钟在 Netflix 上有超过400,000小时的视频流,用户在 Youtube 上流式传输 500 小时的视频,以及通过 WhatsApp 共享的近 4200 …

    2023年2月7日
    00
  • 数据科学家,数据工程师和数据分析师的区别

    数据科学家(Data Scientist)、数据工程师(Data Engineer)和数据分析师(Data Analyst)都是处理数据的角色,但在具体工作职责、技能需求和工作流程上有着不同的特点。 数据分析师(Data Analyst) 数据分析师是数据处理领域最常见的职位之一。他们的工作职责是对已有数据进行分析,找出数据中的规律和趋势,给出相关建议,帮助…

    bigdata 2023年3月27日
    00
  • 大数据中的常用技术有哪些?

    大数据中的常用技术有很多种,这里列举其中的几种主要技术。 Apache Hadoop Apache Hadoop 是一个开源的分布式计算机软件框架。使用 Hadoop 可以处理大数据集(如:超过 100GB)存储和分析工作。Hadoop 统计上已经成为大数据处理领域的事实标准。Hadoop 采用了分布式存储和计算的思想,底层基于 HDFS,MapReduce…

    大数据 2023年4月19日
    00
  • 大数据与运营

    大数据与运营的完整攻略,可以分为以下几个步骤: 1.收集数据 首先,需要确定要收集哪些数据。这些数据应该与你的业务或项目相关。确定好要收集哪些数据之后,需要选择合适的工具进行数据收集。比较常用的工具有 Google Analytics、Mixpanel、Flurry 等。 例如,网站运营需要了解用户的访问行为,可以使用 Google Analytics 进行…

    bigdata 2023年3月27日
    00
  • 大数据与数据仓库的区别

    大数据与数据仓库的区别 定义 大数据:大数据是指数据集大小超出传统技术及企业能力的范畴,需采用新技术和方法来处理和分析的数据。 数据仓库:数据仓库是数据集成、数据存储、数据管理、数据支持决策、数据质量控制于一体的面向主题的、集成的、可变的、历史的数据集合。 区别 数据规模:大数据是指数据集大小超出传统技术及企业能力的范畴,需要采用新技术和方法来处理和分析的数…

    bigdata 2023年3月27日
    00
  • 预测用户喜好的推荐算法

    推荐系统是一项能够预测用户喜好,将其推荐给用户的技术。推荐系统是多种技术的结合体,包括机器学习、数据挖掘、人工智能等。其中,预测用户喜好的推荐算法是推荐系统中最核心的部分之一。这里为你提供一份完整的攻略,帮助你了解预测用户喜好的推荐算法。 1. 收集数据 推荐算法的第一步是收集数据。收集数据是建立一个推荐系统的基础。你需要建立一个数据收集框架,从用户那里获取…

    bigdata 2023年3月27日
    00
  • 数据分析中的可视化技术有哪些?

    数据分析中的可视化技术有许多种。这里我将主要介绍以下几种可视化技术:折线图、柱状图、散点图、饼图和热力图。 折线图 折线图是一种常见的可视化技术,用于显示数据随时间或其他连续变量变化的趋势。通常用于监控数据变化,例如股票价格如何随时间波动。折线图的优点是它可以显示出长期趋势,但缺点是它可能过于简化了数据,并因此遗漏了一些细节。下面是一个绘制折线图的示例: i…

    大数据 2023年4月19日
    00
合作推广
合作推广
分享本页
返回顶部