数据仓库和数据挖掘的区别
数据仓库
数据仓库是指一个集中、稳定、历史悠久、可供决策支持系统使用的数据管理系统,是一个分离于操作性系统的应用系统,按照主题维度对企业中分散、分散、分级存放的数据进行整合、清洗、转换和统一,得到的结构化、标准化的数据信息集合。从而为企业提供决策支持信息,提升企业决策水平,辅助企业发掘更多业务机会。
数据仓库通常具有以下特点:
- 面向主题:按照某一主题进行数据的整合和存储,如客户、产品、销售等。
- 集成性:数据来自于企业不同的数据库,并进行清洗、转换和标准化等步骤,使得数据具有一致、标准的格式。
- 时间性:数据具有时间维度,能够体现历史、现在和未来的特征。
- 稳定性:数据常态化存储,在数据量上进行扩充或缩小,保证数据的稳定性和用户体验。
以下是一段数据仓库的建模实例:
# 订单数据仓库
## 维度表
### 时间维度表
| 时间键 | 年 | 季度 | 月 | 日 | 周 | 节假日 | 备注 |
|:-----:|:--:|:--:|:--:|:--:|:--:|:-----:|:---:|
| 20190101 | 2019 | Q1 | 01 | 01 | 1 | 1 | 元旦 |
| 20190102 | 2019 | Q1 | 01 | 02 | 1 | 0 | |
### 产品维度表
| 产品键 | 产品名称 | 产品类型 | 品牌 | 包装 | 价格 | 备注 |
|:------:|:------:|:------:|:---:|:----:|:---:|:---:|
| 1 | 可乐 | 饮料 | 可口可乐 | 500ml | 3.5 | |
| 2 | 红茶 | 饮料 | 王老吉 | 500ml | 4.5 | |
### 地区维度表
| 地区键 | 地区名称 | 城市 | 区/县 | 省份 | 国家 | 经度 | 纬度 | 备注 |
|:-----:|:-----:|:--:|:----:|:--:|:----:|:---:|:---:|:---:|
| 1 | 中国 | | | | | | | |
| 2 | 上海 | 上海市 | | | 中国 | | | |
## 事实表
### 订单事实表
| 订单键 | 时间键 | 产品键 | 地区键 | 销售额 | 数量 | 原价 | 折扣价 | 实付金额 | 备注 |
|:-----:|:---:|:----:|:----:|:----:|:---:|:---:|:---:|:----:|:---:|
| 1 | 20190101 | 1 | 2 | 8 | 2 | 7 | 7 | 14 | |
| 2 | 20190102 | 2 | 2 | 13.5 | 3 | 13.5 | 13.5 | 40.5 | |
以上是一个简单的订单数据仓库实例,其中主题为订单,维度有时间、产品和地区,事实为订单信息。
数据挖掘
数据挖掘是指对数据进行探索性的、非局限性的分析处理,通过对数据挖掘算法的应用提取数据的潜在、未知、重要信息,以此进行预测和发掘隐含的知识。数据挖掘的目标是通过数据挖掘算法找到内在的数据模式,发现特征关系、随机性和规律性,利用这些规律性预测新的事件和趋势,为决策提供更加全面、准确的信息。
数据挖掘常见的应用领域包括推荐系统、预测分析、聚类分析等。
以下是一段数据挖掘实例:
# Airbnb房源挖掘
## 数据集
数据集包含airbnb的房源信息,其中房源共有49,033个,含6个特征。
| 特征名称 | 特征类型 | 特征取值 |
|:-----:|:--:|:----:|
| neighbourhood_group | 字符串 | Brooklyn, Manhattan, Staten Island, Bronx, Queens |
| latitude | 浮点数 | |
| longitude | 浮点数 | |
| room_type | 字符串 | Entire home/apt, Private room, Shared room |
| price | 整数 | |
| minimum_nights | 整数 | |
## 需求
- 按照价格、房间类型和地理位置,统计每个区域的平均价格。
- 从最受欢迎的房型、地区、房东等方面分析airbnb房源的特征。
- 预测未来一个月的房源价格,根据uni-variate、multi-variate和时间序列分别建模和预测。
# 分析和建模
## 数据探索
首先通过对数据进行可视化,对特征进行探索,确定建模方法和预测特征。如下图:
![房源价格散点图][1]
![房源类型柱状图][2]
![房源地理位置热力图][3]
## 建模
1. uni-variate建模:使用单个特征变量(price)作为变量,建立价格预测模型。
2. multi-variate建模:使用多个特征变量(latitude, longitude, minimum_nights and number_of_reviews)作为变量,建立价格预测模型。
3. 时间序列分析: 使用时间维度分析airbnb房源价格的趋势,比较时间趋势差异,建立时间序列模型预测未来一个月的价格。
## 结论
在可视化数据和建模预测的基础上,我们得出以下结论:
- 从平均价格和房源数量的热力图可以看出,曼哈顿地区的房源价格最高,布鲁克林的房源数量最多。
- 对比不同的房型,Entire home/apt类型的房源数量最多,Shared room类型房源数量最少,但价格最低。
- uni-variate、multi-variate和时间序列模型预测结果均支持未来一个月的房源价格呈现稳定状态。
[1]: https://img-blog.csdnimg.cn/20210519115655852.png
[2]: https://img-blog.csdnimg.cn/20210519115727605.png
[3]: https://img-blog.csdnimg.cn/20210519115747777.png
以上是一个简单的Airbnb房源数据挖掘实例,其中通过可视化和建模预测的方式探索房源的特征和预测未来一个月的价格趋势。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:数据仓库和数据挖掘的区别 - Python技术站