关于Keras公用数据集的获取和使用

2023年4月7日下午10:03 • Keras

yizhihongxing

Keras是Tensorflow2.0的核心高阶API，其内置了一些常用的公共数据集，给开发者使用。

关于Keras公用数据集的获取和使用

以波士顿房价数据集为例，其涵盖了麻省波士顿的506个不同郊区的房屋数据。有404条训练数据集和102条测试数据集。

每条数据有14个字段，包含13个属性和一个房价数据

关于Keras公用数据集的获取和使用

获取波士顿房价数据集：

1 import tensorflow as tf
2 boston_housing = tf.keras.datasets.boston_housing  #在线加载数据集
3 
4 (train_x,train_y),(test_x,test_y) = boston_housing.load_data() #获取训练集和测试机

程序会首先Keras官网下载数据集，然后保存在默认的路径下面（C:\Users\Administrator.SG-20151030VCPR\.keras\datasets），这个路径最好不要改，反正数据也不大。

数据拿到了，就顺便看看各个属性和房价之前的关系吧，这里对每个属性和房价的关系进行可视化：

 1 import tensorflow as tf
 2 import matplotlib.pyplot as plt
 3 boston_housing = tf.keras.datasets.boston_housing  #在线加载数据集
 4 
 5 (train_x,train_y),(_,_) = boston_housing.load_data(test_split=0) #获取训练集
 6 
 7 title = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS',
 8         'RAD', 'TAX', 'PTRATIO', 'B-1000', 'LSTAT']
 9 plt.figure(figsize = (12,12))                #设置画布大小为12*12英寸
10 
11 for i in range(len(title)):
12     plt.subplot(4,4,i+1)                    #绘制 4*4 子图
13     plt.scatter(train_x[:,i], train_y)      #绘制散点图
14     
15     plt.xlabel(title[i])                         #X轴标签
16     plt.ylabel("Price($1000)'s")                 #Y轴标签
17     plt.title(str(i+1)+'.'+title[i]+' - Price')  #设置子图标题
18     
19 plt.tight_layout()#使标题坐标轴不重叠
20 plt.suptitle('各个属性与房价的关系', x=0.5, y=1.02, fontsize=20)  #全局标题
21 plt.show()

来看看结果：

关于Keras公用数据集的获取和使用

然后就可以使用这些数据来进行后续的数据清洗、模型训练和结果评价了。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：关于Keras公用数据集的获取和使用 - Python技术站

Keras 人工智能

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

Keras split train test set when using ImageDataGenerator

上一篇 2023年4月7日

keras的LSTM函数详解

下一篇 2023年4月7日

pytorch tensor 维度理解.md

torch.randn torch.randn(*sizes, out=None) → Tensor(张量) 返回一个张量，包含了从标准正态分布(均值为0，方差为 1)中抽取一组随机数，形状由可变参数sizes定义。参数: sizes (int…) – 整数序列，定义了输出形状 out (Tensor, optinal) – 结果张量二维 >&…

PyTorch 2023年4月8日
000
tensorflow

Tensorflow中的Seq2Seq全家桶

原文链接：https://zhuanlan.zhihu.com/p/47929039 Seq2Seq 模型顾名思义，输入一个序列，用一个 RNN （Encoder）编码成一个向量 u，再用另一个 RNN （Decoder）解码成一个序列输出，且输出序列的长度是可变的。用途很广，机器翻译，自动摘要，对话系统，还有上一篇文章里我用来做多跳问题的问答，只要是序列对…

2023年4月6日
000
Keras

tensorflow2 keras.Callback logs

官方文档上表示logs内存的内容为 on_epoch_end: logs include `acc` and `loss`, and optionally include `val_loss` (if validation is enabled in `fit`), and `val_acc` (if validation and accuracy moni…

2023年4月6日
000
生成对抗网络GAN（四）基于GAN的行人重识别

一、基于GAN的ReID方法行人重识别（Person re-identification,ReID）也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。ReID一个问题就是数据匮乏，CVPR18之前最大的ReID数据集也就小几千个ID，几万张图片（序列假定只算一张）。因此在ICCV17 GAN造图做ReID挖了第一个坑之后，就…

GAN生成对抗网络 2023年4月7日
000
UBUNTU 14.04 + CUDA 7.5 + CAFFE

这个也是困扰我很久的问题，之前用 http://www.cnblogs.com/platero/p/3993877.html 的安装方法，装了五六七八九十次，总是出问题。后来找到了一种新的方法，一个晚上加半个上午，装了ubuntu系统（14.04） + NVIDIA 驱动 + CUDA + CAFFE 全部搞定。还跑了mnist的那个数据库，爽爽的一点问题…

Caffe 2023年4月8日
000
Caffe

caffe 参数介绍 solver.prototxt

转载自 http://blog.csdn.net/cyh_24/article/details/51537709 net: “models/bvlc_alexnet/train_val.prototxt” test_iter: 1000 # test_interval: 1000 # base_lr: 0.01 # 开始的学习率 lr_policy: “…

2023年4月8日
000
《机器学习》（西瓜书）笔记（1）–绪论

第一章绪论 1.1 引言机器学习致力于研究如何通过计算的手段，利用经验（计算机系统中通常以数据的形式存在）来改善系统自身的性能。机器学习研究的主要内容是关于在计算机上从数据中产生模型的算法，即学习算法（learning algorithm）。 1.2 基本术语数据集（data set）示例（instance） / 样本（sample）…

机器学习 2023年4月11日
000
Keras

Keras学习笔记二：保存本地模型和调用本地模型

使用深度学习模型时当然希望可以保存下训练好的模型，需要的时候直接调用，不再重新训练一、保存模型到本地以mnist数据集下的AutoEncoder 去噪为例。添加： file_path=”MNIST_data/weights-improvement-{epoch:02d}-{val_loss:.2f}.hdf5″ tensorboard = TensorB…

2023年4月8日
000

合作推广

合作推广

返回顶部