25个好用又免费的机器学习训练集！

2023年1月11日下午8:11 • 机器学习

你应该知道，训练数据集是机器学习不可或缺的一部分。在5—10年前，人们很难找到用于机器学习、数据科学的训练数据集，但现在，最大的问题不是寻找数据集，而是在巨量数据中筛选出业务相关的训练集。

所以，基于此原因，本文章整理了25个好用又免费的机器学习训练数据集，您可以从这些网站中随便下载适用您业务的训练集！

本文章欢迎转载，转载请标明来源：Python技术站（网址：http://pythonjishu.com/）。

通用机器学习数据集

这里，“通用”指的是关系数据的回归、分类和聚类，也就是说，这部分数据集对大部分的机器学习项目都有用。

葡萄酒质量数据：数据来自葡萄牙北部的红白葡萄酒样品。它主要是根据一些物理化学测试来模拟葡萄酒质量的数据。
信用卡违约数据：预测信用卡违约概率是机器学习的一个有价值的用途。这个数据集包括支付历史、人口统计、信用和一些默认数据。
美国人口普查数据：基于人口统计的聚类数据是进行市场研究和细分的一种惯用的方法。

自然语言处理数据集

自然语言处理（NLP）是需要的是大量的文本数据。对于像文本这样的数据，数据集最好是基于真实的应用程序所产生的的，这点非常重要，这样才能轻松执行健全性检查。

以下是文本数据集：

Enron数据集：这是来自 Enron 高级管理层的电子邮件数据，这些数据被整理到了文件夹中。
亚马逊评论数据：这部分数据来自亚马逊 2018 年的大约 3500 万条评论。其中包括用户信息、产品信息、评分和文本评论。
新闻数据：这份数据包含 20000 个新闻组文档，平均分布在 20 个新闻组中。它非常适合练习主题建模和文本分类。

计算机视觉图像数据集

图像数据集可用于训练广泛的计算机视觉应用程序，例如医学成像技术、人脸识别和自动驾驶汽车。

ImageNet：这个用于新算法的图像数据集，是根据 WordNet 层次结构整理的，其中每个节点由成百上千的图像组成。
Google开放图片：其中包含约 900 万个图像 URL 的集合，这些图像带有 6000 多个类别的标签注释。
室内场景识别：一个特定的数据集，包含 67 个室内类别，总共 15620 张图像。

金融行业数据集

金融行业量化的记录已经保存了几十年，因此这个行业的数据非常适用于机器学习。

Quandl：这是经济和金融数据的重要来源，可用于构建预测股票价格或经济指标的模型。
世界银行开放数据：涵盖了全球人口统计、以及大量经济和发展指标数据。
IMF数据：国际货币基金组织 (IMF) 发布的，有关国际金融、外汇储备、债务利率、商品价格和投资的数据。

情感分析数据集

多域情绪分析数据集：主要是以亚马逊的产品评论为数据来源。
IMDB Reviews：用于二元情感分类的数据集，它包含 25000 条电影评论。
Sentiment140：它整理了 160000 条推文，并删除了其中的表情符号。

深度学习数据集

MNIST：包含了用于手写数字的图像。它是深度学习的一个很好的入门数据集，因为它足够复杂以保证神经网络同时在单个 CPU 上易于管理。
CIFAR：包含了 10 个不同类别的 60000 张图像。
YouTube 8M ：包含数百万个 YouTube 视频 ID 和数十亿个由最新深度学习模型预提取的音频和视觉特征。

公开的政府数据集

使用公共政府数据训练的机器学习模型可帮助政策制定者识别趋势并为与人口增长、老龄化和移民相关的问题做好准备。

Food Environment Atlas：包含了美国饮食的食物数据。

慢性病数据：包含美国各地慢性病指标的数据。

美国国家教育统计中心：来自世界各地的教育机构和教育人口统计数据。

自动驾驶汽车数据集

Berkeley DeepDrive BDD100k：最大的自动驾驶 AI 数据集。它包含大约 100000 个视频，记录了在不同时间和天气条件下超过 1100 小时的驾驶体验。

百度 Apolloccapes：定义 26 种不同类型的事物，如汽车、自行车、行人、建筑物等。

牛津的机器人汽车：在一年多的时间里拍摄了 100 多次反复通过英国牛津的相同路线。该数据集了捕获交通、天气和行人的不同组合，以及建筑和道路工程等变化。

KUL 比利时交通标志数据集：包含来自比利时佛兰德斯地区数千个交通标志的 10000 多个交通标志注释。

以上就是本篇共25个好用又免费的数据集文章的全部内容。如果你想要了解更多关于机器学习、深度学习的知识，可查看以下文章：

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：25个好用又免费的机器学习训练集！ - Python技术站

机器学习

0 0 打赏

微信扫一扫

支付宝扫一扫

详解常用的机器学习专业术语！

上一篇 2022年11月12日下午1:45

2023年您需要了解的10大机器学习工具！

下一篇 2023年1月11日下午8:45

拿到机器学习数据后，该如何对数据进行划分？

在处理机器学习任务时，我们都需要使用数据，当然，有时候数据集可以很大，有时候数据集数量不是很理想，那么如何针对这些数据得出更加有效的模型呢？大型数据集 Idea #1：当我们拿到数据集后，如果将所有数据进行训练的话这样会导致模型见过所有的数据，如果再用这些数据进行测试的话，效果会非常好，但我们知道，这其实是一种过拟合现象，我们的模型在当前数据集中，永远…

机器学习 2023年4月11日
000
机器学习-决策树的基本思想

机器学习-决策树的基本思想决策树算法是最早的机器学习算法之一。算法框架 1.决策树主函数各种决策树的主函数都大同小异，本质上是一个递归函数。该函数的主要功能是按照某种规则生长出决策树的各个分支节点，并根据终止条件结束算法。一般来讲，主函数需要完成如下几个功能。（1）输入需要分类的数据集和类别标签（2）根据某种分类规则得到最优的划分特征，并创建特征的…

机器学习 2023年4月13日
000
机器学习中的算法(2)-支持向量机(SVM)基础 – LeftNotEasy – 博客园

版权声明：本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用，但请注明出处，如果有问题，请联系wheeleast@gmail.com 前言：又有很长的一段时间没有更新博客了，距离上次更新已经有两个月的时间了。其中一个很大的原因是，不知道写什么好-_-，…

机器学习 2023年4月13日
000
机器学习

机器学习–Micro Average,Macro Average, Weighted Average

根据前面几篇文章我们可以知道，当我们为模型泛化性能选择评估指标时，要根据问题本身以及数据集等因素来做选择．本篇博客主要是解释Micro Average，Macro Average，Weighted Average．这三者常用于多分类任务，他们的计算方法有细微的差别，因此在各自表示的含义和适用场景上也有细微的差别 Micro Average会考虑到所有类别的贡…

2023年4月10日
001
让机器教人学习更有效：Becoming the Expert – Interactive Multi-Class Machine Teaching

　　这是CVPR2015的一篇非常有趣的文章，论文研究了如何让机器自动地教导学生进行学习目标的分类。论文研发了一种机器学习方法，通过人机交互的过程中，不断的优化机器指导的方法和技巧，从而提高人学习目标分类的效率。如下图所示：机器教导人学习的过程　　1、机器首先展示一张图片A给人看，不告诉…

机器学习 2023年4月11日
000
机器学习从入门到出家

| 导语简述一个2010年入坑的后台如何转向做算法和机器学习的历程和感悟，附录一个书单写在前面：本文主要介绍的是自己的一些经历，以及读过的一些书，实际应用的经验并没有介绍，包括现在很多机器学习的书一般也是侧重于理论，结合实践的时候会发现和模型比起来，数据清洗、特征工程的实际效果更明显，而这方面很难有系统的理论知识，怎么办呢？读paper，去搜索自己应用…

机器学习 2023年4月12日
000
《机器学习基石》—正则化

本节涉及的知识点包括：（1）所谓正则化，就是在原来的假设空间上加上一定限制条件；（2）推导线性回归中引入L2正则；（3）带正则化约束条件的问题等价于无约束的加正则项的augmented error；（4）VC维解释正则的好处；（5）选择一般正则项的三个原则；（6）L1正则和L2正则的对比； 1 正则化的概念所谓正则化假设空间，就是带有限制条…

机器学习 2023年4月12日
000
如何学习机器学习的一点心得

以下内容转自：http://blog.csdn.net/lcjpure/article/details/8069704 结合自己的学习经历，总结一下如何学习机器学习。我自己的学习过程其实是非常混乱和痛苦的，一个人瞎搞现在也不知道入没入门。希望能对其他想自学机器学习而找不到方向的人有一点点帮助。一、可以读读一些科普性的，综述性的东西。南京大学周志华教授写的…

机器学习 2023年4月13日
000