你应该知道,训练数据集是机器学习不可或缺的一部分。在5—10年前,人们很难找到用于机器学习、数据科学的训练数据集,但现在,最大的问题不是寻找数据集,而是在巨量数据中筛选出业务相关的训练集。
所以,基于此原因,本文章整理了25个好用又免费的机器学习训练数据集,您可以从这些网站中随便下载适用您业务的训练集!
本文章欢迎转载,转载请标明来源:Python技术站(网址:http://pythonjishu.com/)。
通用机器学习数据集
这里,“通用”指的是关系数据的回归、分类和聚类,也就是说,这部分数据集对大部分的机器学习项目都有用。
- 葡萄酒质量数据:数据来自葡萄牙北部的红白葡萄酒样品。它主要是根据一些物理化学测试来模拟葡萄酒质量的数据。
- 信用卡违约数据:预测信用卡违约概率是机器学习的一个有价值的用途。这个数据集包括支付历史、人口统计、信用和一些默认数据。
- 美国人口普查数据:基于人口统计的聚类数据是进行市场研究和细分的一种惯用的方法。
自然语言处理数据集
自然语言处理(NLP)是需要的是大量的文本数据。对于像文本这样的数据,数据集最好是基于真实的应用程序所产生的的,这点非常重要,这样才能轻松执行健全性检查。
以下是文本数据集:
- Enron数据集:这是来自 Enron 高级管理层的电子邮件数据,这些数据被整理到了文件夹中。
- 亚马逊评论数据:这部分数据来自亚马逊 2018 年的大约 3500 万条评论。其中包括用户信息、产品信息、评分和文本评论。
- 新闻数据:这份数据包含 20000 个新闻组文档,平均分布在 20 个新闻组中。它非常适合练习主题建模和文本分类。
计算机视觉图像数据集
图像数据集可用于训练广泛的计算机视觉应用程序,例如医学成像技术、人脸识别和自动驾驶汽车。
-
ImageNet:这个用于新算法的图像数据集,是根据 WordNet 层次结构整理的,其中每个节点由成百上千的图像组成。
-
Google开放图片:其中包含约 900 万个图像 URL 的集合,这些图像带有 6000 多个类别的标签注释。
-
室内场景识别:一个特定的数据集,包含 67 个室内类别,总共 15620 张图像。
金融行业数据集
金融行业量化的记录已经保存了几十年,因此这个行业的数据非常适用于机器学习。
-
Quandl:这是经济和金融数据的重要来源,可用于构建预测股票价格或经济指标的模型。
-
世界银行开放数据:涵盖了全球人口统计、以及大量经济和发展指标数据。
-
IMF数据:国际货币基金组织 (IMF) 发布的,有关国际金融、外汇储备、债务利率、商品价格和投资的数据。
情感分析数据集
-
多域情绪分析数据集:主要是以亚马逊的产品评论为数据来源。
-
IMDB Reviews: 用于二元情感分类的数据集,它包含 25000 条电影评论。
-
Sentiment140: 它整理了 160000 条推文,并删除了其中的表情符号。
深度学习数据集
-
MNIST: 包含了用于手写数字的图像。它是深度学习的一个很好的入门数据集,因为它足够复杂以保证神经网络同时在单个 CPU 上易于管理。
-
CIFAR: 包含了 10 个不同类别的 60000 张图像。
-
YouTube 8M :包含数百万个 YouTube 视频 ID 和数十亿个由最新深度学习模型预提取的音频和视觉特征。
公开的政府数据集
使用公共政府数据训练的机器学习模型可帮助政策制定者识别趋势并为与人口增长、老龄化和移民相关的问题做好准备。
Food Environment Atlas:包含了美国饮食的食物数据。
慢性病数据:包含美国各地慢性病指标的数据。
美国国家教育统计中心:来自世界各地的教育机构和教育人口统计数据。
自动驾驶汽车数据集
Berkeley DeepDrive BDD100k:最大的自动驾驶 AI 数据集。它包含大约 100000 个视频,记录了在不同时间和天气条件下超过 1100 小时的驾驶体验。
百度 Apolloccapes:定义 26 种不同类型的事物,如汽车、自行车、行人、建筑物等。
牛津的机器人汽车:在一年多的时间里拍摄了 100 多次反复通过英国牛津的相同路线。该数据集了捕获交通、天气和行人的不同组合,以及建筑和道路工程等变化。
KUL 比利时交通标志数据集:包含来自比利时佛兰德斯地区数千个交通标志的 10000 多个交通标志注释。
以上就是本篇共25个好用又免费的数据集文章的全部内容。如果你想要了解更多关于机器学习、深度学习的知识,可查看以下文章:
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:25个好用又免费的机器学习训练集! - Python技术站