25个好用又免费的机器学习训练集!

yizhihongxing

你应该知道,训练数据集是机器学习不可或缺的一部分。在5—10年前,人们很难找到用于机器学习、数据科学的训练数据集,但现在,最大的问题不是寻找数据集,而是在巨量数据中筛选出业务相关的训练集。

所以,基于此原因,本文章整理了25个好用又免费的机器学习训练数据集,您可以从这些网站中随便下载适用您业务的训练集!

本文章欢迎转载,转载请标明来源:Python技术站(网址:http://pythonjishu.com/)。

通用机器学习数据集

25个好用又免费的机器学习训练集!

这里,“通用”指的是关系数据的回归、分类和聚类,也就是说,这部分数据集对大部分的机器学习项目都有用。

  • 葡萄酒质量数据:数据来自葡萄牙北部的红白葡萄酒样品。它主要是根据一些物理化学测试来模拟葡萄酒质量的数据。
  • 信用卡违约数据:预测信用卡违约概率是机器学习的一个有价值的用途。这个数据集包括支付历史、人口统计、信用和一些默认数据。
  • 美国人口普查数据:基于人口统计的聚类数据是进行市场研究和细分的一种惯用的方法。

自然语言处理数据集

25个好用又免费的机器学习训练集!

自然语言处理(NLP)是需要的是大量的文本数据。对于像文本这样的数据,数据集最好是基于真实的应用程序所产生的的,这点非常重要,这样才能轻松执行健全性检查。

以下是文本数据集:

  • Enron数据集:这是来自 Enron 高级管理层的电子邮件数据,这些数据被整理到了文件夹中。
  • 亚马逊评论数据:这部分数据来自亚马逊 2018 年的大约 3500 万条评论。其中包括用户信息、产品信息、评分和文本评论。
  • 新闻数据:这份数据包含 20000 个新闻组文档,平均分布在 20 个新闻组中。它非常适合练习主题建模和文本分类。

计算机视觉图像数据集

25个好用又免费的机器学习训练集!

图像数据集可用于训练广泛的计算机视觉应用程序,例如医学成像技术、人脸识别和自动驾驶汽车。

  • ImageNet:这个用于新算法的图像数据集,是根据 WordNet 层次结构整理的,其中每个节点由成百上千的图像组成。

  • Google开放图片:其中包含约 900 万个图像 URL 的集合,这些图像带有 6000 多个类别的标签注释。

  • 室内场景识别:一个特定的数据集,包含 67 个室内类别,总共 15620 张图像。

金融行业数据集

25个好用又免费的机器学习训练集!

金融行业量化的记录已经保存了几十年,因此这个行业的数据非常适用于机器学习。

  • Quandl:这是经济和金融数据的重要来源,可用于构建预测股票价格或经济指标的模型。

  • 世界银行开放数据:涵盖了全球人口统计、以及大量经济和发展指标数据。

  • IMF数据:国际货币基金组织 (IMF) 发布的,有关国际金融、外汇储备、债务利率、商品价格和投资的数据。

情感分析数据集

25个好用又免费的机器学习训练集!

  • 多域情绪分析数据集:主要是以亚马逊的产品评论为数据来源。

  • IMDB Reviews: 用于二元情感分类的数据集,它包含 25000 条电影评论。

  • Sentiment140: 它整理了 160000 条推文,并删除了其中的表情符号。

深度学习数据集

25个好用又免费的机器学习训练集!

  • MNIST: 包含了用于手写数字的图像。它是深度学习的一个很好的入门数据集,因为它足够复杂以保证神经网络同时在单个 CPU 上易于管理。

  • CIFAR: 包含了 10 个不同类别的 60000 张图像。

  • YouTube 8M :包含数百万个 YouTube 视频 ID 和数十亿个由最新深度学习模型预提取的音频和视觉特征。

公开的政府数据集

25个好用又免费的机器学习训练集!

使用公共政府数据训练的机器学习模型可帮助政策制定者识别趋势并为与人口增长、老龄化和移民相关的问题做好准备。

Food Environment Atlas:包含了美国饮食的食物数据。

慢性病数据:包含美国各地慢性病指标的数据。

美国国家教育统计中心:来自世界各地的教育机构和教育人口统计数据。

自动驾驶汽车数据集

25个好用又免费的机器学习训练集!

Berkeley DeepDrive BDD100k:最大的自动驾驶 AI 数据集。它包含大约 100000 个视频,记录了在不同时间和天气条件下超过 1100 小时的驾驶体验。

百度 Apolloccapes:定义 26 种不同类型的事物,如汽车、自行车、行人、建筑物等。

牛津的机器人汽车:在一年多的时间里拍摄了 100 多次反复通过英国牛津的相同路线。该数据集了捕获交通、天气和行人的不同组合,以及建筑和道路工程等变化。

KUL 比利时交通标志数据集:包含来自比利时佛兰德斯地区数千个交通标志的 10000 多个交通标志注释。

以上就是本篇共25个好用又免费的数据集文章的全部内容。如果你想要了解更多关于机器学习、深度学习的知识,可查看以下文章:

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:25个好用又免费的机器学习训练集! - Python技术站

(1)
上一篇 2022年11月12日 下午1:45
下一篇 2023年1月11日 下午8:45

相关文章

  • 机器学习之近邻算法模型(KNN)

    1.、导引 如何进行电影分类 众所周知,电影可以按照题材分类,然而题材本身是如何定义的?由谁来判定某部电影属于哪 个题材?也就是说同一题材的电影具有哪些公共特征?这些都是在进行电影分类时必须要考虑的问 题。没有哪个电影人会说自己制作的电影和以前的某部电影类似,但我们确实知道每部电影在风格 上的确有可能会和同题材的电影相近。那么动作片具有哪些共有特征,使得动作…

    机器学习 2023年4月12日
    00
  • Coursera机器学习week3 编程作业

    sigmoid.m g = 1./(1+exp(-z)); costFunction.m J = 1./m*(-y’*log(sigmoid(X*theta)) – (1-y)’*log(1-sigmoid(X*theta))); grad = 1/m * X’*(sigmoid(X*theta) – y); predict.m J = 1./m*(-y’*…

    机器学习 2023年4月9日
    00
  • 机器学习实战笔记-朴素贝叶斯

    4.1.基于贝叶斯决策理论的分类方法 朴素贝叶斯 优点:在数据较少的情况下仍然有效,可以处理多类别问题。 缺点:对于输入数据的准备方式较为敏感。 适用数据类型:标称型数据。 朴素贝叶斯是贝叶斯决策理论的一部分,所以讲述朴素负叶斯之前有必要快速了解一下贝叶斯决策理论。 假设现在我们有一个数据集,它由两类数据组成,数据分布如图4-1所示。  我们现在用), 那么…

    机器学习 2023年4月10日
    00
  • 图数据挖掘:小世界网络模型和分散式搜索

    哈佛大学心理学教授斯坦利·米尔格拉(Stanley Milgram)早在1967年就做过一次连锁实验,他将一些信件交给自愿的参加者,要求他们通过自己的熟人将信传到信封上指明的收信人手里。他发现,296封信件中有64封最终送到了目标人物手中。而在成功传递的信件中,平均只需要5次转发,就能够到达目标。也就是说,在社会网络中,任意两个人之间的“距离”是6。这就是所…

    机器学习 2023年4月11日
    00
  • 什么是深度学习?它能解决什么问题?

    深度学习是什么? 深度学习既指深度神经网络,也指机器学习的其他分支,如深度强化学习。一般来说,它通常指的是深度神经网络。 神经网络是一组算法,大致模仿人脑,旨在识别模式。他们通过一种机器感知,标记或聚类原始的输入来解释感官数据。它们识别的模式是数字的,包含在矢量中。所有现实世界的数据,无论是图像、声音、文本还是时间序列,都必须转换成矢量。 神经网络可以帮助我…

    2022年11月10日 深度学习
    10
  • 机器学习常用的降维方法

    特征降维方法包括:Lasso,PCA,小波分析,LDA,奇异值分解SVD,拉普拉斯特征映射,SparseAutoEncoder,局部线性嵌入LLE,等距映射Isomap。 1. LASSO通过参数缩减达到降维的目的 LASSO(Least absolute shrinkage and selection operator, Tibshirani(1996))…

    机器学习 2023年4月13日
    00
  • 微软机器学习Azure Machine Learning入门概览

    Azure Machine Learning(简称“AML”)是微软在其公有云Azure上推出的基于Web使用的一项机器学习服务,机器学习属人工智能的一个分支,它技术借助算法让电脑对大量流动数据集进行识别。这种方式能够通过历史数据来预测未来事件和行为,其实现方式明显优于传统的商业智能形式。微软的目标是简化使用机器学习的过程,以便于开发人员、业务分析师和数据科…

    机器学习 2023年4月11日
    00
  • Spark-数据源及机器学习算法部署

    1、数据源读取 使用的时候,需要加载驱动 –jars 或者添加到classpath中 或scaddjar Spark对Oracle数据库读取,代码如下: conf = SparkConf().setAppName(string_test)sc = SparkContext(conf=conf) ctx = SQLContext(sc)sqltext = “…

    机器学习 2023年4月10日
    00

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

合作推广
合作推广
分享本页
返回顶部