25个好用又免费的机器学习训练集!

你应该知道,训练数据集是机器学习不可或缺的一部分。在5—10年前,人们很难找到用于机器学习、数据科学的训练数据集,但现在,最大的问题不是寻找数据集,而是在巨量数据中筛选出业务相关的训练集。

所以,基于此原因,本文章整理了25个好用又免费的机器学习训练数据集,您可以从这些网站中随便下载适用您业务的训练集!

本文章欢迎转载,转载请标明来源:Python技术站(网址:http://pythonjishu.com/)。

通用机器学习数据集

25个好用又免费的机器学习训练集!

这里,“通用”指的是关系数据的回归、分类和聚类,也就是说,这部分数据集对大部分的机器学习项目都有用。

  • 葡萄酒质量数据:数据来自葡萄牙北部的红白葡萄酒样品。它主要是根据一些物理化学测试来模拟葡萄酒质量的数据。
  • 信用卡违约数据:预测信用卡违约概率是机器学习的一个有价值的用途。这个数据集包括支付历史、人口统计、信用和一些默认数据。
  • 美国人口普查数据:基于人口统计的聚类数据是进行市场研究和细分的一种惯用的方法。

自然语言处理数据集

25个好用又免费的机器学习训练集!

自然语言处理(NLP)是需要的是大量的文本数据。对于像文本这样的数据,数据集最好是基于真实的应用程序所产生的的,这点非常重要,这样才能轻松执行健全性检查。

以下是文本数据集:

  • Enron数据集:这是来自 Enron 高级管理层的电子邮件数据,这些数据被整理到了文件夹中。
  • 亚马逊评论数据:这部分数据来自亚马逊 2018 年的大约 3500 万条评论。其中包括用户信息、产品信息、评分和文本评论。
  • 新闻数据:这份数据包含 20000 个新闻组文档,平均分布在 20 个新闻组中。它非常适合练习主题建模和文本分类。

计算机视觉图像数据集

25个好用又免费的机器学习训练集!

图像数据集可用于训练广泛的计算机视觉应用程序,例如医学成像技术、人脸识别和自动驾驶汽车。

  • ImageNet:这个用于新算法的图像数据集,是根据 WordNet 层次结构整理的,其中每个节点由成百上千的图像组成。

  • Google开放图片:其中包含约 900 万个图像 URL 的集合,这些图像带有 6000 多个类别的标签注释。

  • 室内场景识别:一个特定的数据集,包含 67 个室内类别,总共 15620 张图像。

金融行业数据集

25个好用又免费的机器学习训练集!

金融行业量化的记录已经保存了几十年,因此这个行业的数据非常适用于机器学习。

  • Quandl:这是经济和金融数据的重要来源,可用于构建预测股票价格或经济指标的模型。

  • 世界银行开放数据:涵盖了全球人口统计、以及大量经济和发展指标数据。

  • IMF数据:国际货币基金组织 (IMF) 发布的,有关国际金融、外汇储备、债务利率、商品价格和投资的数据。

情感分析数据集

25个好用又免费的机器学习训练集!

  • 多域情绪分析数据集:主要是以亚马逊的产品评论为数据来源。

  • IMDB Reviews: 用于二元情感分类的数据集,它包含 25000 条电影评论。

  • Sentiment140: 它整理了 160000 条推文,并删除了其中的表情符号。

深度学习数据集

25个好用又免费的机器学习训练集!

  • MNIST: 包含了用于手写数字的图像。它是深度学习的一个很好的入门数据集,因为它足够复杂以保证神经网络同时在单个 CPU 上易于管理。

  • CIFAR: 包含了 10 个不同类别的 60000 张图像。

  • YouTube 8M :包含数百万个 YouTube 视频 ID 和数十亿个由最新深度学习模型预提取的音频和视觉特征。

公开的政府数据集

25个好用又免费的机器学习训练集!

使用公共政府数据训练的机器学习模型可帮助政策制定者识别趋势并为与人口增长、老龄化和移民相关的问题做好准备。

Food Environment Atlas:包含了美国饮食的食物数据。

慢性病数据:包含美国各地慢性病指标的数据。

美国国家教育统计中心:来自世界各地的教育机构和教育人口统计数据。

自动驾驶汽车数据集

25个好用又免费的机器学习训练集!

Berkeley DeepDrive BDD100k:最大的自动驾驶 AI 数据集。它包含大约 100000 个视频,记录了在不同时间和天气条件下超过 1100 小时的驾驶体验。

百度 Apolloccapes:定义 26 种不同类型的事物,如汽车、自行车、行人、建筑物等。

牛津的机器人汽车:在一年多的时间里拍摄了 100 多次反复通过英国牛津的相同路线。该数据集了捕获交通、天气和行人的不同组合,以及建筑和道路工程等变化。

KUL 比利时交通标志数据集:包含来自比利时佛兰德斯地区数千个交通标志的 10000 多个交通标志注释。

以上就是本篇共25个好用又免费的数据集文章的全部内容。如果你想要了解更多关于机器学习、深度学习的知识,可查看以下文章:

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:25个好用又免费的机器学习训练集! - Python技术站

(1)
上一篇 2022年11月12日 下午1:45
下一篇 2023年1月11日 下午8:45

相关文章

  • 微软分布式机器学习工具包DMTK——初窥门径

    在现在机器学习如日中天的大背景下,微软亚洲研究院的实习岗位中,机器学习组的工作也是维护DMTK,参与算法改进,那么在此之前我们得了解DMTK是个啥。 DMTK由一个服务于分布式机器学习的框架和一组分布式机器学习算法构成,是一个将机器学习算法应用在大数据上的强大工具包;无论是学术界的研究人员还是工业界的开发者,DMTK可以帮助他们在超大规模数据上灵活稳定地训练…

    机器学习 2023年4月10日
    00
  • coursera机器学习-支持向量机SVM

    #对coursera上Andrew Ng老师开的机器学习课程的笔记和心得; #注:此笔记是我自己认为本节课里比较重要、难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点; #标记为<补充>的是我自己加的内容而非课堂内容,参考文献列于文末。博主能力有限,若有错误,恳请指正; #——————————-…

    2023年4月9日
    00
  • 译-机器学习的十大误解

    Pedro DomingosProfessor of computer science at U. Washington and author of “The Master Algorithm”. pedrodomingos.org 机器学习过去一直是幕后:亚马逊挖掘你的点击和购买数据来进行推荐,谷歌对搜索查询进行挖掘从而去做广告投放,而脸书会挖掘社交网络来…

    机器学习 2023年4月12日
    00
  • python机器学习-数据集划分

    机器学习一般的数据集会划分为两个部分: 训练数据:用于训练,构建模型 测试数据:在模型检验时使用,用于评估模型是否有效 划分比例: 训练集:70% 80% 75% 测试集:30% 20% 30% 数据集划分api sklearn.model_selection.train_test_split(arrays, *options) x 数据集的特征值 y 数据…

    机器学习 2023年4月9日
    00
  • 【机器学习】李宏毅——自注意力机制(Self-attention)

    自注意力机制(Self-attention)部分内容,对其原理进行了阐述 前面我们所讲的模型,输入都是一个向量,但有没有可能在某些场景中输入是多个向量,即一个向量集合,并且这些向量的数目并不是固定的呢? 这一类的场景包括文字识别、语音识别、图网络等等。 那么先来考虑输出的类型,如果对于输入是多个数目不定的向量,可以有以下这几种输出方式: 每个向量对应一个输出…

    机器学习 2023年4月11日
    00
  • 东方联盟提出基于机器学习的蓝牙认证方案

    东方联盟研究人员提出了一种机器学习方法,该方法使用蓝牙网络中设备之间的真实交互作为可靠处理设备到设备身份验证的基础。 称为“交互真实性验证”(又名 VIA),重复身份验证方案旨在解决被动、连续身份验证和一旦两个设备相互配对后自动解除身份验证的问题,在采取明确的解除身份验证操作之前,这些设备保持身份验证状态,或经过身份验证的会话过期。考虑通过蓝牙配对的设备,通…

    机器学习 2023年4月15日
    00
  • 让机器教人学习更有效:Becoming the Expert – Interactive Multi-Class Machine Teaching

      这是CVPR2015的一篇非常有趣的文章,论文研究了如何让机器自动地教导学生进行学习目标的分类。论文研发了一种机器学习方法,通过人机交互的过程中,不断的优化机器指导的方法和技巧,从而提高人学习目标分类的效率。如下图所示:                                   机器教导人学习的过程   1、机器首先展示一张图片A给人看,不告诉…

    机器学习 2023年4月11日
    00
  • 机器学习服务文本识别能力演进,大幅提升识别准确率

    文本识别技术(OCR)可以识别收据、名片、文档照片等含文字的图片,将其中的文本信息提取出来,代替了人工信息录入与检测等操作,降低了输入成本,快速、方便,提升产品的易用性。 随着技术的发展,OCR已经深入生活的诸多方面。交通场景下,主要用于车牌识别,便于停车场管理、智能交通、移动警务等;生活场景下,主要用于证照识别,便于提取身份证、银行卡、护照、结婚证、户口本…

    机器学习 2023年4月11日
    00

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

合作推广
合作推广
分享本页
返回顶部