用于NLP的7大免费数据集！

2023年2月12日下午9:16 • NLP

在开始为自然语言处理任务进行深度学习时，您需要练习数据集。

最好使用可以快速下载的小型数据集，并且不会花费太长时间来拟合模型。此外，使用易于理解和广泛使用的标准数据集也很有帮助，这样您就可以比较您的结果以查看您是否正在取得进展。

在这篇文章中，您将发现一套用于自然语言处理任务的标准数据集，您可以在开始使用深度学习时使用它们。

概述

这篇文章分为7个部分，根据不同的数据集需求提供不同的下载地址，分别是：

文本分类
语言建模
图片说明
机器翻译
问答
语音识别
文档摘要

这些分类的数据集，几乎所有可以免费下载。让我们开始吧！

1. 文本分类

文本分类是指对句子或文档进行标记，例如垃圾邮件分类和情绪分析。

下面是一些不错的初学者文本分类数据集。

路透社通讯社主题分类（路透社-21578）。1987年出现在路透社上的新闻文件集合按类别索引。另请参阅 RCV1、RCV2 和 TRC2。
IMDB电影评论情感分类（斯坦福大学）。来自网站的电影评论的集合 imdb.com 及其正面或负面情绪。
新闻集团影评情绪分类（康奈尔）：来自网站的电影评论的集合 imdb.com ，包含正面或负面情绪。

2. 语言建模

语言建模涉及开发一个统计模型，用于预测句子中的下一个单词或单词中的下一个字母，给定之前出现的任何内容。它是语音识别和机器翻译等任务中的前光标任务。

它是语音识别和机器翻译等任务中的前光标任务。

下面是一些不错的初学者语言建模数据集。

古腾堡计划，大量免费书籍，可以多种语言的纯文本检索。
还有更正式的语料库得到了很好的研究;
布朗大学现代美式英语标准语料库。英语单词的大量样本。
谷歌10亿字语料库。

3. 图片说明

图像标题是为给定图像生成文本描述的任务。

以下是一些不错的初学者图像字幕数据集。

上下文中的常见对象（COCO）。超过12万张带有描述的图像的集合
Flickr 8K。从 flickr.com 中获取的8000张描述图像的集合。
Flickr 30K。从 flickr.com 拍摄的 30，000 张描述图像的集合。

4. 机器翻译

机器翻译是将文本从一种语言翻译成另一种语言的任务。

以下是一些不错的初学者机器翻译数据集。

加拿大第36届议会的汉萨德结盟。英语和法语的成对句子。
欧洲议会程序平行语料库1996-2011。一套欧洲语言的句子对。
有大量标准数据集用于年度机器翻译挑战：
统计机器翻译

5. 问答

问答是一项任务，其中提供了一个句子或文本样本，从中提出问题并且必须回答问题。

以下是一些很好的初学者问答数据集。

斯坦福问答数据集（SQuAD）。关于维基百科文章的问答。
Deepmind问答语料库。关于《每日邮报》新闻文章的问答。
亚马逊问答数据。关于亚马逊商品的问答。

6. 语音识别

语音识别是将口语音频转换为人类可读文本的任务。

以下是一些不错的初学者语音识别数据集。

TIMIT 声学语音连续语音语料库。不是免费的，但因其广泛使用而列出。美式英语口语和相关转录。
沃克斯福奇。构建用于语音识别的开源数据库的项目。
LibriSpeech ASR 语料库。大量来自LibriVox的英语有声读物。

7. 文件摘要

文档摘要是为较大文档创建简短有意义的描述的任务。

以下是一些不错的初学者文档摘要数据集。

法律案例报告数据集。收集了4000个法律案例及其摘要。
TIPSTER文本摘要评估会议语料库。收集了近 200 份文档及其摘要。
AQUAINT 英语新闻文本语料库。不是免费的，但被广泛使用。新闻文章语料库。

总结

在这篇文章中，您发现了一套标准数据集，您可以在开始使用深度学习时将其用于自然语言处理任务。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：用于NLP的7大免费数据集！ - Python技术站

NLP 深度学习

0 0 打赏

微信扫一扫

支付宝扫一扫

自然语言处理神经网络模型入门概述

上一篇 2023年2月12日下午9:04

（实战篇）从头开发基于深度学习的照片说明器！

下一篇 2023年2月12日下午6:50

深度学习

一个有效的图表图像数据提取框架

View Post 一个有效的图表图像数据提取框架建立了可以有效地处理各种图表数据，而不需要做出启发式的假设的鲁棒 Box detector 系统；提出了一种网络来测量图例匹配阶段图例和检测元素之间的特征相似性；提供了一个关于从信息图表中获取原始表格的 baseline，并发现了一些关键的因素来提高各个阶段并发现了一些关键的因素来提高各个阶段的性能。实验结…

2023年4月10日
000
侯捷STL学习(七)–深度探索vector&&array

layout: post title: 侯捷STL学习（七） date: 2017-06-13 tag: 侯捷STL 第十六节深度探索vector vector源码剖析 vector内存2倍扩充，是在另外的地方重新申请内存，将数据搬过去前闭后开区间 2倍扩充方法，reallocation insert_aux函数中再次判断，原因是可能有其他放元素的操作如…

深度学习 2023年4月12日
000
深度学习深入浅出

目录一基本原理二深度学习的优点三深度学习的缺点四深度学习应用手写数字识别深度学习是机器学习的一个分支，其核心思想是利用深层神经网络对数据进行建模和学习，从而实现识别、分类、预测等任务。在过去几年中，深度学习技术取得了许多突破性的成果，如在图像识别、语音识别、自然语言处理、游戏AI等领域中。本文将简要介绍深度学习的基本原理，并使用Pyth…

深度学习 2023年4月10日
000
深度学习

代码实战带你了解深度学习中的混合精度训练

摘要：本文为大家介绍一下深度学习中的混合精度训练，并通过代码实战的方式为大家讲解实际应用的理论，并对模型进行测试。本文分享自华为云社区《浅谈深度学习中的混合精度训练》，作者：李长安。 1 混合精度训练混合精度训练最初是在论文Mixed Precision Training中被踢出，该论文对混合精度训练进行了详细的阐述，并对其实现进行了讲解，有兴趣的同学可…

2023年4月10日
000
整理读过感觉不错的深度学习博客（更新中）

1. http://blog.csdn.NET/zouxy09/article/details/8775488 （深度学习）学习笔记整理系列 2. https://morvanzhou.github.io/tutorials/machine-learning/tensorflow/ tensorflow 教程 3.…

深度学习 2023年4月11日
000
深度学习

Deep Learning 1_深度学习UFLDL教程：Sparse Autoencoder练习（斯坦福大学深度学习教程）

本人写技术博客的目的，其实是感觉好多东西，很长一段时间不动就会忘记了，为了加深学习记忆以及方便以后可能忘记后能很快回忆起自己曾经学过的东西。首先，在网上找了一些资料，看见介绍说UFLDL很不错，很适合从基础开始学习，Adrew Ng大牛写得一点都不装B，感觉非常好，另外对我们英语不好的人来说非常感谢，此教程的那些翻译者们！如余凯等。因为…

2023年4月10日
000
6月份学习记录【海岛帝国系列赛】No.1 海岛帝国：诞辰之日【海岛帝国系列赛】No.2 海岛帝国：“落汤鸡”市的黑帮危机【海岛帝国系列赛】No.3 海岛帝国：运输资源【海岛帝国系列赛】No.4 海岛帝国：LYF的太空运输站【海岛帝国系列赛】No.5 海岛帝国：独立之战【海岛帝国系列赛】No.6 海岛帝国：战争前线【海岛帝国系列赛】No.7 海岛帝国：神圣之日图的广度优先遍历图的深度优先遍历 kruskal算法

6月份学习记录今天一看日历，6月差不多要过去了，又该写学习记录啦~~~ 想到6月的头一天，因为没有过传说中的儿童节（去出题了）闹了一顿，然后得到一张电影票QAQ（电影好像还是在电视上点播的）。LJX李家鑫说：“谁计算机没学两年啊！”，当我跟LJX李家鑫童靴说我c++学了6个月后，他说我智商太高？我瞬间就懵了，难道学6个月学不到这样吗？ …

深度学习 2023年4月12日
000
[深度学习]Python/Theano实现逻辑回归网络的代码分析

首先PO上主要Python代码(2.7), 这个代码在Deep Learning上可以找到. 1 　　 # allocate symbolic variables for the data 2 index = T.lscalar() # index to a [mini]batch 3 x = T.matrix(‘x’) # the data is pres…

深度学习 2023年4月12日
000