用于NLP的7大免费数据集！

在开始为自然语言处理任务进行深度学习时，您需要练习数据集。

最好使用可以快速下载的小型数据集，并且不会花费太长时间来拟合模型。此外，使用易于理解和广泛使用的标准数据集也很有帮助，这样您就可以比较您的结果以查看您是否正在取得进展。

在这篇文章中，您将发现一套用于自然语言处理任务的标准数据集，您可以在开始使用深度学习时使用它们。

概述

这篇文章分为7个部分，根据不同的数据集需求提供不同的下载地址，分别是：

文本分类
语言建模
图片说明
机器翻译
问答
语音识别
文档摘要

这些分类的数据集，几乎所有可以免费下载。让我们开始吧！

1. 文本分类

文本分类是指对句子或文档进行标记，例如垃圾邮件分类和情绪分析。

下面是一些不错的初学者文本分类数据集。

路透社通讯社主题分类（路透社-21578）。1987年出现在路透社上的新闻文件集合按类别索引。另请参阅 RCV1、RCV2 和 TRC2。
IMDB电影评论情感分类（斯坦福大学）。来自网站的电影评论的集合 imdb.com 及其正面或负面情绪。
新闻集团影评情绪分类（康奈尔）：来自网站的电影评论的集合 imdb.com ，包含正面或负面情绪。

2. 语言建模

语言建模涉及开发一个统计模型，用于预测句子中的下一个单词或单词中的下一个字母，给定之前出现的任何内容。它是语音识别和机器翻译等任务中的前光标任务。

它是语音识别和机器翻译等任务中的前光标任务。

下面是一些不错的初学者语言建模数据集。

古腾堡计划，大量免费书籍，可以多种语言的纯文本检索。
还有更正式的语料库得到了很好的研究;
布朗大学现代美式英语标准语料库。英语单词的大量样本。
谷歌10亿字语料库。

3. 图片说明

图像标题是为给定图像生成文本描述的任务。

以下是一些不错的初学者图像字幕数据集。

上下文中的常见对象（COCO）。超过12万张带有描述的图像的集合
Flickr 8K。从 flickr.com 中获取的8000张描述图像的集合。
Flickr 30K。从 flickr.com 拍摄的 30，000 张描述图像的集合。

4. 机器翻译

机器翻译是将文本从一种语言翻译成另一种语言的任务。

以下是一些不错的初学者机器翻译数据集。

加拿大第36届议会的汉萨德结盟。英语和法语的成对句子。
欧洲议会程序平行语料库1996-2011。一套欧洲语言的句子对。
有大量标准数据集用于年度机器翻译挑战：
统计机器翻译

5. 问答

问答是一项任务，其中提供了一个句子或文本样本，从中提出问题并且必须回答问题。

以下是一些很好的初学者问答数据集。

斯坦福问答数据集（SQuAD）。关于维基百科文章的问答。
Deepmind问答语料库。关于《每日邮报》新闻文章的问答。
亚马逊问答数据。关于亚马逊商品的问答。

6. 语音识别

语音识别是将口语音频转换为人类可读文本的任务。

以下是一些不错的初学者语音识别数据集。

TIMIT 声学语音连续语音语料库。不是免费的，但因其广泛使用而列出。美式英语口语和相关转录。
沃克斯福奇。构建用于语音识别的开源数据库的项目。
LibriSpeech ASR 语料库。大量来自LibriVox的英语有声读物。

7. 文件摘要

文档摘要是为较大文档创建简短有意义的描述的任务。

以下是一些不错的初学者文档摘要数据集。

法律案例报告数据集。收集了4000个法律案例及其摘要。
TIPSTER文本摘要评估会议语料库。收集了近 200 份文档及其摘要。
AQUAINT 英语新闻文本语料库。不是免费的，但被广泛使用。新闻文章语料库。

总结

在这篇文章中，您发现了一套标准数据集，您可以在开始使用深度学习时将其用于自然语言处理任务。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：用于NLP的7大免费数据集！ - Python技术站