在开始为自然语言处理任务进行深度学习时,您需要练习数据集。
最好使用可以快速下载的小型数据集,并且不会花费太长时间来拟合模型。此外,使用易于理解和广泛使用的标准数据集也很有帮助,这样您就可以比较您的结果以查看您是否正在取得进展。
在这篇文章中,您将发现一套用于自然语言处理任务的标准数据集,您可以在开始使用深度学习时使用它们。
概述
这篇文章分为7个部分,根据不同的数据集需求提供不同的下载地址,分别是:
- 文本分类
- 语言建模
- 图片说明
- 机器翻译
- 问答
- 语音识别
- 文档摘要
这些分类的数据集,几乎所有可以免费下载。让我们开始吧!
1. 文本分类
文本分类是指对句子或文档进行标记,例如垃圾邮件分类和情绪分析。
下面是一些不错的初学者文本分类数据集。
- 路透社通讯社主题分类(路透社-21578)。1987年出现在路透社上的新闻文件集合按类别索引。另请参阅 RCV1、RCV2 和 TRC2。
- IMDB电影评论情感分类(斯坦福大学)。来自网站的电影评论的集合 imdb.com 及其正面或负面情绪。
- 新闻集团影评情绪分类(康奈尔):来自网站的电影评论的集合 imdb.com ,包含正面或负面情绪。
2. 语言建模
语言建模涉及开发一个统计模型,用于预测句子中的下一个单词或单词中的下一个字母,给定之前出现的任何内容。它是语音识别和机器翻译等任务中的前光标任务。
它是语音识别和机器翻译等任务中的前光标任务。
下面是一些不错的初学者语言建模数据集。
-
古腾堡计划,大量免费书籍,可以多种语言的纯文本检索。
还有更正式的语料库得到了很好的研究; -
布朗大学现代美式英语标准语料库。英语单词的大量样本。
3. 图片说明
图像标题是为给定图像生成文本描述的任务。
以下是一些不错的初学者图像字幕数据集。
- 上下文中的常见对象 (COCO)。超过12万张带有描述的图像的集合
- Flickr 8K。从 flickr.com 中获取的8000张描述图像的集合。
- Flickr 30K。从 flickr.com 拍摄的 30,000 张描述图像的集合。
4. 机器翻译
机器翻译是将文本从一种语言翻译成另一种语言的任务。
以下是一些不错的初学者机器翻译数据集。
-
加拿大第36届议会的汉萨德结盟。英语和法语的成对句子。
-
欧洲议会程序平行语料库1996-2011。一套欧洲语言的句子对。
有大量标准数据集用于年度机器翻译挑战:
5. 问答
问答是一项任务,其中提供了一个句子或文本样本,从中提出问题并且必须回答问题。
以下是一些很好的初学者问答数据集。
- 斯坦福问答数据集 (SQuAD)。关于维基百科文章的问答。
- Deepmind问答语料库。关于《每日邮报》新闻文章的问答。
- 亚马逊问答数据。关于亚马逊商品的问答。
6. 语音识别
语音识别是将口语音频转换为人类可读文本的任务。
以下是一些不错的初学者语音识别数据集。
- TIMIT 声学语音连续语音语料库。不是免费的,但因其广泛使用而列出。美式英语口语和相关转录。
- 沃克斯福奇。构建用于语音识别的开源数据库的项目。
- LibriSpeech ASR 语料库。大量来自LibriVox的英语有声读物。
7. 文件摘要
文档摘要是为较大文档创建简短有意义的描述的任务。
以下是一些不错的初学者文档摘要数据集。
- 法律案例报告数据集。收集了4000个法律案例及其摘要。
- TIPSTER文本摘要评估会议语料库。收集了近 200 份文档及其摘要。
- AQUAINT 英语新闻文本语料库。不是免费的,但被广泛使用。新闻文章语料库。
总结
在这篇文章中,您发现了一套标准数据集,您可以在开始使用深度学习时将其用于自然语言处理任务。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:用于NLP的7大免费数据集! - Python技术站