自然语言处理(NLP)数据集汇总 2(附下载链接)

🎄🎄【自然语言处理NLP】简介 🎄🎄

自然语言处理(Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。


🎄🎄近期,小海带在空闲之余收集整理了一批自然语言处理(NLP)开源数据集供大家参考。 整理不易,小伙伴们记得一键三连喔!!!🎈🎈


1.Examiner.com—用新闻头条钓鱼的垃圾邮件[Kaggle]:现已停用的钓鱼网站The Examiner从2010年到2015年发布的3百万众包新闻头条。(200MB)

https://www.kaggle.com/therohk/examine-the-examiner

2.联邦采购数据中心的联邦合同(USASpending.gov):来自USASpending.gov的联邦采购数据中心所有联邦合同的数据库。(180GB)

http://aws.amazon.com/de/datasets/federal-contracts-from-the-federal-procurement-data-center-usaspending-gov/

3.Flickr个人分类法:个人标签的树结构数据集。(40MB)

http://www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.html

4.Freebase数据库:Freebase中所有当前事实和推断的数据库(26GB)

http://aws.amazon.com/de/datasets/freebase-data-dump/

5.Freebase简单主题库:Freebase中每个主题中基本的可识别事实的数据库(5GB)

http://aws.amazon.com/de/datasets/freebase-simple-topic-dump/

6.Freebase四元库:Freebase中所有当前事实和推断的数据库[LZ1]。(35GB)

http://aws.amazon.com/de/datasets/freebase-quad-dump/

7.GigaOM Wordpress挑战赛[Kaggle]:博客文章,元数据,用户喜好。(1.5GB)

https://www.kaggle.com/c/predict-wordpress-likes/data

8.谷歌图书n元语法:也可通过亚马逊S3上hadoop格式文件获取。(2.2TB)

http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

9.谷歌网页5元语法:含有英文单词的n元序列,及其观测频率计数(24GB)

https://catalog.ldc.upenn.edu/LDC2006T13

10.Gutenberg电子书清单:带注释电子书清单(2MB)

http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs

11.加拿大议会文本块:来自加拿大第36届议会正式记录(Hansards)的130万标准文本块(句子或更小的片段)。(82MB)

http://www.isi.edu/natural-language/download/hansard/

12.哈佛图书馆:超过1,200万册哈佛图书馆所藏资料的书目记录,包括书籍,期刊,电子资源,手稿,档案资料,乐谱,音频,视频和其他资料。(4GB)

http://library.harvard.edu/open-metadata#Harvard-Library-Bibliographic-Dataset

13.家得宝公司产品搜索关联[Kaggle]:包含家得宝公司网站的许多产品和客户搜索条款。挑战是预测搜索条目组合和产品的相关性分数。为了创建真实标签,家得宝公司将搜索/产品配对众包给多个评分者打分。(65MB)

https://www.kaggle.com/c/home-depot-product-search-relevance/data

14.确定文本中的关键短语:问题/答案对和文本组成;判断上下文文本是否与问题/答案相关。(8MB)

https://www.crowdflower.com/data-for-everyone/

15.美国电视节目‘危险’:216930个过去出现在‘危险’节目的问题合集。(53MB)

http://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/

16.200k英语明文笑话:208000种不同来源的明文笑话存档。

https://github.com/taivop/joke-dataset

17.欧洲语言机器翻译:(612MB)

http://statmt.org/wmt11/translation-task.html#download

18.材料安全数据表:230000材料安全数据表。(3GB)

http://aws.amazon.com/de/datasets/material-safety-data-sheets/

19.百万新闻头条-澳大利亚ABC[Kaggle]:由澳大利亚ABC新闻发布的从2003到2017年的130万新闻。(56MB)

https://www.kaggle.com/therohk/million-headlines

20.1MCTest:可免费使用的660个故事集和相关问题,可用于研究文本机器理解、问答(1MB)。

http://research.microsoft.com/en-us/um/redmond/projects/mctest/index.html

关于论文投稿&选刊可关注并留言博主的CSDN/QQ

>>>一起交流!互相学习!共同进步!<<<

本文链接:https://my.lmcjl.com/post/9850.html

展开阅读全文

4 评论

留下您的评论.