精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

100+個(gè)自然語言處理數(shù)據(jù)集大放送,再不愁找不到數(shù)據(jù)!

大數(shù)據(jù) 自然語言處理
奉上100多個(gè)按字母順序排列的開源自然語言處理文本數(shù)據(jù)集列表(原始未結(jié)構(gòu)化的文本數(shù)據(jù)),快去按圖索驥下載數(shù)據(jù)自己研究吧!

[[228774]]

大數(shù)據(jù)文摘作品

編譯:晚君、VVN、張禮俊、云舟

奉上100多個(gè)按字母順序排列的開源自然語言處理文本數(shù)據(jù)集列表(原始未結(jié)構(gòu)化的文本數(shù)據(jù)),快去按圖索驥下載數(shù)據(jù)自己研究吧!

數(shù)據(jù)集

1. Apache軟件基金會(huì)公開郵件檔案:截止到2011年7月11日全部公開可用的Apache軟件基金會(huì)郵件檔案。(200 GB)

http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/

2. 博主原創(chuàng)語料庫:包含2004年8月從blogger.com網(wǎng)站收集的19,320位博主的帖子。681,288個(gè)帖子以及140多萬字。(298 MB)

http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

3. 亞馬遜美食評(píng)論[Kaggle]:包含亞馬遜用戶在2012年10月前留下的568,454條食評(píng)。(240MB)

https://www.kaggle.com/snap/amazon-fine-food-reviews

4. 亞馬遜評(píng)論:斯坦福收集了3500萬條亞馬遜評(píng)論。(11GB)

https://snap.stanford.edu/data/web-Amazon.html

5. ArXiv上:所有收錄論文全文(270GB)+源文件(190GB)

http://arxiv.org/help/bulk_data_s3

6. ASAP自動(dòng)作文評(píng)分[Kaggle]:在本次比賽中,有8個(gè)作文集。每個(gè)作文都由一個(gè)單獨(dú)提示所得回答所生成。所選作文長(zhǎng)度為150到550個(gè)字不等。部分作文依賴于源信息,而另其他則不是。所有論文都是由7年級(jí)到10年級(jí)的學(xué)生所寫。所有的作文都由人工打分,并采用雙評(píng)分制。(100MB)

https://www.kaggle.com/c/asap-aes/data

7. ASAP簡(jiǎn)答題評(píng)分[Kaggle]:每個(gè)數(shù)據(jù)集都是由單個(gè)提示所得回答生成的。所選回答的平均長(zhǎng)度為50個(gè)字。某些回答依賴于源信息,而其他則不是。所有回答由10年級(jí)學(xué)生所寫。所有回答均為人工打分,并采用雙評(píng)分制。(35MB)

https://www.kaggle.com/c/asap-sas/data

8. 政治社交媒體分類:按內(nèi)容分類來自政客的社交媒體消息。(4MB)

https://www.crowdflower.com/data-for-everyone/

9. CLiPS文體學(xué)研究(CSI)語料庫:每年擴(kuò)展兩種類型的學(xué)生寫作:文章和綜述。這個(gè)語料庫的目的主要在于文體學(xué)研究,當(dāng)然也可用于其他研究。(數(shù)據(jù)集需要申請(qǐng)獲得)

http://www.clips.uantwerpen.be/datasets/csi-corpus

10. ClueWeb09 FACC:帶有Freebase注釋的ClueWeb09(72GB)

http://lemurproject.org/clueweb09/FACC1/

11. ClueWeb11 FACC:帶有Freebase注釋的ClueWeb11(92GB)

http://lemurproject.org/clueweb12/FACC1/

12. 常見爬蟲語料庫:由超過50億個(gè)網(wǎng)頁(541TB)爬蟲數(shù)據(jù)構(gòu)成。

http://aws.amazon.com/de/datasets/common-crawl-corpus/

13. 康奈爾電影對(duì)話語料庫(Cornell Movie Dialog Corpus):包含大量豐富的元數(shù)據(jù),從原始電影劇本中提取的對(duì)話集合:617部電影,10,292對(duì)電影人物之間的220,579次會(huì)話交流。(9.5MB)

http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html

14. 企業(yè)信息:分類企業(yè)在社交媒體上到底談?wù)摿耸裁吹墓ぷ鳌R笾驹刚邔⑵髽I(yè)陳述分類為信息(關(guān)于公司或其活動(dòng)的客觀陳述),對(duì)話(回復(fù)用戶等)或行動(dòng)(要求投票或要求用戶點(diǎn)擊鏈接等的信息)。(600KB)

http://aws.amazon.com/de/datasets/common-crawl-corpus/

15. Crosswikis:關(guān)聯(lián)英語短語與維基百科文章的數(shù)據(jù)庫。(11GB)

http://nlp.stanford.edu/data/crosswikis-data.tar.bz2/

16. 一個(gè)網(wǎng)絡(luò)社區(qū)關(guān)于從維基百科中提取結(jié)構(gòu)化信息并使得此信息在網(wǎng)絡(luò)上可用的共同成果。(17GB)

http://aws.amazon.com/de/datasets/dbpedia-3-5-1/?tag=datasets%23keywords%23encyclopedic

17. Death Row:自1984年以來處決的每個(gè)犯人的遺言。(HTML表格)

http://www.tdcj.state.tx.us/death_row/dr_executed_offenders.html

18. Del.icio.us:delicious.com上的125萬個(gè)書簽。

http://arvindn.livejournal.com/116137.html

19. 社交媒體上的災(zāi)難推文:1萬條推文,注釋了是否涉及災(zāi)難事件。(2MB)

https://www.crowdflower.com/data-for-everyone/

20. 經(jīng)濟(jì)新聞相關(guān)文章:確定新聞文章與美國經(jīng)濟(jì)是否相關(guān),如果相關(guān),文章的基調(diào)是什么。時(shí)間范圍從1951年到2014年。(12MB)

https://www.crowdflower.com/data-for-everyone/

21. 安然公司電子郵件數(shù)據(jù):包含1,227,255封電子郵件,其中493,384個(gè)附件覆蓋151位管理者。(210GB)

http://aws.amazon.com/de/datasets/enron-email-data/

22. 事件注冊(cè):免費(fèi)工具,可以實(shí)時(shí)訪問全球100,000個(gè)媒體的新聞文章。有API接口。(查詢工具)

http://eventregistry.org/

23. Examiner.com—用新聞?lì)^條釣魚的垃圾郵件[Kaggle]:現(xiàn)已停用的釣魚網(wǎng)站The Examiner從2010年到2015年發(fā)布的3百萬眾包新聞?lì)^條。(200MB)

https://www.kaggle.com/therohk/examine-the-examiner

24. 聯(lián)邦采購數(shù)據(jù)中心的聯(lián)邦合同(USASpending.gov):來自USASpending.gov的聯(lián)邦采購數(shù)據(jù)中心所有聯(lián)邦合同的數(shù)據(jù)庫。(180GB)

http://aws.amazon.com/de/datasets/federal-contracts-from-the-federal-procurement-data-center-usaspending-gov/

25. Flickr個(gè)人分類法:個(gè)人標(biāo)簽的樹結(jié)構(gòu)數(shù)據(jù)集。(40MB)

http://www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.html

26. Freebase數(shù)據(jù)庫:Freebase中所有當(dāng)前事實(shí)和推斷的數(shù)據(jù)庫(26GB)

http://aws.amazon.com/de/datasets/freebase-data-dump/

27. Freebase簡(jiǎn)單主題庫:Freebase中每個(gè)主題中基本的可識(shí)別事實(shí)的數(shù)據(jù)庫(5GB)

http://aws.amazon.com/de/datasets/freebase-simple-topic-dump/

28. Freebase四元庫:Freebase中所有當(dāng)前事實(shí)和推斷的數(shù)據(jù)庫[LZ1]。(35GB)

http://aws.amazon.com/de/datasets/freebase-quad-dump/

29. GigaOM Wordpress挑戰(zhàn)賽[Kaggle]:博客文章,元數(shù)據(jù),用戶喜好。(1.5GB)

https://www.kaggle.com/c/predict-wordpress-likes/data

30. 谷歌圖書n元語法:也可通過亞馬遜S3上hadoop格式文件獲取。(2.2TB)

http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

31. 谷歌網(wǎng)頁5元語法:含有英文單詞的n元序列,及其觀測(cè)頻率計(jì)數(shù)(24GB)

https://catalog.ldc.upenn.edu/LDC2006T13

32. Gutenberg電子書清單:帶注釋電子書清單(2MB)

http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs

33. 加拿大議會(huì)文本塊:來自加拿大第36屆議會(huì)正式記錄(Hansards)的130萬標(biāo)準(zhǔn)文本塊(句子或更小的片段)。(82MB)

http://www.isi.edu/natural-language/download/hansard/

34. 哈佛圖書館:超過1,200萬冊(cè)哈佛圖書館所藏資料的書目記錄,包括書籍,期刊,電子資源,手稿,檔案資料,樂譜,音頻,視頻和其他資料。(4GB)

http://library.harvard.edu/open-metadata#Harvard-Library-Bibliographic-Dataset

35. 仇恨言論識(shí)別:志愿人查看短文,并確定它是否a)包含仇恨言論,b)冒犯性的,但沒有仇恨言論,或c)一點(diǎn)也沒有冒犯性。包含近15千行,每個(gè)文本字符串有三個(gè)志愿者判斷。(3MB)

https://github.com/t-davidson/hate-speech-and-offensive-language

36. 希拉里克林頓的電子郵件[Kaggle]:整理了近7,000頁克林頓的電子郵件。(12MB)

https://www.kaggle.com/kaggle/hillary-clinton-emails

37. 家得寶公司產(chǎn)品搜索關(guān)聯(lián)[Kaggle]:包含家得寶公司網(wǎng)站的許多產(chǎn)品和客戶搜索條款。挑戰(zhàn)是預(yù)測(cè)搜索條目組合和產(chǎn)品的相關(guān)性分?jǐn)?shù)。為了創(chuàng)建真實(shí)標(biāo)簽,家得寶公司將搜索/產(chǎn)品配對(duì)眾包給多個(gè)評(píng)分者打分。(65MB)

https://www.kaggle.com/c/home-depot-product-search-relevance/data

38. 確定文本中的關(guān)鍵短語:?jiǎn)栴}/答案對(duì)和文本組成;判斷上下文文本是否與問題/答案相關(guān)。(8MB)

https://www.crowdflower.com/data-for-everyone/

39. 美國電視節(jié)目‘危險(xiǎn)’:216930個(gè)過去出現(xiàn)在‘危險(xiǎn)’節(jié)目的問題合集。(53MB)

http://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/

40. 200k英語明文笑話:208000種不同來源的明文笑話存檔。

https://github.com/taivop/joke-dataset

41. 歐洲語言機(jī)器翻譯:(612MB)

http://statmt.org/wmt11/translation-task.html#download

42. 材料安全數(shù)據(jù)表:230000材料安全數(shù)據(jù)表。(3GB)

http://aws.amazon.com/de/datasets/material-safety-data-sheets/

43. 百萬新聞?lì)^條-澳大利亞ABC[Kaggle]:由澳大利亞ABC新聞發(fā)布的從2003到2017年的130萬新聞。(56MB)

https://www.kaggle.com/therohk/million-headlines

44. MCTest:可免費(fèi)使用的660個(gè)故事集和相關(guān)問題,可用于研究文本機(jī)器理解、問答(1MB)。

http://research.microsoft.com/en-us/um/redmond/projects/mctest/index.html

45. Negra:德國報(bào)紙文本的語法標(biāo)注語料庫。可供所有大學(xué)及非營(yíng)利機(jī)構(gòu)免費(fèi)使用。需要簽署協(xié)議并發(fā)送申請(qǐng)才能獲得。

http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.html

46. 新聞?lì)^條-印度時(shí)報(bào)[Kaggle]:印度時(shí)報(bào)發(fā)表的從2001到2017年的270萬類新聞?lì)^條。(185MB)

https://www.crowdflower.com/data-for-everyone/

47. 新聞文章/維基百科頁面配對(duì):志愿者閱讀一篇短文,被問及最匹配的兩篇維基百科文章是哪一篇。(6MB)

https://www.kaggle.com/benhamner/nips-2015-papers/version/2

48. 2015 NIPS論文(版本2)[Kaggle]:所有2015年nips論文全文。(335MB)

https://www.kaggle.com/benhamner/nips-2015-papers/version/2

49. 紐約時(shí)報(bào)臉譜網(wǎng)數(shù)據(jù):所有紐約時(shí)報(bào)在臉譜網(wǎng)的帖子。(5MB)

http://minimaxir.com/2015/07/facebook-scraper/

50. 全球新聞一周供稿[Kaggle]:在2017年8月的一周,用20多種語言全球發(fā)表的140萬篇新聞事件數(shù)據(jù)集。(115MB)

https://www.kaggle.com/therohk/global-news-week

51. 句子/概念對(duì)的正確性:志愿者讀關(guān)于兩個(gè)概念的句子。例如,“狗是一種動(dòng)物”,或者“船長(zhǎng)可以和主人有同樣的意思”,然后他們被問到這個(gè)句子是否正確,并將其1-5評(píng)級(jí)。(700KB)

https://www.crowdflower.com/data-for-everyone/

52. 公開圖書館數(shù)據(jù)庫:公開圖書館中所有記錄的修改合集。(16GB)

https://openlibrary.org/developers/dumps

53. 人物語料庫:收集了作者文章風(fēng)格和個(gè)性預(yù)測(cè)的實(shí)驗(yàn)。由145名學(xué)生的145篇荷蘭語文章組成。(獲得需要申請(qǐng))

http://www.clips.uantwerpen.be/datasets/personae-corpus

54. Reddit評(píng)論:截至2015年7月,reddit論壇所有公開的評(píng)論。共計(jì)17億條評(píng)論。(250GB)

https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/

55. Reddit評(píng)論(2015年5月):Kaggle子數(shù)據(jù)集(8GB)

https://www.kaggle.com/reddit/reddit-comments-may-2015

56. Reddit提交語料庫:2006年1月-2015年8月31日所有公開可得的Reddit提交內(nèi)容。(42GB)

https://www.reddit.com/r/datasets/comments/3mg812/full_reddit_submission_corpus_now_available_2006/

57. 路透社語料庫:一個(gè)包含路透社新聞報(bào)道的數(shù)據(jù)集,用于自然語言處理的研究開發(fā)、信息檢索和機(jī)器學(xué)習(xí)系統(tǒng)。該語料庫又被稱為“路透社語錄1”或RCV1,它遠(yuǎn)遠(yuǎn)大于原來在文本分類中被廣泛使用的著名的路透社21578數(shù)據(jù)集。該語料庫數(shù)據(jù)需要通過簽署協(xié)議和發(fā)送郵件獲取。(2.5GB)

https://trec.nist.gov/data/reuters/reuters.html

58. SaudiNewsNet:31030條從不同沙特阿拉伯的網(wǎng)絡(luò)報(bào)紙上摘取的標(biāo)題和元數(shù)據(jù)。(2MB)

https://github.com/ParallelMazen/SaudiNewsNet

59. 垃圾短信數(shù)據(jù)集:5574條被標(biāo)記為合法/不合法的、未經(jīng)編碼的真實(shí)英文短信消息。(200KB)

http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

60. 《南方公園》數(shù)據(jù)集:csv格式文件,包含季、集、角色和臺(tái)詞的劇本信息。(3.6MB)

https://github.com/BobAdamsEE/SouthParkData

61. Stackoverflow:730萬條stackoverflow問題和其他stackexchange(問答工具)上的問答。

http://data.stackexchange.com/

62. Twitter的Cheng-Caverlee-lee用戶定位數(shù)據(jù)集:2009年9月-2010年1月的推文定位。(400MB)

https://archive.org/details/twitter_cikm_2010

63. Twitter上關(guān)于新英格蘭愛國者隊(duì)“放氣門”事件的輿情:在2015年超級(jí)碗比賽前,人們對(duì)被放了氣的橄欖球以及愛國者隊(duì)是否存在欺騙行為議論紛紛。該數(shù)據(jù)集提供了丑聞發(fā)生的這段時(shí)間里Twitter上的輿情,以便評(píng)估公眾對(duì)整個(gè)事件的感受。(2MB)

https://www.figure-eight.com/data-for-everyone/

64. Twitter上對(duì)于左傾相關(guān)事件的輿情分析:關(guān)于墮胎合法化、女權(quán)主義、希拉里·克林頓等各種左傾相關(guān)事件的推文,推文將根據(jù)內(nèi)容推斷被分類為For(支持)、Against(反對(duì))、Neutral(中立)或None of the above(以上都不是)。(600KB)

https://www.figure-eight.com/data-for-everyone/

65. Twitter的Sentiment140(情感分析數(shù)據(jù)集):關(guān)于品牌/關(guān)鍵詞的推文,網(wǎng)站包括論文和研究想法。(77MB)

http://help.sentiment140.com/for-students/

66. Twitter上關(guān)于自動(dòng)駕駛汽車的輿情分析:貢獻(xiàn)者們閱讀推文后,將推文里對(duì)于自動(dòng)駕駛的態(tài)度分為非常積極、較積極、中立、較消極和非常消極。如果推文與自動(dòng)駕駛汽車無關(guān),他們也要標(biāo)記出來。(1MB)

https://www.figure-eight.com/data-for-everyone/

67. Twitter上定位于東京的推文:20萬條來自東京的推文。(47MB)

http://followthehashtag.com/datasets/200000-tokyo-geolocated-tweets-free-twitter-dataset/

68. Twitter上定位于英國的推文:17萬條來自英國的推文。(47MB)

http://followthehashtag.com/datasets/170000-uk-geolocated-tweets-free-twitter-dataset/

69. Twitter上定位于美國的推文:20萬條來自美國的推文。(45MB)

http://followthehashtag.com/datasets/free-twitter-dataset-usa-200000-free-usa-tweets/

70. Twitter上對(duì)于美國各大航空公司的態(tài)度(Kaggle數(shù)據(jù)集):這是一個(gè)對(duì)于美國各大航空公司存在問題的情感分析任務(wù)。該數(shù)據(jù)集爬取了2015年2月的推文,貢獻(xiàn)者們將其分類為積極、消極和中立,對(duì)于那些分類為消極態(tài)度的推文,還會(huì)給出原因(例如“飛機(jī)晚點(diǎn)”或“服務(wù)態(tài)度差”等)。(2.5MB)

https://www.kaggle.com/crowdflower/twitter-airline-sentiment

71. 基于新聞標(biāo)題的美國經(jīng)濟(jì)表現(xiàn):根據(jù)新聞標(biāo)題頭條和摘要,對(duì)新聞和美國經(jīng)濟(jì)的相關(guān)性進(jìn)行排序。(5MB)

https://www.figure-eight.com/data-for-everyone/

72. 城市詞典(美國在線俚語詞典)里的單詞和定義:一個(gè)經(jīng)過清洗的CSV語料庫,包含截至2016年5月的城市詞典內(nèi)所有260萬個(gè)詞匯、定義、作者和投票情況。(238MB)

https://www.kaggle.com/therohk/urban-dictionary-words-dataset

73. 亞馬遜的Wesbury Lab Usenet語料庫:2005-2010的47,860個(gè)英文新聞組的郵件匿名匯編(40GB)

http://aws.amazon.com/de/datasets/the-westburylab-usenet-corpus/

74. 維基百科的Wesbury Lab語料庫:2010年4月維基百科英文部分中所有文章的快照。網(wǎng)站詳細(xì)描述了數(shù)據(jù)是如何被處理的——即去除所有鏈接和不相關(guān)的材料(如導(dǎo)航文本等)。語料庫是未經(jīng)標(biāo)記的原始文本,它被用于Stanford NLP。

http://www.psych.ualberta.ca/~westburylab/downloads/westburylab.wikicorp.download.html

75. Stanford NLP跳轉(zhuǎn)的鏈接:

https://scholar.google.com/scholar?oi=bibs&hl=en&cites=9060444488071171966&as_sdt=5

76. 維基百科提取(WEX):經(jīng)處理后的英文版維基百科(66GB)

http://aws.amazon.com/de/datasets/wikipedia-extraction-wex/

77. 維基百科的XML格式數(shù)據(jù):所有維基媒體(Wikimedia)的完整復(fù)制,以維基文本元(wikitext source)和元數(shù)據(jù)的形式嵌入到XML中。(500GB)

http://aws.amazon.com/de/datasets/wikipedia-xml-data/

78. 雅虎問答中的綜合問題與答案:截至2007年10月25日的雅虎問答語料庫,包含4,483,032條問答。(3.6GB)

http://webscope.sandbox.yahoo.com/catalog.php?datatype=l

79. 雅虎問答中用法語提問的問題:2006-2015年雅虎問答語料庫的子數(shù)據(jù)集,包含170萬條法語問答。(3.8GB)

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

80. 雅虎問答中的關(guān)于“如何做”的問題[LZ2]:根據(jù)語言屬性從2007年10月25日雅虎問答語料庫選出的子集,包含142,627條問答。(104MB)

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

81. 雅虎從公開網(wǎng)頁中提取的HTML格式頁面:包含少量復(fù)雜HTML格式的頁面和267萬個(gè)復(fù)雜格式的頁面。(50+ GB)

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

82. 雅虎從公開網(wǎng)頁頁面中提取的元數(shù)據(jù):1億個(gè)RDF格式數(shù)據(jù)的三元組(2GB)

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

83. 雅虎的N元語法模型表示(N-Gram Representations)數(shù)據(jù):該數(shù)據(jù)集包含N元語法表示數(shù)據(jù),這些數(shù)據(jù)可以用于IR研究中常見的查詢重寫(query rewriting)任務(wù),也可以用于NLP研究中常見的詞語和句子相似性分析任務(wù)。(2.6GB)

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

84. 雅虎的N元語法模型數(shù)據(jù)(版本2.0):n元語法模型數(shù)據(jù)(n=1-5),從一個(gè)包含1460萬個(gè)文檔(1.26億條不重復(fù)的語句,34億個(gè)運(yùn)行詞)的語料庫中提取,這些文檔是從12000個(gè)面向新聞的站點(diǎn)里爬取的(12 GB)

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

85. 雅虎搜索日志的相關(guān)性判斷:匿名雅虎搜索日志的相關(guān)性判斷(1.3GB)

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

86. 雅虎的英語維基百科語義注釋快照:包含從2006年11月4日開始的經(jīng)一些公開的NLP工具處理后的英文維基百科,共有1,490,688個(gè)條目。(6GB)

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

87. Yelp:包含餐廳排名和220萬條評(píng)論

https://www.yelp.com/dataset

88. Youtube:170萬條YouTube視頻描述(torrent格式)

https://www.reddit.com/r/datasets/comments/3gegdz/17_millions_youtube_videos_description/

資源

89. 優(yōu)秀的公開NLP數(shù)據(jù)集(包含更多清單)

https://github.com/awesomedata/awesome-public-datasets

90. 亞馬遜公開數(shù)據(jù)集

https://aws.amazon.com/de/datasets/

91. CrowdFlower數(shù)據(jù)集(包含大量小調(diào)查和對(duì)特定任務(wù)以眾包方式獲得的數(shù)據(jù))

https://www.crowdflower.com/data-for-everyone/

92. Kaggle數(shù)據(jù)集

https://www.kaggle.com/datasets

93. Kaggle比賽(請(qǐng)確保這些kaggle比賽數(shù)據(jù)可以在比賽之外使用)

https://www.kaggle.com/competitions

94. 開放圖書館

https://openlibrary.org/developers/dumps

95. Quora(大部分為已標(biāo)注好的語料庫)

https://www.quora.com/Datasets-What-are-the-major-text-corpora-used-by-computational-linguists-and-natural-language-processing-researchers-and-what-are-the-characteristics-biases-of-each-corpus

96. reddit數(shù)據(jù)集(無數(shù)個(gè)數(shù)據(jù)集,大部分由業(yè)余愛好者爬取,但數(shù)據(jù)的整理和許可可能不夠規(guī)范)

https://www.reddit.com/r/datasets

97. Rs.io:也是一個(gè)很長(zhǎng)的數(shù)據(jù)集清單

http://rs.io/100-interesting-data-sets-for-statistics/

98. Stackexchange:公開數(shù)據(jù)

http://opendata.stackexchange.com/

99. 斯坦福NLP組(大部分為已標(biāo)注的語料庫和TreeBanks,以及實(shí)用的NLP工具)

https://nlp.stanford.edu/links/statnlp.html

100. 雅虎研究院的數(shù)據(jù)集匯總Webscope(還包含了使用了這些數(shù)據(jù)的論文列表)

http://webscope.sandbox.yahoo.com/

相關(guān)報(bào)道:https://github.com/niderhoff/nlp-datasets/blob/master/README.md

【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號(hào)“大數(shù)據(jù)文摘( id: BigDataDigest)”】

     大數(shù)據(jù)文摘二維碼

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2020-12-28 15:08:27

開發(fā)C 語言編程

2016-11-11 19:51:35

2010-11-02 15:36:30

jQuery

2011-11-24 09:13:16

CSS

2010-07-22 10:28:59

Web開發(fā)IDE

2014-01-10 14:08:57

WLAN速度優(yōu)化

2018-10-25 12:01:37

機(jī)房搬遷要點(diǎn)

2020-10-29 10:43:24

網(wǎng)絡(luò)安全支付寶電子錢包

2012-05-10 10:55:03

CSS

2018-05-18 22:07:27

WOT2018前端AIOps

2021-05-11 10:30:34

數(shù)字化

2009-02-02 14:25:45

軟件 芮祥麟 SAP

2018-05-31 16:13:12

大數(shù)據(jù)架構(gòu)趨勢(shì)

2023-08-01 13:09:42

代碼開發(fā)

2017-11-01 15:50:38

數(shù)據(jù)庫MySQL 8.0新特性

2020-09-22 07:45:14

編碼語言網(wǎng)站博客

2021-05-13 07:17:13

Snownlp自然語言處理庫

2009-03-25 16:54:10

Linux軟件免費(fèi)

2012-01-09 16:43:13

點(diǎn)心通訊錄
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

牛牛精品在线| 国产xxxx在线观看| 首页国产精品| 这里只有精品视频在线观看| 一区二区三区日韩视频| 男人的天堂a在线| 日韩av电影天堂| 久热国产精品视频| 亚洲黄色在线网站| 亚洲91在线| 午夜精品一区二区三区免费视频| 欧洲在线视频一区| 精品人妻无码一区二区| 久久精品女人天堂| 欧美激情a∨在线视频播放| 无码熟妇人妻av| 粉嫩av国产一区二区三区| 国产精品久久久久久亚洲伦| 亚洲综合av影视| 中文字幕在线字幕中文| 精品国产91| 欧美日产国产精品| 日本男女交配视频| 黄色片在线免费观看| 激情综合色播激情啊| 91精品国产高清自在线看超| 亚洲不卡的av| 日本在线中文字幕一区| 在线成人av网站| jizzjizz国产精品喷水| 久久五月精品| 久久精品一二三| 国产精品麻豆免费版| 中文在线观看免费高清| 99这里有精品| 免费不卡欧美自拍视频| 受虐m奴xxx在线观看| 色妞ww精品视频7777| 欧美在线观看视频一区二区| 欧美在线一区视频| 国产福利在线播放麻豆| 国产亚洲综合在线| 精品乱色一区二区中文字幕| 国产乱码精品一区二三区蜜臂| 午夜在线精品偷拍| 久久免费视频观看| 久久国产美女视频| 欧美日一区二区| 日韩国产精品视频| 欧美一级大片免费看| 992tv国产精品成人影院| 香蕉成人伊视频在线观看| av不卡在线免费观看| 精品999视频| 91小视频在线观看| 91视频网页| 91精品国产乱码久久久久| 精品制服美女丁香| 成人国产精品久久久| 久久午夜鲁丝片| 亚洲欧美日本日韩| 91精品国产91久久久久久吃药 | 高清久久一区| 在线观看亚洲专区| 两根大肉大捧一进一出好爽视频| 白白色在线观看| 亚洲一区影音先锋| 拔插拔插海外华人免费| 欧美日韩经典丝袜| 一区二区三区国产精品| 国产制服91一区二区三区制服| 欧美成人性生活视频| 国产精品蜜臀在线观看| 日韩精品极品视频在线观看免费| 能在线看的av| 久久先锋影音av| 免费看污久久久| 国产高清一区在线观看| 欧美国产一区二区在线观看| 亚洲欧洲在线一区| 大乳在线免费观看| 国产欧美久久久精品影院| 亚洲不卡1区| 猫咪在线永久网站| 国产欧美一区二区精品婷婷| 性欧美videosex高清少妇| 日本视频不卡| 一区二区久久久| 久久久亚洲精品无码| 91精品产国品一二三产区| 在线免费观看成人短视频| 欧美女同在线观看| 日韩中文字幕视频网| 亚洲电影免费观看高清完整版在线| 水蜜桃av无码| 精品精品99| 久久久97精品| 日本亚洲色大成网站www久久| 国产一区二区精品| 国产精品欧美激情| 国产精品毛片一区二区在线看舒淇| 韩国欧美国产一区| 精品国产一区二区三区麻豆小说| 国产在线网站| 一区二区三区日韩欧美| 一女被多男玩喷潮视频| 欧美国产日韩电影| 91精品国产综合久久蜜臀| 影音先锋资源av| 欧美猛男同性videos| 最新亚洲国产精品| 精品无码m3u8在线观看| 国产精品普通话对白| 国产日韩欧美日韩| 十八禁一区二区三区| 中文字幕av一区二区三区高| 日韩中文字幕亚洲精品欧美| 蜜桃视频在线观看免费视频| 欧美日韩精品电影| 欧美一级片黄色| 99精品小视频| 97视频色精品| 91好色先生tv| 久久蜜臀精品av| 国产精品12p| 黑人巨大精品| 日韩免费看网站| 精品无码人妻一区| 午夜精品偷拍| 国产精品久久综合av爱欲tv| 可以免费看毛片的网站| 中文字幕av一区二区三区免费看| 精品无码av无码免费专区| 国产精品粉嫩| 亚洲黄页网在线观看| www欧美com| 青青草一区二区三区| 国产三区精品| 少女频道在线观看高清| 欧美日韩在线综合| 亚洲国产第一区| 中文字幕免费精品| 国产精品激情av在线播放| 少妇精品高潮欲妇又嫩中文字幕 | 精品国产乱码久久久久久图片 | 自拍偷在线精品自拍偷无码专区| 99热在线这里只有精品| 亚洲成人影音| 久久精品国产一区二区电影| 无码人妻精品一区二区50| 成人av网站在线观看免费| 男女激烈动态图| 久久精品国产精品亚洲毛片| 亚洲人成网站999久久久综合| 青青草成人av| 99视频有精品| 日本欧美视频在线观看| 日韩在线观看一区二区三区| 久久国内精品一国内精品| 中文字幕日本视频| 久久精品亚洲乱码伦伦中文| 北条麻妃69av| 天堂成人娱乐在线视频免费播放网站| 久久久久亚洲精品国产| 欧美一区二不卡视频| 亚洲一区在线观看视频| 少妇丰满尤物大尺度写真| 综合天天久久| 99国产高清| 日本动漫理论片在线观看网站| 欧美一级片在线| 免费日韩在线视频| 成人综合在线网站| 日韩网站在线免费观看| 北条麻妃在线一区二区免费播放 | 日韩福利影院| 成人在线中文| 久久亚洲国产成人| 国产视频一二三四区| 亚洲欧美日韩综合aⅴ视频| 激情成人在线观看| 韩日成人av| 精品久久久三级| 亚洲天堂一区二区| 日韩中文字幕第一页| 97在线公开视频| 一区二区免费在线播放| 国产麻豆剧传媒精品国产| 黄色综合网站| 欧美国产综合视频| 99久久精品一区二区成人| 俺去了亚洲欧美日韩| 成 人 黄 色 片 在线播放 | 一本一道无码中文字幕精品热| 国产欧美一区二区精品性| 午夜久久久精品| 欧美成人一区二免费视频软件| 不卡一卡2卡3卡4卡精品在| 无遮挡爽大片在线观看视频| 中文字幕成人精品久久不卡| 国产一区二区三区视频免费观看| 伊人婷婷欧美激情| 久久久久久九九九九九| 国产一区在线看| 男人的天堂狠狠干| 日韩精品看片| 国产精品伊人日日| 国产亚洲精彩久久| 久久久久久亚洲精品中文字幕| 欧美精品久久久久久久久久丰满| 欧美三级韩国三级日本一级| 久热精品在线观看| 国产日韩欧美麻豆| 久久黄色一级视频| 肉色丝袜一区二区| 真实国产乱子伦对白视频| 日韩精品丝袜美腿| 国产一区私人高清影院| 蜜桃av在线播放| 久久大大胆人体| 日韩av成人| 日韩精品一区在线| 中文字幕无线码一区| 亚洲国产日韩a在线播放性色| av在线播放中文字幕| 成人av在线网站| 五月天丁香花婷婷| 亚洲中午字幕| 日韩a级在线观看| 天天综合一区| 日本一区二区精品视频| 高清日韩中文字幕| 91精品在线观看视频| 亚洲天堂资源| 韩国日本不卡在线| aa在线视频| 日韩在线高清视频| 久久国产精品高清一区二区三区| 精品久久久久av影院| 91片黄在线观看喷潮| 在线一区二区三区做爰视频网站| 国产精品白丝喷水在线观看| 久久久久一区二区三区四区| 欧美日韩一区二区区| 国产在线一区二区| 天堂在线资源视频| 亚洲资源av| 日韩精品xxxx| 99国产精品| 僵尸世界大战2 在线播放| 欧美va天堂在线| 中文字幕中文字幕在线中心一区| 国产一区二区三区四区五区 | 欧美日韩国产在线观看网站| 精品不卡在线| 成功精品影院| 亚洲一区精品电影| 免费欧美网站| 92国产精品久久久久首页| 亚洲日日夜夜| 国产在线精品一区免费香蕉 | 亚洲a一级视频| 色8久久久久| 91精品国产自产在线老师啪| 成人国产综合| 国产中文日韩欧美| 激情视频亚洲| 97se亚洲综合在线| 香蕉免费一区二区三区在线观看| 成人精品一区二区三区电影免费| 麻豆精品一区| 成人女人免费毛片| 国产色噜噜噜91在线精品| 国产精品国产三级欧美二区| 97久久亚洲| 狠狠干一区二区| 免费短视频成人日韩| 欧洲亚洲一区| 国产精品成人a在线观看| 在线无限看免费粉色视频| 图片小说视频色综合| 欧美大片免费播放| 伊人久久婷婷| 成人观看免费完整观看| 日韩在线一区二区| 国产精品97在线| 免费在线观看一区二区三区| 欧美激情国内自拍| 白白色亚洲国产精品| 这里只有久久精品| 国产精品美女久久久久aⅴ| 2014亚洲天堂| 亚洲观看高清完整版在线观看| 四虎精品永久在线| 在线观看网站黄不卡| 国产免费不卡av| 日韩精品中文在线观看| 天堂av中文在线资源库| 亚洲精品短视频| 黄色网址在线免费| 97激碰免费视频| 国产麻豆一区| 精品无人区一区二区三区| 精品国产乱码久久久久久蜜坠欲下| 日日噜噜噜夜夜爽爽| 亚洲高清av| 色乱码一区二区三区在线| 国产成人午夜片在线观看高清观看| 国产高清自拍视频| 综合av第一页| 日韩污视频在线观看| 欧美一区欧美二区| 欧美巨乳在线| 久久久久久国产精品久久| 欧美成人精品三级网站| 国产精品初高中精品久久| jiujiure精品视频播放| 国产夫妻自拍一区| 麻豆精品在线播放| 性久久久久久久久久久| 亚洲色图.com| 无码人妻精品一区二区三区9厂 | 成人短视频在线观看免费| 六月丁香综合| 三区视频在线观看| 国产亚洲精品超碰| 国产污视频在线观看| 欧美日韩国产高清一区二区| 婷婷久久久久久| 欧美日韩成人在线播放| 裤袜国产欧美精品一区| 国产日韩精品推荐| 自拍偷拍欧美专区| 天天综合网日韩| 国产性天天综合网| 国产精品自拍视频一区| 欧美一三区三区四区免费在线看 | 黄色小说综合网站| 日本黄色网址大全| 亚洲欧洲色图综合| 日韩久久久久久久久| 日韩视频一区二区三区在线播放 | 国产精品1区2区| 山东少妇露脸刺激对白在线| 色婷婷激情一区二区三区| 日韩永久免费视频| 欧美精品第一页在线播放| 成人在线视频www| 亚洲一区bb| 蜜桃一区二区三区四区| 欧美多人猛交狂配| 大桥未久av一区二区三区| 人妻无码中文字幕免费视频蜜桃| 欧美成人精品在线| 国产精品igao视频网网址不卡日韩| 久热这里只精品99re8久| 欧美精品二区| 天天久久综合网| 亚洲精品中文字幕在线观看| 国产在成人精品线拍偷自揄拍| 日韩一区二区av| 亚洲欧洲专区| 国产高清不卡无码视频| 国产激情一区二区三区| 欧美一区二区三区爽爽爽| 91精品国产色综合久久不卡蜜臀 | 国产乱码一区二区| 欧美猛交ⅹxxx乱大交视频| 丁香5月婷婷久久| 激情综合在线观看| 欧美国产日韩亚洲一区| 一区二区三区精彩视频| 欧美激情18p| 视频国产一区| 亚洲自拍第三页| 亚洲一区在线观看视频| 免费福利在线观看| 国产精品精品久久久久久| 久久裸体网站| 真实乱偷全部视频| 亚洲天堂网中文字| 黑人精品一区二区三区| **欧美日韩vr在线| 欧美女优在线视频| www.久久91| 亚洲午夜免费视频| 神马久久高清| 国产精品视频区| 天天射综合网视频| 曰本三级日本三级日本三级| 婷婷中文字幕综合| 国产玉足榨精视频在线观看| 国产精品亚洲网站| 在线中文字幕第一区| 制服丝袜第一页在线观看| 91福利资源站| 最爽无遮挡行房视频在线| 精品国产综合久久| 免费成人av资源网| 国内偷拍精品视频|