精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

R和Python中的文本挖掘:8個入門小貼士

開發 后端
本文將會通過 8 個小貼士幫助你走進文本挖掘之門。

你希望學習文本挖掘,卻發現大多數教程難度跨度很大?或者說你找不到心儀的數據集?

本文將會通過 8 個小貼士幫助你走進文本挖掘之門。

對文本保持好奇

在數據科學世界中,凡事的第一步都是“感到好奇”,文本挖掘也不例外。

就像 StackOverflow 的數據科學家 David Robinson 在他的博客中說的那樣,“當我看到一個假設 […] 我就迫不及待地想要用數據驗證它”。你也應該像他那樣對文本保持好奇心。

David Robinson 看到的假設是:

R和Python中的文本挖掘:8個入門小貼士

即使你并不打算真的去驗證它,你也應該對自己看到的詞云圖感到好奇,并且有想要自己動手復現一遍的想法。

如果你還未能感受到文本挖掘的魅力,那就來看看這些最近在媒體上廣受關注的文本挖掘應用案例吧,比如 South Park dialogue, film dialogue 等等,你會從中得到啟發。

掌握你所需要的知識和技能

R和Python中的文本挖掘:8個入門小貼士

當你擁有了好奇心,是時候去學習關于文本挖掘的知識和技能了。你可以通過完成一些教學課程輕松地做到這一步。

在這些教程中你需要格外關注的是數據科學工作流中的基本步驟,比如數據預備和預處理,數據探索,數據分析等等。

推薦閱讀:

  • Ted Kwartler: Text Mining in R: Are Pokémon GO Mentions Really Driving Up Stock Prices?
  • Ted Kwartler: Text Mining: Bag of Words
  • Neal Caren: An introduction to text analysis with Python
  • Kaggle: Part 1: For Beginners - Bag of Words
  • DataCamp: Learn Data Science - Resources for Python & R

詞語,詞語,詞語 – 尋找你的數據

R和Python中的文本挖掘:8個入門小貼士

一旦你掌握了分析和展現數據所需的基本概念和方法,就可以開始尋找你的數據了!

有非常多途徑可以找到你心儀的數據,除了 google trends 和雅虎,你還可以從以下途徑獲取數據:

  • 推特!R 和 Python 都提供了連接推特 API 的包或庫。
  • The Internet Archive, 一個非營利性的資料庫,包含上百萬的免費圖書、電影、軟件、音樂、網頁等等。
  • Project Gutenberg, 提供超過 55000 本免費電子書。大多數是成熟文獻,如果你想要對如像莎士比亞、簡·奧斯汀、愛倫坡這樣的作家的用詞進行分析,它會是很好的資源。
  • 在學術方面,你可以使用 JSTOR’s data for research。這是一個免費的自助工具,允許計算機科學、數字人文主義者和其他研究者使用 JSTOR 上的內容。
  • 如果你打算像開頭的例子中一樣對劇集或者電影進行文本挖掘,你可能需要考慮下載字幕。只要谷歌一下就能得到你想要的文本挖掘語料。
  • 你也可以從語料庫開始。兩個著名的語料庫是:
  • The Reuters Text Corpus, 一些人對這個語料庫是不是最多樣化的語料庫有爭議,但是它仍然對你開始學習文本挖掘很有幫助;
  • Brown Corpus, 包括500種來源的文本,并已經根據類型分類。

如你所見,文本來源有無限可能。任何包含文本的東西都可以成為你的文本挖掘案例學習的主題。

尋找合適的工具

[[189898]]

 

現在你已經找到了你的數據的來源,你可能需要使用合適的工具來對他們進行處理。你已經學習的教學課程應該已經為你提供了許多入門工具。

但是,如果你僅僅學習了教學課程,你可能錯過了一些東西,比如下文會介紹的用 R 進行文本挖掘時會用到的包:

  • 在R中進行文本挖掘時最常用的包毫無疑問是 tm 包。這個包常被加入到其他包中,比如 twitterR 包,通過這個包你可以從推特的網頁上提取推文和關注者等。
  • 在 R 中進行網頁爬蟲的時候你需要 rvest 包,這里有一個簡短的 rvest 教程。

對于Python,你可以使用以下庫:

  • 自然語言工具箱,包含在 nltk 包中,這個包是極其實用的,因為他提供了超過 50 種語料庫和詞匯資源的入口。你可以查看 nltk 數據列表。
  • 如果你想要挖掘推特數據,你有許多包可以選擇。其中最廣泛被使用的是 tweey 包
  • 對于網頁爬蟲,scrapy 包是最容易上手的,也可以考慮使用 urllib2,這是一個用來打開網頁鏈接的包。有時候更推薦使用 requests, 因為某些場合下它可能更方便使用。也有些人說它更加人性化,因為諸如設置 user-agent 和請求頁面都只需要一行代碼。偶爾你會看到有人提到并不太流行的 urllib包,大多數開發者提到它只是因為他們在里面找到一兩個他們覺得特別實用的函數。

充分的準備是成功的一半——數據預處理 

[[189899]]

數據科學家工作中 80% 的時間用在數據清洗上,文本挖掘也不例外。

如果你不確定要怎么預處理,以下是一些標準流程中的步驟:

  • 從文本中提取出你想要處理的格式和結構,
  • 去掉如 “that” 和 “and” 這樣的停用詞,
  • 詞干化(提取詞根)。這一步需要字典、語言學規則或算法(如 Porter 算法)的幫助。

這些步驟看起來很難,實際上你不用每一步都自己實現。大多數情況下,上文中提到的庫和包都能幫你實現這些步驟。比如 R 中的 tm 包可以讓你通過其內置函數完成詞干化、去除停止詞、消除空白以及小寫轉換。類似的,Python 中的 nltk 庫也可以通過其內置函數完成這些預處理過程。

然而,你可能仍然需要進一步使用正則表達式來描述你需要的文本模式,以便進一步預處理。這也可以加速你的數據清理過程。

對于 Python, 你可以使用 re 庫,而在 R 中,有許多內置函數,如 grep(), grepl(), regexpr(), gregexpr(), sub(), gsub() 和 strsplit()。

如果你想要更加深入地了解這些函數,或者 R 中的正則表達式,你可以查看這個正則表達式介紹網頁。

數據科學家的仙境冒險——數據探索

R和Python中的文本挖掘:8個入門小貼士

到目前為止,你已經摩拳擦掌準備開始分析了。但是,在分析之前最好還是先看看數據長什么樣子。

利用上文提到的那些包和庫,你可以快速地進行一些數據探索工作:

  • 創建一個文檔詞項矩陣:該矩陣中的元素表示語料庫中一篇文檔內,一個詞項(一個單詞或者一個 n 元詞組)出現的頻繁程度。
  • 當你創建了文檔詞項矩陣,你可以繪制直方圖來可視化語料庫中的詞匯頻率。
  • 你也可以計算語料庫中兩個或更多詞項之間的相關性。
  • 你可以使用詞云圖來可視化你的語料庫。在 R 中你可以使用 wordcloud 包來繪制,Python 中也有一個同名的庫。

經過數據探索過程,你會對你接下來分析中,要分析的對象有一定的了解。如果你看到文檔詞匯矩陣或者直方圖中有很多詞語是稀疏的,你可以考慮將他們去掉。

提升你的文本挖掘技能

[[189900]]

當你使用上述工具完成了預處理和基本的文本分析等步驟,你可以考慮通過你的數據集,進一步擴展你的文本挖掘技能。因為到現在,你看到的技巧提示都只是文本挖掘的冰山一角。

首先,你應該考慮探索文本挖掘和自然語言處理(NLP)的區別。更多關于 NLP 的 R 包可以在這個 NLP 的 R 包網頁找到。NLP 中,你會學習到命名實體識別、詞性標注、篇章分析、情感分析等內容。對于 Python, 你可以使用 nltk 庫。這個使用 nltk 庫進行情感分析完全指南會對你有所幫助。

除了這些包,還有諸如深度學習、統計主題發現模型(如隱式狄利克雷分配,LDA)等工具等著你去學習。這些算法對應的包有:

  • Python 庫:gensim,這個庫可以實現 word2vec, GloVe, LDA 等算法。此外,如果你需要研究深度學習,theano 是一個很值得考慮的庫。
  • R 包:text2vec 包可以用于實現文本向量化和詞嵌入。如果你對情感分析感興趣,使用 syuzhet 和 tm 包可以完成這個任務。最后,topicmodes 包可以用于實現統計主題發現模型。
  • 當然,并不僅僅只有這些包。

不止是詞語——結果可視化

R和Python中的文本挖掘:8個入門小貼士

可視化是一種非常吸引人的表達方式,所以將結果可視化可能是你能做的最美妙的事情!注意,你要可視化的是你要講的故事,而不是將你分析中發現的關聯性或者話題可視化。

Python 和 R 中都有許多可視化包:

對于 Python, 你可以考慮使用 NetworkX 庫來可視化復雜網絡,matplotlib 包可以用來解決其他可視化問題。此外,plotly 包讓你可以發布可交互在線圖表。試著將 Python 和 D3 聯系起來會得到更好的效果。D3 是一個用于動態數據操縱和可視化的 JavaScript 庫,可以讓你的讀者和聽眾參與到數據可視化的過程中來。

對于 R, 除了 ggplot2 等大家耳熟能詳的包,你也可以使用 igraph 包來分析關注、被關注以及轉發微博等關系。此外,plotly 和 networkD3 包可以把 R 和 JavaScript 鏈接起來,LDAvis 包則可以將主題模型進行可交互的可視化。

 

責任編輯:未麗燕 來源: 數據工匠
相關推薦

2017-05-02 09:16:20

RPython文本挖掘

2022-05-07 10:51:42

DevOps左移應用程序

2017-03-02 13:43:02

RPython文本挖掘

2020-11-18 17:51:35

代碼編程語言

2021-03-26 10:05:25

\n\rLinux

2020-07-28 07:55:33

Python開發工具

2016-10-17 16:19:43

數據挖掘問題

2024-09-23 09:20:00

Python文本分析

2016-08-18 01:26:22

數據挖掘

2020-07-22 16:27:11

開源工具數據挖掘數據

2013-07-05 09:26:05

私有云數據中心私有云遷移

2014-02-09 09:56:55

802.11ac千兆wifi

2017-08-24 09:35:06

深度學習向量化Hash Trick

2015-10-08 15:24:44

程序員面試貼士

2020-04-20 09:00:00

智能家居物聯網

2009-06-18 10:11:59

指紋Web安全

2023-03-06 10:44:50

AndroidProguard

2021-07-13 08:20:05

iPad手繪插畫

2024-10-30 16:49:00

Python字符串

2024-03-21 08:57:39

語言軟件開發
點贊
收藏

51CTO技術棧公眾號

成人在线一区| 在线成人视屏| jlzzjlzz国产精品久久| 欧美在线亚洲一区| 国产又粗又长免费视频| 97久久中文字幕| 亚洲国产欧美日韩另类综合 | 久久久久久久久久久久久久久久久久久久 | 国产成人精品免费视频大全最热 | 日韩一级片在线播放| 尤物av无码色av无码| 91社区在线观看播放| 成人久久18免费网站麻豆| 国产成人精品在线播放| 九九视频免费观看| 第一sis亚洲原创| 亚洲精品一区二区三区香蕉| 高清一区二区视频| sqte在线播放| 亚洲欧美一区二区三区极速播放| 久久国产一区| 国产xxxx孕妇| 美女网站一区二区| 欧美野外猛男的大粗鳮| 波多野结衣家庭教师| 九九久久婷婷| 欧美mv日韩mv亚洲| 亚洲欧美自偷自拍另类| 东京一区二区| 亚洲一区二区三区三| 亚洲一卡二卡区| 男人的天堂在线| 成人爽a毛片一区二区免费| 国产精品久久视频| 狠狠人妻久久久久久综合| 国产一区二区三区自拍| 久久偷看各类女兵18女厕嘘嘘 | 午夜欧洲一区| 欧美sm美女调教| 欧美国产在线一区| 亚洲精品aa| 欧美天堂一区二区三区| 高清在线观看免费| а√天堂8资源中文在线| 亚洲精品美腿丝袜| 18视频在线观看娇喘| 五月婷婷在线视频| 国产精品国产三级国产aⅴ入口| 欧美一区二区在线| 丝袜+亚洲+另类+欧美+变态| a在线播放不卡| 国产精品久久久久免费| 国产极品久久久| 国产一区二区美女| 亚洲aaa激情| www.五月激情| 国产69精品一区二区亚洲孕妇 | 亚洲第一论坛sis| 日韩精品久久久久久久玫瑰园| 亚洲少妇一区二区三区| 亚洲三级av| 精品不卡在线视频| www.com日本| 韩国女主播一区二区三区| 欧美一级国产精品| 最新国产精品自拍| 国产96在线亚洲| 日韩av中文字幕在线| 欧美色图亚洲激情| 国模精品一区| 日韩一区二区av| 色欲人妻综合网| 亚洲图片在线| 45www国产精品网站| 伦av综合一区| 久久99精品国产91久久来源| 成人福利视频网| www.看毛片| 成人av片在线观看| 日韩久久不卡| 国产激情小视频在线| 亚洲综合一二三区| 免费看的黄色大片| 123成人网| 欧美一级二级三级乱码| 亚洲综合自拍网| 精品久久影院| 久久躁狠狠躁夜夜爽| 久久综合成人网| 裸体素人女欧美日韩| 国产精品日韩欧美| av中文字幕第一页| 91在线视频网址| 亚洲视频精品一区| 国产羞羞视频在线播放| 欧美性猛交xxxx免费看久久久| 色播五月综合网| 国产精品欧美大片| 中文字幕亚洲激情| 国产亚洲精品久久777777| 首页亚洲欧美制服丝腿| 91超碰rencao97精品| 日本在线视频1区| 亚洲色图丝袜美腿| 欧美二区在线视频| av国产精品| 亚洲欧美三级在线| 青娱乐在线视频免费观看| 亚洲综合电影一区二区三区| 成人免费福利视频| 欧美日韩国产中文字幕在线| 亚洲视频在线观看三级| 国产91在线免费| 麻豆国产一区| 一个色综合导航| 久久久久香蕉视频| 久热成人在线视频| 欧美日韩国产不卡在线看| 羞羞视频在线观看免费| 欧美在线一二三四区| 美女久久久久久久久| 婷婷综合网站| 国产97免费视| 人妻无码中文字幕免费视频蜜桃| 中文字幕在线免费不卡| 日韩av在线综合| av自拍一区| 九九热99久久久国产盗摄| 日韩国产亚洲欧美| 91麻豆福利精品推荐| www.18av.com| 岛国一区二区| 亚洲视频第一页| 亚洲免费在线观看av| 国产成人久久精品77777最新版本 国产成人鲁色资源国产91色综 | 6080成人| 欧美成人午夜免费视在线看片| 亚洲视频在线免费播放| 国产欧美在线观看一区| 亚洲乱码中文字幕久久孕妇黑人| 老牛精品亚洲成av人片| 欧美精品精品精品精品免费| 99riav国产| 亚洲天堂福利av| 手机av在线网| 日韩精品不卡一区二区| 国产精品久久久久久一区二区 | 久久精品99久久香蕉国产色戒| 日本一本在线观看| 久久久久国产免费免费| 国产成人亚洲精品无码h在线| 欧美精品中文| 日本欧美在线视频| 欧美老女人性开放| 91黄色小视频| 美女av免费看| 久久er99热精品一区二区| 亚洲一卡二卡三卡| 国产一区二区三区精品在线观看 | 美女主播视频一区| 一区二区电影免费观看| 亚洲女人天堂av| 亚洲大尺度在线观看| 中文字幕av一区 二区| 亚洲小视频网站| 欧美国产专区| 国产伦精品一区二区三区照片| av资源中文在线| 精品夜色国产国偷在线| 看黄色一级大片| 国产精品水嫩水嫩| 欧美成人乱码一二三四区免费| 91精品国产91久久久久久黑人| 91最新国产视频| 波多野结衣视频一区二区| 国产视频综合在线| 成人一二三四区| 最好看的中文字幕久久| 中文字幕亚洲日本| 99伊人成综合| 色一情一乱一伦一区二区三欧美 | 久久久蜜桃一区二区人| 亚洲天堂电影网| 粉嫩一区二区三区四区公司1| 欧美孕妇性xx| 亚洲s色大片| 精品国产123| 国产在线观看第一页| 亚洲精品中文在线影院| 黄色国产在线观看| 久久99精品一区二区三区| av在线免费观看国产| 九九亚洲视频| 91九色极品视频| 日韩免费va| 欧美另类极品videosbestfree| 天堂а在线中文在线无限看推荐| 欧美日韩久久久一区| 日韩激情一区二区三区| 国产精品网站在线播放| 一边摸一边做爽的视频17国产| 久久综合影音| 免费人成在线观看视频播放| 一区二区三区在线播放欧美| 极品日韩久久| 电影久久久久久| 精品中文字幕乱| 欧美日韩国产亚洲沙发| 欧美一卡二卡在线| 男操女视频网站| 亚洲国产欧美在线| 久久精品一区二区三区四区五区| 成人丝袜视频网| 17c国产在线| 日日摸夜夜添夜夜添国产精品 | 亚洲一区中文字幕| 成人免费短视频| 久久久久久久久久国产| 麻豆传媒视频在线观看免费| 亚洲欧洲av一区二区| 好吊色在线观看| 在线不卡欧美精品一区二区三区| 欧美国产成人精品一区二区三区| 亚洲美女免费在线| 国产一二三四区在线| 99精品国产一区二区三区不卡 | av不卡在线观看| 日韩久久久久久久久久久| 久久99蜜桃精品| 最新中文字幕2018| 久久一综合视频| 日本日本19xxxⅹhd乱影响| 影音先锋久久资源网| 大地资源网在线观看免费官网| 日韩在线观看一区| 日韩中文字幕av在线| 久久av超碰| 久久青青草综合| 视频小说一区二区| 国产一区二区视频在线免费观看 | 老女人性淫交视频| 中文字幕视频一区| 国产三级精品三级观看| 国产精品初高中害羞小美女文| 永久免费毛片在线观看| 国产亚洲一区二区三区在线观看| 亚洲黄色在线网站| 久久无码av三级| 人妻精品久久久久中文字幕| 91美女片黄在线| 北岛玲一区二区| 91女神在线视频| 一本加勒比北条麻妃| 久久午夜免费电影| 青娱乐国产视频| 国产精品三级av| 欧美风情第一页| 一区二区三区精品久久久| 久久激情免费视频| 亚洲va中文字幕| 天天做天天爱夜夜爽| 一本一本大道香蕉久在线精品| 黄色片中文字幕| 欧美色综合影院| 国产美女免费看| 精品久久久久久久人人人人传媒| 成人午夜免费剧场| 男人天堂视频在线观看| 97超级碰碰碰| 蜜桃精品在线| 成人福利在线观看| 99re91这里只有精品| 精品视频高清无人区区二区三区| 日韩极品少妇| 日韩一区不卡| 影视一区二区| 青青草视频在线免费播放| 午夜亚洲一区| 在线免费观看视频黄| 国产一区二区在线免费观看| 国产精品日日摸夜夜爽| 91色在线porny| 一级黄色毛毛片| 亚洲综合久久av| jizz国产在线观看| 欧美日韩国产色站一区二区三区| 精品国产伦一区二区三区| 亚洲精品成人网| 在线观看免费高清完整| 久久久久久av| 日本在线精品| 古典武侠综合av第一页| 国产伦精品一区二区三区千人斩 | 欧美性猛交xxxx黑人交| 国产又大又长又粗| 亚洲第一中文字幕在线观看| 成人av毛片| 久久久久久久久网站| 日韩一区精品| 国产一区免费在线| 欧美国产一级| 免费无码国产v片在线观看| 国产一区二区三区香蕉| 国产亚洲无码精品| 一区二区在线看| 性色av一区二区三区四区| 精品国产123| 欧美日韩欧美| 日本高清久久天堂| 2023国产精华国产精品| 一本一生久久a久久精品综合蜜| 99re国产精品| 亚洲综合在线一区二区| 国产婷婷色一区二区三区在线| 免费在线观看亚洲| 欧美精品色综合| 国产中文字幕在线观看| 亚州av一区二区| 日韩精品成人| 中文字幕一区二区三区四区五区六区 | 国产夜色精品一区二区av| 国产精品50页| 午夜在线a亚洲v天堂网2018| 国产一区免费视频| 888久久久| 天天操天天干天天做| 久久九九影视网| 日韩av在线播放观看| 日韩欧美一级二级| 美女羞羞视频在线观看| 日韩免费在线视频| 亚洲+变态+欧美+另类+精品| 男女日批视频在线观看| 国产精品一品视频| 国产精品视频看看| 欧美性大战久久久久久久蜜臀| 青梅竹马是消防员在线| 欧美性一区二区三区| 欧美一级一片| 毛片在线视频播放| 成人免费高清视频在线观看| 精品99在线观看| 日韩视频一区在线观看| 在线电影福利片| 97神马电影| 欧美日韩国产在线一区| 亚洲午夜精品在线观看| 樱桃国产成人精品视频| www.香蕉视频| 欧美丰满少妇xxxxx| 视频二区欧美| 亚洲精品无码国产| 成人福利视频网站| 日韩免费不卡视频| 亚洲精品中文字| 日韩免费va| 一区在线电影| 国产麻豆精品一区二区| 妺妺窝人体色www婷婷| 精品国产123| 一二三四视频在线中文| 欧美日韩一区二区三区在线观看免| 久久久久久久欧美精品| 成熟人妻av无码专区| 欧美日韩高清一区| yellow91字幕网在线| 国产日韩在线一区二区三区| 亚洲制服少妇| 超碰人人干人人| 日韩一级二级三级精品视频| 1234区中文字幕在线观看| 欧美极品一区二区| 男人的j进女人的j一区| 中文字幕另类日韩欧美亚洲嫩草| 精品国产三级电影在线观看| 制服丝袜专区在线| 亚洲精品国产精品国自产| 国产一区 二区 三区一级| 特一级黄色大片| 亚洲亚裔videos黑人hd| 99精品视频在线免费播放| 久久这里只有精品18| 国产欧美一区二区精品仙草咪 | 亚洲精品福利电影| 亚洲一区免费看| 成人av网站在线| 中文字幕你懂的| 欧美精品精品精品精品免费| 国产永久精品大片wwwapp| 欧美一级小视频| 精品久久久久久久大神国产| 午夜伦理在线| 九九九九九精品| 精品午夜久久福利影院| 国产高潮久久久| 欧美精品在线网站| 国产成人短视频在线观看| wwwww在线观看| 欧美亚男人的天堂| av在线视屏|