精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

李鬼見李逵,用Python“死磕”翟天臨的博士論文

開發 后端 開發工具
都說今年的瓜特別多(葫蘆娃的那種),但是過年期間最甜的我想非翟天臨的“知網是什么?”莫屬了吧。

都說今年的瓜特別多(葫蘆娃的那種),但是過年期間最甜的我想非翟天臨的“知網是什么?”莫屬了吧。

[[258097]] 

近期,翟天臨因“論文抄襲、學術造假”被推上風口浪尖,甚至連自己參演并準備播出的六部電視劇,也被央視要求全部刪減,至此人設徹底崩塌,輿論嘩然。

 

我平常不怎么關注娛樂圈,所以剛開始并沒有把這件事放在心上,直到網上爆出翟的論文大篇幅抄襲陳坤論文的消息,我才對這位娛樂圈博士的文章起了興趣。

 

目前北京電影學院已經撤銷翟天臨博士學位,取消陳浥博士研究生導師資格。

接下來就讓我們以一個 Coder 的角度來硬核分析下翟的論文吧。

實驗環境

工欲善其事,必先利其器,在開始分析之前,我先說明此次分析所處的實驗環境,以免出現異常:

  • MacOS 10.14.3
  • Python 3.6.8(Anaconda)
  • Visual Studio Code
  • 使用的包有:
  • pkuseg(分詞)
  • matplotlib(繪圖)
  • wordcloud(詞云)
  • numpy(數學計算)
  • Sklearn(機器學習)

數據獲取

說實話,起初我以為就算翟不知“知網”為何物,“知網”也該收錄翟的文章吧,可我在知網搜了好久也沒能找到翟的論文,好在我在今日頭條上找到了他的文章,保存在 data/zhai.txt 中。

 

說到這,還真要感謝翟天臨啊,都是因為他,大家才變得這么有學術精神,開始研究起本科碩士博士論文了。

數據清理

上一節我們已經將他的論文保存到一個 txt 中了,所以我們需要先將文章加載到內存中:

  1. # 數據獲取(從文件中讀取) 
  2. def readFile(file_path): 
  3.     content = [] 
  4.     with open(file_path, encoding="utf-8"as f: 
  5.         content = f.read() 
  6.     return content 

我統計了下,除去開頭的標題和末尾的致謝,總共 25005 個字。接下來我們來進行數據清理,在這里我用了 pkuseg 對內容進行分詞處理,同時去掉停用詞后輸出分詞的結果。

所謂停用詞就是在語境中沒有具體含義的文字,例如這個、那個,你我他,的得地,以及標點符合等等。

因為沒人在搜索的時候去用這些沒意義的停用詞搜索,為了使得分詞效果更好,我就要把這些停用詞過濾掉。

  1. # 數據清理(分詞和去掉停用詞) 
  2. def cleanWord(content): 
  3.     # 分詞 
  4.     seg = pkuseg.pkuseg() 
  5.     text = seg.cut(content) 
  6.  
  7.     # 讀取停用詞 
  8.     stopwords = [] 
  9.     with open("stopwords/哈工大停用詞表.txt", encoding="utf-8"as f: 
  10.         stopwords = f.read() 
  11.  
  12.     new_text = [] 
  13.     # 去掉停用詞 
  14.     for w in text: 
  15.         if w not in stopwords: 
  16.             new_text.append(w) 
  17.  
  18.     return new_text 

執行結果如下:

這里我提兩點,為什么分詞工具用的是 pkuseg 而不是 jieba?pkuseg 是北大推出的一個分詞工具。官方地址是:

  1. https://github.com/lancopku/pkuseg-python 

它的 README 中說它是目前中文分詞工具中效果***的。

為什么用哈工大的停用詞表?停用詞表的下載地址在:

  1. https://github.com/YueYongDev/stopwords 

以下是幾個常用停用詞表的對比:

 

參考文獻:官琴, 鄧三鴻, 王昊. 中文文本聚類常用停用詞表對比研究[J]. 數據分析與知識發現, 2006, 1(3).

停用詞表對比研究:

  1. https://github.com/YueYongDev/stopwords 

數據統計

說是數據統計,其實也沒什么好統計的,這里簡單化一下,就是統計下各個詞出現的頻率,然后輸出詞頻***的 15 個詞:

  1. # 數據整理(統計詞頻) 
  2. def statisticalData(text): 
  3.     # 統計每個詞的詞頻 
  4.     counter = Counter(text) 
  5.     # 輸出詞頻***的15個單詞 
  6.     pprint.pprint(counter.most_common(15)) 

打印的結果如下:

 

真的是個***的“好演員”啊,能將角色帶入生活,即使肚中無貨卻仍用自己的表演能力為自己設立一個“學霸”人設,人物形象如此飽滿,興許這就是創作的藝術吧!

文章中說的最多的就是生活、角色、人物、性格這些詞,這些正是一個好演員的精神所在,如果我們將這些詞做成詞云的話,可能效果會更好。

生成詞云

詞云生成這個部分我采用的是 wordcloud 庫,使用起來非常簡單,網上教程也有很多。

這里需要提一點的就是:為了防止中文亂碼情況的發生,需要配置 font_path 這個參數。

中文字體可以選用系統的,也可以網上找,這里我推薦一個免費的中文字體下載的網址:

  1. http://www.lvdoutang.com/zh/0/0/1/1.html 

下面是生成詞云的代碼:

  1. # 數據可視化(生成詞云) 
  2. def drawWordCloud(text, file_name): 
  3.     wl_space_split = " ".join(text) 
  4.  
  5.     # 設置詞云背景圖 
  6.     b_mask = plt.imread('assets/img/bg.jpg'
  7.     # 設置詞云字體(若不設置則無法顯示中文) 
  8.     font_path = 'assets/font/FZZhuoYTJ.ttf' 
  9.     # 進行詞云的基本設置(背景色,字體路徑,背景圖片,詞間距) 
  10.     wc = WordCloud(background_color="white",font_path=font_path, mask=b_mask, margin=5) 
  11.     # 生成詞云 
  12.     wc.generate(wl_space_split) 
  13.     # 顯示詞云 
  14.     plt.imshow(wc) 
  15.     plt.axis("off"
  16.     plt.show() 
  17.     # 將詞云圖保存到本地 
  18.     path = os.getcwd()+'/output/' 
  19.     wc.to_file(path+file_name) 

真假李逵(文章對比)

分析完了“李鬼”,我們有必要請出他的真身“李逵”兄弟了,同樣還是和之前一樣的套路,先找到數據,然后分詞統計詞頻,這里就不重復操作了,直接放出詞云圖。

看到這圖是不是覺得和翟的詞云圖異常相似,那么,這“真假李逵”之間到底有多像呢?接下來我們來計算下兩篇文章的相似度吧。

TF-IDF

文章相似度的比較有很多種方法,使用的模型也有很多類別,包括 TF-IDF、LDA、LSI 等,這里方便起見,就只使用 TF-IDF 來進行比較了。

TF-IDF 實際上就是在詞頻 TF 的基礎上再加入 IDF 的信息,IDF 稱為逆文檔頻率。

不了解的可以看下阮一峰老師的講解,里面對 TFIDF 的講解也是十分透徹的。

  1. https://www.ruanyifeng.com/blog/2013/03/tf-idf.html 

Sklearn

Scikit-Learn 也簡稱 Sklearn,是機器學習領域當中最知名的 Python 模塊之一,官方地址為:

  1. https://github.com/scikit-learn/scikit-learn 

其包含了很多種機器學習的方式,下面我們借助于 Sklearn 中的模塊 TfidfVectorizer 來計算兩篇文章之間的相似度。

代碼如下:

  1. # 計算文本相似度 
  2. def calculateSimilarity(s1, s2): 
  3.     def add_space(s): 
  4.             return ' '.join(cleanWord(s)) 
  5.  
  6.     # 將字中間加入空格 
  7.     s1, s2 = add_space(s1), add_space(s2) 
  8.     # 轉化為TF矩陣 
  9.     cv = TfidfVectorizer(tokenizer=lambda s: s.split()) 
  10.     corpus = [s1, s2] 
  11.     vectors = cv.fit_transform(corpus).toarray() 
  12.     # 計算TF系數 
  13.     return np.dot(vectors[0], vectors[1]) / (norm(vectors[0]) * norm(vectors[1])) 

除了 Sklearn,我們還可以使用 gensim 調用一些模型進行計算,考慮到文章篇幅,就由讀者自己去搜集資料實現吧。

我們將翟的論文和陳的論文分別傳入該函數后,輸出結果為:

  1. 兩篇文章的相似度為: 
  2. 0.7074857881770839 

其實這個結果我還是挺意外的,只知道這“李鬼”長得像,卻沒想到相似度竟然高達 70.7%。

[[258099]]

當然,作為弟弟,翟的這個事和吳秀波的事比起來,那都不是個事。

 

責任編輯:武曉燕 來源: 01二進制
相關推薦

2023-06-05 14:11:14

論文

2021-10-18 17:54:13

論文博士數據

2023-12-25 15:11:16

AI模型

2021-06-01 09:29:43

ArthasJVM內存

2021-03-01 08:02:55

算法排序操作

2021-08-03 14:00:06

數據研究論文

2025-08-27 09:12:00

谷歌AI模型

2024-01-03 13:05:00

數據訓練

2024-08-28 14:30:00

論文AI

2024-07-01 12:50:10

2021-10-28 09:23:17

論文學術數據

2020-11-25 20:03:41

AI 機器人工智能

2021-06-03 08:32:18

JVM調優虛擬機

2021-07-15 16:05:29

編程Rust開發

2012-12-27 11:11:54

華為任正非

2013-06-05 09:38:27

Intel功耗酷睿

2025-04-08 09:15:00

AI論文實測

2025-06-16 08:51:00

2009-03-02 16:11:56

2022-10-09 14:53:35

機器學習
點贊
收藏

51CTO技術棧公眾號

日本一区二区三区免费乱视频| av无码av天天av天天爽| 欧美成人黄色网| 国产精品电影| 欧美福利网址| 欧美亚洲国产bt| 欧美一级大片视频| 亚洲精品无码久久久久久久| 青青色在线视频| 欧美一区视频| 亚洲精品天天看| 国产真人做爰毛片视频直播| av加勒比在线| 99热国内精品永久免费观看| 欧美午夜影院一区| 国产内射老熟女aaaa| 91在线你懂的| 日本精品三区| 欧美日免费三级在线| 奇米影视首页 狠狠色丁香婷婷久久综合| 久久久久97国产| 成人在线日韩| 亚洲精选免费视频| 亚洲xxx大片| 翔田千里88av中文字幕| 日本久久二区| 自拍偷拍欧美精品| 97人人澡人人爽| 性色av一区二区三区四区| 国产欧美日韩| 精品视频一区三区九区| www.av毛片| 大地资源网3页在线观看| 精品一区二区三区免费视频| 日韩在线欧美在线| 中文字幕色网站| a视频在线观看| 国产亚洲精久久久久久| 国产精品高潮呻吟视频| 久久久久久成人网| 国产精品国产三级在线观看| 色婷婷国产精品| 1卡2卡3卡精品视频| 波多野结衣视频在线观看| 成人在线免费视频观看| 精品中文视频在线| 国产精品成人无码专区| 日韩伦理在线| 日本一区二区免费在线观看视频| 国产欧美一区二区在线播放| 国产精品一区二区三区四| 欧美手机视频| 亚洲视频一区二区| 天天看片天天操| 中韩乱幕日产无线码一区| 国产精品久久久久久久久动漫| 91啪国产在线| 亚洲精品视频在线观看免费视频| 在线看成人短视频| 9191成人精品久久| 成人性生活视频免费看| 欧美videossex另类| 91日韩一区二区三区| 国产精品自拍偷拍| 日本一区二区网站| 日韩国产欧美一区二区| 精品国产污污免费网站入口 | 亚洲经典一区二区| 亚洲美女色禁图| 伊人亚洲福利一区二区三区| 巨乳女教师的诱惑| 欧美日韩123区| 有坂深雪av一区二区精品| 蜜桃网站成人| 国产又粗又大又爽视频| 激情成人综合网| 全亚洲最色的网站在线观看| 午夜69成人做爰视频| 午夜久久福利| 97av在线视频| 99精品久久久久| 国产主播精品| 精品国偷自产在线视频99| 黄色在线观看av| 日本亚州欧洲精品不卡| 欧美午夜精品一区二区三区| 中日韩av在线播放| 女厕盗摄一区二区三区| 91久久线看在观草草青青| 91小视频在线播放| 国产乱人伦精品一区| 欧美高清激情brazzers| 中文字幕欧美人妻精品一区| 日皮视频在线观看| 亚洲日本在线天堂| 亚洲一区美女| 国际av在线| 久久综合狠狠综合久久综合88 | 国产毛片久久久久久国产毛片| 成年网站在线| 91麻豆视频网站| 亚洲欧洲久久| 成年人在线免费观看| 亚洲欧美日韩在线不卡| 久在线观看视频| 91九色国产在线播放| 亚洲精品免费在线观看| 亚洲熟妇无码av在线播放| 欧美性猛交xxx高清大费中文| 69久久夜色精品国产69蝌蚪网| 国产又粗又猛又色| 久久精品66| 亚洲第一网站男人都懂| 国产婷婷在线观看| 久久中文资源| xxx欧美精品| 欧美性x x x| 久久久久久久波多野高潮日日| 51精品在线观看| 国产精品爽爽久久久久久| 久久国产精品区| 久久99精品久久久久久青青日本| 天堂中文在线官网| 91老师片黄在线观看| 香蕉视频免费版| 日本一级理论片在线大全| 在线观看视频一区| 亚洲欧美久久久久| 懂色av色香蕉一区二区蜜桃| 亚洲美女在线视频| 丁香激情五月少妇| 日韩欧美在线中字| 日韩av手机在线看| 久久这里只有精品9| thepron国产精品| 欧美xxxx黑人又粗又长精品| 伊人精品影院| 精品久久久久久久中文字幕| 狠狠97人人婷婷五月| 日韩一区二区三区精品| 久久精品人人做人人爽| 精品乱码一区内射人妻无码| 久久色视频免费观看| 99精品在线免费视频| 国产精品宾馆| 国内精品小视频在线观看| 亚洲成人第一网站| 国产在线视视频有精品| 成人在线资源网址| 久草视频在线看| 精品美女永久免费视频| 黄www在线观看| 99欧美精品| 欧美岛国在线观看| 久久久久久国产精品无码| 欧美黄色大片在线观看| 欧美激情第三页| 无码人妻精品一区二| 免费观看日韩电影| 电影午夜精品一区二区三区| 亚洲国产精品精华素| 日韩一区二区免费在线电影 | 韩国一区二区三区视频| 精品国产91洋老外米糕| 国产中文字字幕乱码无限| 日韩电影在线免费| 国产高清自拍99| 美足av综合网| 日韩av一区在线| 日本一二三区在线观看| 国产精品一区二区三区99| 欧美一区少妇| 免费成人黄色网| 国产视频自拍一区| 亚洲欧美一区二区三区在线观看| 久久久久久电影| 亚洲精品无码国产| 国产日韩在线观看视频| 欧美老女人xx| 91国内精品久久久| 亚洲精品ww久久久久久p站| 亚洲av无码一区东京热久久| 久久麻豆精品| 国产精品区一区二区三在线播放 | 久久视频在线视频| 精品成人av一区二区在线播放| 国产在线视视频有精品| 久久艹国产精品| 国产中文字幕一区二区三区| 亚洲一区二区三区777| 成人高清网站| 日韩欧美电影一区| 国产性生活视频| 亚洲日本韩国一区| 欧美激情 亚洲| 免费成人美女在线观看.| 欧妇女乱妇女乱视频| 国产成人精品一区二区免费看京 | 亚洲自拍第二页| 久久亚洲综合色| 久久6免费视频| 国产亚洲激情| 精品国产一区二区三区麻豆小说| 在线网址91| 国产视频亚洲精品| 国产高潮流白浆喷水视频| 欧美日韩在线另类| 中文字幕影音先锋| 国产女人aaa级久久久级| 日本一区二区在线观看视频| 久久99国产精品麻豆| 久久久999免费视频| 在线精品视频在线观看高清| 成人信息集中地欧美| 日本激情在线观看| 色婷婷激情综合| 国产无遮挡aaa片爽爽| 国产精品久久一级| 天堂中文av在线| 久久九九电影| 久操网在线观看| 欧美在线资源| 亚洲精品tv久久久久久久久| 午夜精品福利影院| 国产福利精品在线| av资源网在线观看| 精品亚洲一区二区三区在线观看 | 成人日韩在线观看| 国产香蕉97碰碰久久人人| 黄色大全在线观看| 欧美色道久久88综合亚洲精品| 搡老熟女老女人一区二区| 国产精品自产自拍| 色播五月综合网| 日本特黄久久久高潮| 欧洲美女和动交zoz0z| 一本久久青青| 久久婷婷人人澡人人喊人人爽| 久久久精品区| 91久久在线播放| 亚洲国产91视频| 国产欧美久久一区二区| 日韩性xxx| 国产精品99久久99久久久二8| 亚洲女同志freevdieo| 亚洲视频精品在线| 日韩一区二区三区在线观看视频| 日韩欧美在线一区| 亚洲免费激情视频| 亚洲在线一区二区三区| 黄色正能量网站| 91在线视频18| 成人av毛片在线观看| 免费一级欧美片在线观看| www.日日操| 日产欧产美韩系列久久99| 亚洲一区二区蜜桃| 欧美黄色aaaa| 2022中文字幕| 国产欧美日韩一区二区三区四区| 欧美二区在线| 日韩成人精品| caoporen国产精品| 日韩毛片一区| 国产玖玖精品视频| 成人日韩视频| 99国产高清| 国产精品极品在线观看| 国产精品免费在线| 中文字幕亚洲影视| 日韩欧美一区二区三区久久婷婷| 欧美电影在线观看一区| 97人摸人人澡人人人超一碰| 欧美sss在线视频| 91免费观看网站| 一区二区日韩| 国产精品一区二区女厕厕| 亚洲伊人伊成久久人综合网| 国产成人精品av在线| 国产成人精选| 91九色蝌蚪成人| 天堂俺去俺来也www久久婷婷| 区一区二区三区中文字幕| 欧美oldwomenvideos| 日本老太婆做爰视频| 国产色综合网| 欧美在线aaa| 国产不卡视频在线播放| 日本中文字幕二区| 成人午夜又粗又硬又大| 91热视频在线观看| 日本中文一区二区三区| 中文字幕剧情在线观看| 91免费观看视频| 亚洲天堂网av在线| 欧美国产丝袜视频| 草视频在线观看| 日韩人体视频一二区| 国产露脸国语对白在线| 亚洲精品狠狠操| 欧美一区二区黄片| 在线成人免费网站| aa级大片免费在线观看| 国产精品久久久久国产a级| 亚洲视频国产| 日韩一区二区三区高清| 国产精品第十页| 国产精品拍拍拍| 成人av电影在线| 白嫩情侣偷拍呻吟刺激| 亚洲国产高清在线| 自拍偷拍你懂的| 中文字幕+乱码+中文字幕一区| 欧美日韩一级在线观看| 欧美在线观看18| 亚欧在线观看视频| 日韩精品有码在线观看| av网站大全在线| 国产精品r级在线| 国产精品tv| 超碰10000| 久久狠狠亚洲综合| 亚洲一区二区三区四区精品| 久久婷婷一区二区三区| 久久亚洲成人av| 欧美久久一二区| 成年人视频在线观看免费| 午夜精品久久久久久久99热| 岛国av在线播放| 亚洲bt欧美bt日本bt| 欧美jizz| 污污网站免费看| 国产视频亚洲色图| 五月婷婷色丁香| 亚洲成人国产精品| 中国av在线播放| 成人欧美一区二区三区在线| 欧美一级精品| 久久九九国产视频| 久久你懂得1024| 国产污视频在线观看| 精品美女在线播放| 青青青草网站免费视频在线观看| 欧美高清视频在线| 精品国产一区二区三区2021| 亚洲一区高清| 久久99久久久欧美国产| 国产一二三av| 欧美午夜精品久久久久久孕妇| 国产高清一级毛片在线不卡| xvideos成人免费中文版| 欧美黄页免费| 亚洲欧美久久234| 美国十次了思思久久精品导航| 91激情视频在线观看| 在线看日韩精品电影| 国产1区2区3区在线| 国产精品久久激情| 日韩精品免费一区二区在线观看| 日本特黄a级片| 成人av资源在线| 国产大片aaa| 亚洲精品国产精品国产自| 色黄视频在线观看| 欧美精品与人动性物交免费看| 蘑菇福利视频一区播放| 国产高清一区二区三区四区| 夜夜嗨av一区二区三区四季av| 精品国产无码一区二区三区| 亚洲欧美中文日韩在线v日本| 台湾佬中文娱乐久久久| 色99中文字幕| 亚洲免费高清| 蜜桃av免费看| 欧美在线观看18| av在线官网| 久久精品人成| 水蜜桃久久夜色精品一区的特点| 中文字幕1区2区| 国产精品激情偷乱一区二区∴| 亚洲最新av网站| 欧美激情精品久久久久久变态| 欧洲亚洲成人| 亚洲精品性视频| 亚洲午夜一二三区视频| 国产尤物在线观看| 久久久综合av| 精品日产免费二区日产免费二区| 日韩少妇内射免费播放| 中文字幕国产精品一区二区| 国产日韩在线观看一区| 日韩专区在线播放| 999久久久国产999久久久| 日韩av新片网| 日本一二三四高清不卡| 国产 日韩 欧美 综合| 欧美成人免费全部| 精品精品视频| 男人舔女人下面高潮视频| 久久综合av免费|