精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

路透社文章的文本數(shù)據(jù)分析與可視化

新聞
本文將幫助你獲得構(gòu)建可視化和解釋文本數(shù)據(jù)所需的信息。

 當(dāng)我要求你解釋文本數(shù)據(jù)時,你會怎幺做?你將采取什幺步驟來構(gòu)建文本可視化?

本文將幫助你獲得構(gòu)建可視化和解釋文本數(shù)據(jù)所需的信息。

[[345088]]

從文本數(shù)據(jù)中獲得的見解將有助于我們發(fā)現(xiàn)文章之間的聯(lián)系。它將檢測趨勢和模式。對文本數(shù)據(jù)的分析將排除噪音,發(fā)現(xiàn)以前未知的信息。

這種分析過程也稱為探索性文本分析(ETA)。運用K-means、Tf-IDF、詞頻等方法對這些文本數(shù)據(jù)進(jìn)行分析。此外,ETA在數(shù)據(jù)清理過程中也很有用。

我們還使用Matplotlib、seaborn和Plotly庫將結(jié)果可視化到圖形、詞云和繪圖中。

在分析文本數(shù)據(jù)之前,請完成這些預(yù)處理任務(wù)。

從數(shù)據(jù)源檢索數(shù)據(jù)

有很多非結(jié)構(gòu)化文本數(shù)據(jù)可供分析。你可以從以下來源獲取數(shù)據(jù)。

  1. 來自Kaggle的Twitter文本數(shù)據(jù)集。
  2. Reddit和twitter數(shù)據(jù)集使用API。
  3. 使用Beautifulsoup從網(wǎng)站上獲取文章、。

我將使用路透社的SGML格式的文章。為了便于分析,我將使用beauthoulsoup庫從數(shù)據(jù)文件中獲取日期、標(biāo)題和文章正文。

使用下面的代碼從所有數(shù)據(jù)文件中獲取數(shù)據(jù),并將輸出存儲在單個CSV文件中。

  1. from bs4 import BeautifulSoup 
  2.  
  3. import pandas as pd 
  4.  
  5. import csv 
  6.  
  7. article_dict = {} 
  8.  
  9. i = 0 
  10.  
  11. list_of_data_num = [] 
  12.  
  13. for j in range(0,22): 
  14.  
  15. if j < 10
  16.  
  17. list_of_data_num.append("00" + str(j)) 
  18.  
  19. else
  20.  
  21. list_of_data_num.append("0" + str(j)) 
  22.  
  23. # 循環(huán)所有文章以提取日期、標(biāo)題和文章主體 
  24.  
  25. for num in list_of_data_num: 
  26.  
  27. try
  28.  
  29. soup = BeautifulSoup(open("data/reut2-" + num + ".sgm"), features='lxml'
  30.  
  31. except: 
  32.  
  33. continue 
  34.  
  35. print(num) 
  36.  
  37. data_reuters = soup.find_all('reuters'
  38.  
  39. for data in data_reuters: 
  40.  
  41. article_dict[i] = {} 
  42.  
  43. for date in data.find_all('date'): 
  44.  
  45. try
  46.  
  47. article_dict[i]["date"] = str(date.contents[0]).strip() 
  48.  
  49. except: 
  50.  
  51. article_dict[i]["date"] = None 
  52.  
  53. # print(date.contents[0]) 
  54.  
  55. for title in data.find_all('title'): 
  56.  
  57. article_dict[i]["title"] = str(title.contents[0]).strip() 
  58.  
  59. # print(title.contents) 
  60.  
  61. for text in data.find_all('text'): 
  62.  
  63. try
  64.  
  65. article_dict[i]["text"] = str(text.contents[4]).strip() 
  66.  
  67. except: 
  68.  
  69. article_dict[i]["text"] = None 
  70.  
  71. i += 1 
  72.  
  73. dataframe_article = pd.DataFrame(article_dict).T 
  74.  
  75. dataframe_article.to_csv('articles_data.csv', header=True, index=False, quoting=csv.QUOTE_ALL) 
  76.  
  77. print(dataframe_article) 

還可以使用Regex和OS庫組合或循環(huán)所有數(shù)據(jù)文件。

每篇文章的正文以<Reuters>開頭,因此使用find_all(‘reuters’)。

你也可以使用pickle模塊來保存數(shù)據(jù),而不是CSV。

清洗數(shù)據(jù)

在本節(jié)中,我們將從文本數(shù)據(jù)中移除諸如空值、標(biāo)點符號、數(shù)字等噪聲。首先,我們刪除文本列中包含空值的行。然后我們處理另一列的空值。

  1. import pandas as pd import re 
  2.  
  3. articles_data = pd.read_csv(‘articles_data.csv’) print(articles_data.apply(lambda x: sum(x.isnull()))) articles_nonNull = articles_data.dropna(subset=[‘text’]) articles_nonNull.reset_index(inplace=True) 
  4.  
  5. def clean_text(text): 
  6.  
  7. ‘’’Make text lowercase, remove text in square brackets,remove \n,remove punctuation and remove words containing numbers.’’’ 
  8.  
  9. text = str(text).lower() 
  10.  
  11. text = re.sub(‘<.*?>+’, ‘’, text) 
  12.  
  13. text = re.sub(‘[%s]’ % re.escape(string.punctuation), ‘’, text) 
  14.  
  15. text = re.sub(‘\n’, ‘’, text) 
  16.  
  17. text = re.sub(‘\w*\d\w*’, ‘’, text) 
  18.  
  19. return text 
  20.  
  21. articles_nonNull[‘text_clean’]=articles_nonNull[‘text’]\ 
  22.  
  23. .apply(lambda x:clean_text(x)) 

articles_data = pd.read_csv(‘articles_data.csv’) print(articles_data.apply(lambda x: sum(x.isnull()))) articles_nonNull = articles_data.dropna(subset=[‘text’]) articles_nonNull.reset_index(inplace=True)

def clean_text(text):

‘’’Make text lowercase, remove text in square brackets,remove \n,remove punctuation and remove words containing numbers.’’’

text = str(text).lower()

text = re.sub(‘<.*?>+’, ‘’, text)

text = re.sub(‘[%s]’ % re.escape(string.punctuation), ‘’, text)

text = re.sub(‘\n’, ‘’, text)

text = re.sub(‘\w*\d\w*’, ‘’, text)

return text

articles_nonNull[‘text_clean’]=articles_nonNull[‘text’]\

.apply(lambda x:clean_text(x))

當(dāng)我們刪除文本列中的空值時,其他列中的空值也會消失。

我們使用re方法去除文本數(shù)據(jù)中的噪聲。

數(shù)據(jù)清理過程中采取的步驟可能會根據(jù)文本數(shù)據(jù)增加或減少。因此,請仔細(xì)研究你的文本數(shù)據(jù)并相應(yīng)地構(gòu)建clean_text()方法。

隨著預(yù)處理任務(wù)的完成,我們將繼續(xù)分析文本數(shù)據(jù)。

讓我們從分析開始。

1.路透社文章篇幅

我們知道所有文章的篇幅不一樣。因此,我們將考慮長度等于或超過一段的文章。根據(jù)研究,一個句子的平均長度是15-20個單詞。一個段落應(yīng)該有四個句子。

  1. articles_nonNull[‘word_length’] = articles_nonNull[‘text’].apply(lambda x: len(str(x).split())) print(articles_nonNull.describe()) 
  2.  
  3. articles_word_limit = articles_nonNull[articles_nonNull[‘word_length’] > 60
  4.  
  5. plt.figure(figsize=(12,6)) 
  6.  
  7. p1=sns.kdeplot(articles_word_limit[‘word_length’], shade=True, color=”r”).set_title(‘Kernel Distribution of Number Of words’) 

我刪除了那些篇幅不足60字的文章。

字長分布是右偏的。

大多數(shù)文章有150字左右。

包含事實或股票信息的路透社文章用詞較少。

2.路透社文章中的常用詞

在這一部分中,我們統(tǒng)計了文章中出現(xiàn)的字?jǐn)?shù),并對結(jié)果進(jìn)行了分析。我們基于N-gram方法對詞數(shù)進(jìn)行了分析。N-gram是基于N值的單詞的出現(xiàn)。

我們將從文本數(shù)據(jù)中刪除停用詞。因為停用詞是噪音,在分析中沒有太大用處。

(1)最常見的單字單詞(N=1)

讓我們在條形圖中繪制unigram單詞,并為unigram單詞繪制詞云。

  1. from gensim.parsing.preprocessing 
  2.  
  3. import remove_stopwords 
  4.  
  5. import genism 
  6.  
  7. from wordcloud import WordCloud 
  8.  
  9. import numpy as np 
  10.  
  11. import random 
  12.  
  13. # 從gensim方法導(dǎo)入stopwords到stop_list變量 
  14.  
  15. # 你也可以手動添加stopwords 
  16.  
  17. gensim_stopwords = gensim.parsing.preprocessing.STOPWORDS 
  18.  
  19. stopwords_list = list(set(gensim_stopwords)) 
  20.  
  21. stopwords_update = ["mln""vs","cts","said","billion","pct","dlrs","dlr"
  22.  
  23. stopwords = stopwords_list + stopwords_update 
  24.  
  25. articles_word_limit['temp_list'] = articles_word_limit['text_clean'].apply(lambda x:str(x).split()) 
  26.  
  27. # 從文章中刪除停用詞 
  28.  
  29. def remove_stopword(x): 
  30.  
  31. return [word for word in x if word not in stopwords] 
  32.  
  33. articles_word_limit['temp_list_stopw'] = articles_word_limit['temp_list'].apply(lambda x:remove_stopword(x)) 
  34.  
  35. # 生成ngram的單詞 
  36.  
  37. def generate_ngrams(text, n_gram=1): 
  38.  
  39. ngrams = zip(*[text[i:] for i in range(n_gram)]) 
  40.  
  41. return [' '.join(ngram) for ngram in ngrams] 
  42.  
  43.  
  44.  
  45. article_unigrams = defaultdict(int
  46.  
  47. for tweet in articles_word_limit['temp_list_stopw']: 
  48.  
  49. for word in generate_ngrams(tweet): 
  50.  
  51. article_unigrams[word] += 1 
  52.  
  53.  
  54.  
  55. article_unigrams_df = pd.DataFrame(sorted(article_unigrams.items(), key=lambda x: x[1])[::-1]) 
  56.  
  57. N=50 
  58.  
  59. # 在路透社的文章中前50個常用的unigram 
  60.  
  61. fig, axes = plt.subplots(figsize=(1850)) 
  62.  
  63. plt.tight_layout() 
  64.  
  65. sns.barplot(y=article_unigrams_df[0].values[:N], x=article_unigrams_df[1].values[:N], color='red'
  66.  
  67. axes.spines['right'].set_visible(False) 
  68.  
  69. axes.set_xlabel(''
  70.  
  71. axes.set_ylabel(''
  72.  
  73. axes.tick_params(axis='x', labelsize=13
  74.  
  75. axes.tick_params(axis='y', labelsize=13
  76.  
  77. axes.set_title(f'Top {N} most common unigrams in Reuters Articles', fontsize=15
  78.  
  79. plt.show() 
  80.  
  81. # 畫出詞云 
  82.  
  83. def col_func(word, font_size, position, orientation, font_path, random_state): 
  84.  
  85. colors = ['#b58900''#cb4b16''#dc322f''#d33682''#6c71c4'
  86.  
  87. '#268bd2''#2aa198''#859900'
  88.  
  89. return random.choice(colors) 
  90.  
  91. fd = { 
  92.  
  93. 'fontsize''32'
  94.  
  95. 'fontweight' : 'normal'
  96.  
  97. 'verticalalignment''baseline'
  98.  
  99. 'horizontalalignment''center'
  100.  
  101.  
  102. wc = WordCloud(width=2000, height=1000, collocations=False, 
  103.  
  104. background_color="white"
  105.  
  106. color_func=col_func, 
  107.  
  108. max_words=200
  109.  
  110. random_state=np.random.randint(18)) .generate_from_frequencies(article_unigrams) 
  111.  
  112. fig, ax = plt.subplots(figsize=(20,10)) 
  113.  
  114. ax.imshow(wc, interpolation='bilinear'
  115.  
  116. ax.axis("off"
  117.  
  118. ax.set_title(‘Unigram Words of Reuters Articles’, pad=24, fontdict=fd) 
  119.  
  120. plt.show() 

Share, trade, stock是一些最常見的詞匯,它們是基于股票市場和金融行業(yè)的文章。

因此,我們可以說,大多數(shù)路透社文章屬于金融和股票類。

(2)最常見的Bigram詞(N=2)

讓我們?yōu)锽igram單詞繪制條形圖和詞云。

  1. article_bigrams = defaultdict(int
  2.  
  3. for tweet in articles_word_limit[‘temp_list_stopw’]: 
  4.  
  5. for word in generate_ngrams(tweet, n_gram=2): 
  6.  
  7. article_bigrams[word] += 1 
  8.  
  9.  
  10.  
  11. df_article_bigrams=pd.DataFrame(sorted(article_bigrams.items(), 
  12.  
  13. key=lambda x: x[1])[::-1]) 
  14.  
  15.  
  16.  
  17. N=50 
  18.  
  19. # 前50個單詞的柱狀圖 
  20.  
  21. fig, axes = plt.subplots(figsize=(1850), dpi=100
  22.  
  23. plt.tight_layout() 
  24.  
  25. sns.barplot(y=df_article_bigrams[0].values[:N], 
  26.  
  27. x=df_article_bigrams[1].values[:N], 
  28.  
  29. color=’red’) 
  30.  
  31. axes.spines[‘right’].set_visible(False) 
  32.  
  33. axes.set_xlabel(‘’) 
  34.  
  35. axes.set_ylabel(‘’) 
  36.  
  37. axes.tick_params(axis=’x’, labelsize=13
  38.  
  39. axes.tick_params(axis=’y’, labelsize=13
  40.  
  41. axes.set_title(f’Top {N} most common Bigrams in Reuters Articles’, 
  42.  
  43. fontsize=15
  44.  
  45. plt.show() 
  46.  
  47. #詞云 
  48.  
  49. wc = WordCloud(width=2000, height=1000, collocations=False, 
  50.  
  51. background_color=”white”, 
  52.  
  53. color_func=col_func, 
  54.  
  55. max_words=200
  56.  
  57. random_state=np.random.randint(1,8))\ 
  58.  
  59. .generate_from_frequencies(article_bigrams) 
  60.  
  61.  
  62.  
  63. fig, ax = plt.subplots(figsize=(20,10)) 
  64.  
  65. ax.imshow(wc, interpolation=’bilinear’) 
  66.  
  67. ax.axis(“off”) 
  68.  
  69. ax.set_title(‘Trigram Words of Reuters Articles’, pad=24
  70.  
  71. fontdict=fd) 
  72.  
  73. plt.show() 
  74.  
  75. Bigram比unigram提供更多的文本信息和上下文。比如,share loss顯示:大多數(shù)人在股票上虧損。 
  76.  
  77. 3.最常用的Trigram詞 
  78.  
  79. 讓我們?yōu)閠rigma單詞繪制條形圖和詞云。 
  80.  
  81. article_trigrams = defaultdict(int
  82.  
  83. for tweet in articles_word_limit[‘temp_list_stopw’]: 
  84.  
  85. for word in generate_ngrams(tweet, n_gram=3): 
  86.  
  87. article_trigrams[word] += 1 
  88.  
  89. df_article_trigrams = pd.DataFrame(sorted(article_trigrams.items(), 
  90.  
  91. key=lambda x: x[1])[::-1]) 
  92.  
  93.  
  94.  
  95. N=50 
  96.  
  97. # 柱狀圖的前50個trigram 
  98.  
  99. fig, axes = plt.subplots(figsize=(1850), dpi=100
  100.  
  101. plt.tight_layout() 
  102.  
  103. sns.barplot(y=df_article_trigrams[0].values[:N], 
  104.  
  105. x=df_article_trigrams[1].values[:N], 
  106.  
  107. color=’red’) 
  108.  
  109. axes.spines[‘right’].set_visible(False) 
  110.  
  111. axes.set_xlabel(‘’) 
  112.  
  113. axes.set_ylabel(‘’) 
  114.  
  115. axes.tick_params(axis=’x’, labelsize=13
  116.  
  117. axes.tick_params(axis=’y’, labelsize=13
  118.  
  119. axes.set_title(f’Top {N} most common Trigrams in Reuters articles’, 
  120.  
  121. fontsize=15
  122.  
  123. plt.show() 
  124.  
  125. # 詞云 
  126.  
  127. wc = WordCloud(width=2000, height=1000, collocations=False, 
  128.  
  129. background_color=”white”, 
  130.  
  131. color_func=col_func, 
  132.  
  133. max_words=200
  134.  
  135. random_state=np.random.randint(1,8)).generate_from_frequencies(article_trigrams) 
  136.  
  137. fig, ax = plt.subplots(figsize=(20,10)) 
  138.  
  139. ax.imshow(wc, interpolation=’bilinear’) 
  140.  
  141. ax.axis(“off”) 
  142.  
  143. ax.set_title(‘Trigrams Words of Reuters Articles’, pad=24
  144.  
  145. fontdict=fd) 
  146.  
  147. plt.show() 

大多數(shù)的三元組都與雙元組相似,但無法提供更多信息。所以我們在這里結(jié)束這一部分。

(3)文本數(shù)據(jù)的命名實體識別(NER)標(biāo)記

NER是從文本數(shù)據(jù)中提取特定信息的過程。在NER的幫助下,我們從文本中提取位置、人名、日期、數(shù)量和組織實體。在這里了解NER的更多信息。我們使用Spacy python庫來完成這項工作。

  1. import spacy 
  2.  
  3. from matplotlib import cm 
  4.  
  5. from matplotlib.pyplot import plt 
  6.  
  7. nlp = spacy.load('en_core_web_sm'
  8.  
  9. ner_collection = {"Location":[],"Person":[],"Date":[],"Quantity":[],"Organisation":[]} 
  10.  
  11. location = [] 
  12.  
  13. person = [] 
  14.  
  15. date = [] 
  16.  
  17. quantity = [] 
  18.  
  19. organisation = [] 
  20.  
  21. def ner_text(text): 
  22.  
  23. doc = nlp(text) 
  24.  
  25. ner_collection = {"Location":[],"Person":[],"Date":[],"Quantity":[],"Organisation":[]} 
  26.  
  27. for ent in doc.ents: 
  28.  
  29. if str(ent.label_) == "GPE"
  30.  
  31. ner_collection['Location'].append(ent.text) 
  32.  
  33. location.append(ent.text) 
  34.  
  35. elif str(ent.label_) == "DATE"
  36.  
  37. ner_collection['Date'].append(ent.text) 
  38.  
  39. person.append(ent.text) 
  40.  
  41. elif str(ent.label_) == "PERSON"
  42.  
  43. ner_collection['Person'].append(ent.text) 
  44.  
  45. date.append(ent.text) 
  46.  
  47. elif str(ent.label_) == "ORG"
  48.  
  49. ner_collection['Organisation'].append(ent.text) 
  50.  
  51. quantity.append(ent.text) 
  52.  
  53. elif str(ent.label_) == "QUANTITY"
  54.  
  55. ner_collection['Quantity'].append(ent.text) 
  56.  
  57. organisation.append(ent.text) 
  58.  
  59. else
  60.  
  61. continue 
  62.  
  63. return ner_collection 
  64.  
  65. articles_word_limit['ner_data'] = articles_word_limit['text'].map(lambda x: ner_text(x)) 
  66.  
  67.  
  68.  
  69. location_name = [] 
  70.  
  71. location_count = [] 
  72.  
  73. for i in location_counts.most_common()[:10]: 
  74.  
  75. location_name.append(i[0].upper()) 
  76.  
  77. location_count.append(i[1]) 
  78.  
  79. fig, ax = plt.subplots(figsize=(158), dpi=100
  80.  
  81. ax.barh(location_name, location_count, alpha=0.7
  82.  
  83. # width = 0.5
  84.  
  85. color=cm.Blues([i / 0.00525 for i in [ 0.002080.002350.002810.003170.00362
  86.  
  87. 0.003710.005250.006790.007610.00833]]) 
  88.  
  89.  
  90. plt.rcParams.update({'font.size'10}) 
  91.  
  92. rects = ax.patches 
  93.  
  94. for i, label in enumerate(location_count): 
  95.  
  96. ax.text(label+100 , i, str(label), size=10, ha='center', va='center'
  97.  
  98. ax.text(01.02'Count of Location name Extracted from Reuters Articles'
  99.  
  100. transform=ax.transAxes, size=12, weight=600, color='#777777'
  101.  
  102. ax.xaxis.set_ticks_position('bottom'
  103.  
  104. ax.tick_params(axis='y', colors='black', labelsize=12
  105.  
  106. ax.set_axisbelow(True) 
  107.  
  108. ax.text(01.08'TOP 10 Location Mention in Reuters Articles'
  109.  
  110. transform=ax.transAxes, size=22, weight=600, ha='left'
  111.  
  112. ax.text(0, -0.1'Source: http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html'
  113.  
  114. transform=ax.transAxes, size=12, weight=600, color='#777777'
  115.  
  116. ax.spines['right'].set_visible(False) 
  117.  
  118. ax.spines['top'].set_visible(False) 
  119.  
  120. ax.spines['left'].set_visible(False) 
  121.  
  122. ax.spines['bottom'].set_visible(False) 
  123.  
  124. plt.tick_params(axis='y',which='both', left=False, top=False, labelbottom=False) 
  125.  
  126. ax.set_xticks([]) 
  127.  
  128. plt.show() 

從這個圖表中,你可以說大多數(shù)文章都包含來自美國、日本、加拿大、倫敦和中國的新聞。

對美國的高度評價代表了路透在美業(yè)務(wù)的重點。

person變量表示1987年誰是名人。這些信息有助于我們了解這些人。

organization變量包含世界上提到最多的組織。

(4)文本數(shù)據(jù)中的唯一詞

我們將在使用TF-IDF的文章中找到唯一的詞匯。詞頻(TF)是每篇文章的字?jǐn)?shù)。反向文檔頻率(IDF)同時考慮所有提到的文章并衡量詞的重要性,。

TF-IDF得分較高的詞在一篇文章中的數(shù)量較高,而在其他文章中很少出現(xiàn)或不存在。

讓我們計算TF-IDF分?jǐn)?shù)并找出唯一的單詞。

  1. from sklearn.feature_extraction.text import TfidfVectorizer 
  2.  
  3. tfidf_vectorizer = TfidfVectorizer(use_idf=True) 
  4.  
  5. tfidf_vectorizer_vectors=tfidf_vectorizer.fit_transform(articles_word_limit[‘text_clean’]) 
  6.  
  7. tfidf = tfidf_vectorizer_vectors.todense() 
  8.  
  9. tfidf[tfidf == 0] = np.nan 
  10.  
  11. # 使用numpy的nanmean,在計算均值時忽略nan 
  12.  
  13. means = np.nanmean(tfidf, axis=0
  14.  
  15. # 將其轉(zhuǎn)換為一個字典,以便以后查找 
  16.  
  17. Means_words = dict(zip(tfidf_vectorizer.get_feature_names(), 
  18.  
  19. means.tolist()[0])) 
  20.  
  21. unique_words=sorted(means_words.items(), 
  22.  
  23. key=lambda x: x[1], 
  24.  
  25. reverse=True) 
  26.  
  27. print(unique_words) 

(5)用K-均值聚類文章

K-Means是一種無監(jiān)督的機(jī)器學(xué)習(xí)算法。它有助于我們在一組中收集同一類型的文章。我們可以通過初始化k值來確定組或簇的數(shù)目。了解更多關(guān)于K-Means以及如何在這里選擇K值。作為參考,我選擇k=4。

  1. from sklearn.feature_extraction.text import TfidfVectorizer 
  2.  
  3. from sklearn.cluster import KMeans 
  4.  
  5. from sklearn.metrics import adjusted_rand_score 
  6.  
  7. vectorizer = TfidfVectorizer(stop_words=’english’,use_idf=True) 
  8.  
  9. X = vectorizer.fit_transform(articles_word_limit[‘text_clean’]) 
  10.  
  11. k = 4 
  12.  
  13. model = KMeans(n_clusters=k, init=’k-means++’, 
  14.  
  15. max_iter=100, n_init=1
  16.  
  17. model.fit(X) 
  18.  
  19. order_centroids = model.cluster_centers_.argsort()[:, ::-1
  20.  
  21. terms = vectorizer.get_feature_names() 
  22.  
  23. clusters = model.labels_.tolist() 
  24.  
  25. articles_word_limit.index = clusters 
  26.  
  27. for i in range(k): 
  28.  
  29. print(“Cluster %d words:” % i, end=’’) 
  30.  
  31. for title in articles_word_limit.ix[i 
  32.  
  33. [[‘text_clean’,’index’]].values.tolist(): 
  34.  
  35. print(‘ %s,’ % title, end=’’) 

它有助于我們將文章按不同的組進(jìn)行分類,如體育、貨幣、金融等。K-Means的準(zhǔn)確性普遍較低。

結(jié)論

NER和K-Means是我最喜歡的分析方法。其他人可能喜歡N-gram和Unique words方法。在本文中,我介紹了最著名和聞所未聞的文本可視化和分析方法。本文中的所有這些方法都是獨一無二的,可以幫助你進(jìn)行可視化和分析。

我希望這篇文章能幫助你發(fā)現(xiàn)文本數(shù)據(jù)中的未知數(shù)。

 

責(zé)任編輯:張燕妮 來源: Towards Datas Science
相關(guān)推薦

2013-07-31 10:45:30

2012-08-16 11:30:24

2012-05-01 17:12:39

iPad

2017-01-12 17:28:59

數(shù)據(jù)分析數(shù)據(jù)可視化可視化

2022-05-30 12:14:18

黑客網(wǎng)絡(luò)攻擊

2017-04-18 11:01:14

數(shù)據(jù)分析數(shù)據(jù)可視化

2015-01-08 21:57:33

蜜樂APP

2020-08-17 14:37:02

阿里巴巴技術(shù)封禁

2013-07-03 11:15:16

2018-12-03 16:50:23

數(shù)據(jù)可視化數(shù)據(jù)分析薪水

2017-03-09 09:54:13

分析數(shù)據(jù)可視化

2018-01-29 21:50:20

自動駕駛人工智能無人車

2020-05-14 10:19:23

Python可視化分析

2017-09-15 10:23:06

可視化Bug數(shù)據(jù)分析

2023-11-24 14:02:00

Python數(shù)據(jù)分析

2017-02-07 15:54:14

數(shù)據(jù)可視化數(shù)據(jù)分析

2019-09-02 15:40:25

可視化數(shù)據(jù)分析

2017-02-21 17:01:32

JavaScript數(shù)據(jù)分析可視化

2024-07-01 08:51:19

可視化數(shù)據(jù)分析漏斗

2020-12-07 05:51:49

數(shù)據(jù)分析數(shù)據(jù)可視化數(shù)據(jù)科學(xué)
點贊
收藏

51CTO技術(shù)棧公眾號

国产精品影视网| 亚洲va久久| 一区二区三区在线影院| 国产亚洲精品久久飘花| 五月婷婷六月婷婷| 国产精品久久久久久久久妇女| 日韩欧美一二三四区| 日本在线xxx| 色网站在线看| 99精品视频中文字幕| 国产精品黄色影片导航在线观看| 男女性高潮免费网站| 少妇精品无码一区二区三区| 亚欧洲精品视频| 老司机免费视频一区二区三区| 欧美精品videosex极品1| 久久午夜福利电影| 国产suv精品一区| 欧美精品18+| 精品久久久噜噜噜噜久久图片| 日本性爱视频在线观看| 中文字幕精品在线不卡| 精品一区2区三区| 精品区在线观看| 蜜乳av一区二区三区| 性欧美视频videos6一9| 欧美日韩精品一区二区三区视频播放| 亚洲人成网77777色在线播放 | 91小视频在线观看| 97超碰人人看人人| 在线观看xxxx| 日韩av一区二区在线影视| 久久欧美在线电影| 国产盗摄一区二区三区在线| 欧美大黑bbbbbbbbb在线| 亚洲人成在线观看| 菠萝菠萝蜜网站| 成人18夜夜网深夜福利网| 91精品欧美综合在线观看最新| 能在线观看的av网站| 黄色漫画在线免费看| 亚洲国产视频在线| 国产精品国三级国产av| 在线看一级片| 亚洲黄色小视频| 最新不卡av| 日本暖暖在线视频| 国产精品区一区二区三区| 无码免费一区二区三区免费播放 | 久久免费的精品国产v∧| 99免费精品在线观看| 久久综合伊人77777蜜臀| 女人十八毛片嫩草av| 国产伦精品一区二区三区千人斩 | 亚洲麻豆一区| 午夜精品久久久久久久久久久久| 极品颜值美女露脸啪啪| 欧美在线首页| 九色精品免费永久在线| 久久久久成人精品无码| 精品成人久久| 91精品国产成人| 国产又黄又猛又粗又爽| 丝袜美腿成人在线| 国产精品九九久久久久久久| 国产女主播喷水视频在线观看 | 国产精品自产拍在线观| 国产一区二区在线视频聊天| 国产精品一二三四区| av蓝导航精品导航| 天天影院图片亚洲| 国产亚洲一区二区在线观看| 亚洲欧洲精品在线观看| av免费在线观| 激情亚洲一区二区三区四区| 国产av无码专区亚洲精品| 免费高清视频在线一区| 在线不卡一区二区| 在线免费看污网站| 国产精品巨作av| 亚洲欧美综合v| 波多野结衣久久久久| 黄色在线成人| 国产精品扒开腿做爽爽爽视频| 国产又粗又大又爽视频| 成人黄色小视频在线观看| 欧美一进一出视频| 桥本有菜av在线| 亚洲成熟女性毛茸茸| 9人人澡人人爽人人精品| 欧美一区二区三区四区在线观看地址 | 成人在线观看小视频| 韩日精品视频| 国产91免费观看| 国产偷拍一区二区| 91农村精品一区二区在线| 亚洲欧美久久久久一区二区三区| 久久av色综合| 欧美最猛黑人xxxxx猛交| 欧美性猛交xx| 欧美日韩伦理| 97精品免费视频| 97精品久久人人爽人人爽| 成人免费视频视频在线观看免费 | 91网站免费看| 暖暖视频在线免费观看| 亚洲老妇xxxxxx| 99草草国产熟女视频在线| 在这里有精品| 色av中文字幕一区| 午夜影院在线看| 国产在线精品不卡| 日韩激情视频| 男人av在线播放| 日韩欧美卡一卡二| 三级影片在线观看| 日韩av电影天堂| 精品国产一区二区三区四区精华| 免费**毛片在线| 日本二三区不卡| 99久久人妻无码中文字幕系列| 欧美~级网站不卡| 国产美女高潮久久白浆| 免费一级在线观看| 亚洲成人精品一区| 毛片毛片毛片毛片毛| 黄色片在线免费观看| 婷婷精品视频| 久久99精品久久久久久青青91| 成人黄色免费网| 97精品国产露脸对白| www.夜夜爱| 精品一区二区三区四区五区| 中文字幕精品一区久久久久| 亚洲不卡在线视频| 久久综合久久99| 激情五月宗合网| 黑人久久a级毛片免费观看| 欧美日本在线视频中文字字幕| 一区二区三区精彩视频| 中文字幕第一区第二区| 性刺激的欧美三级视频| 国产成人1区| 国产99久久精品一区二区永久免费| 五月激情婷婷综合| 舔着乳尖日韩一区| 亚洲调教欧美在线| 国产日韩欧美三区| 精品国产一区二区三区麻豆小说 | 亚洲一区电影777| 国产高潮失禁喷水爽到抽搐| 欧美区一区二| 国产精品嫩草在线观看| 国产乱妇乱子在线播视频播放网站| 精品欧美乱码久久久久久1区2区| 久草视频在线免费看| 国产成人av自拍| 欧美日韩福利在线| 国产毛片久久久| 97在线免费观看| 日韩国产福利| 欧美最猛黑人xxxxx猛交| 夜夜春很很躁夜夜躁| 久久国产精品露脸对白| 国产精品亚洲天堂| 亚洲无线观看| 欧美专区中文字幕| 91caoporm在线视频| 91精品国产91久久久久久一区二区 | 亚洲国产视频一区二区三区| 亚洲国产成人av| 中文字幕人妻一区二区| 日本午夜精品视频在线观看 | 一区二区视频观看| 久久久久久久高潮| 中文字幕人成一区| www.成人网| 国产精品第三页| 国产盗摄在线观看| 日韩av影视综合网| 国产乡下妇女三片| 一区二区免费视频| 久久久久亚洲av无码专区桃色| 久久精品久久久精品美女| 国产一二三四区在线观看| 第一区第二区在线| 国产精品美女无圣光视频| 羞羞视频在线免费国产| 亚洲精品中文字幕女同| 中文字幕+乱码+中文字幕明步| 亚洲精品高清在线观看| 精品无码人妻一区二区免费蜜桃| 国产在线视视频有精品| 逼特逼视频在线| 久久久久久免费视频| 精品国产二区在线| 996久久国产精品线观看| 97视频在线看| 青青青青在线| 亚洲人成电影网站色www| 99久久国产热无码精品免费| 欧美日韩中文在线观看| 国语对白在线播放| 国产校园另类小说区| 熟妇女人妻丰满少妇中文字幕| 日韩中文字幕一区二区三区| 精品人妻人人做人人爽| 不卡在线一区| 精品免费一区二区三区蜜桃| 国产电影一区二区| 国产高清在线不卡| av午夜在线观看| 久久夜色精品亚洲噜噜国产mv| 欧美理论在线观看| 精品88久久久久88久久久| 亚洲性在线观看| 色视频一区二区| 国产一级特黄毛片| 亚洲精品免费在线观看| a资源在线观看| 久久综合网色—综合色88| 中文字幕99页| 国产高清精品网站| 亚洲在线观看网站| 麻豆精品一区二区三区| 熟女人妇 成熟妇女系列视频| 亚洲麻豆视频| 很污的网站在线观看| 一区二区三区在线观看免费| 亚洲精品在线免费看| 国产91一区| 欧美日产一区二区三区在线观看| jizz性欧美2| 国产精品xxxx| 盗摄牛牛av影视一区二区| 999日本视频| 日韩精品一区二区三区中文在线 | 丰满少妇高潮在线观看| 欧美一二三区精品| 国产熟女精品视频| 欧美一区二区高清| 国产成人精品av在线观| 欧美一区二区精品在线| 国产成人久久精品77777综合| 538在线一区二区精品国产| 国产又黄又粗又长| 91精品国产91综合久久蜜臀| jlzzjlzz亚洲女人18| 日韩一区二区免费电影| 成 人 黄 色 片 在线播放| 日韩欧美国产综合在线一区二区三区| 国产日产亚洲系列最新| 欧美一区二区视频在线观看2022 | 美女久久久久久| 国产欧美在线播放| 亚洲欧洲二区| 97伦理在线四区| 久久大胆人体视频| 久久综合九色欧美狠狠| 综合干狼人综合首页| 日韩妆和欧美的一区二区| 日韩国产专区| 激情五月五月婷婷| 亚洲午夜一区| 中国丰满人妻videoshd| 三级影片在线观看欧美日韩一区二区| 无码内射中文字幕岛国片| 美腿丝袜亚洲一区| 一本之道在线视频| 972aa.com艺术欧美| 免费在线观看你懂的| 国产精品天美传媒| 色婷婷在线视频观看| 午夜国产不卡在线观看视频| 伊人中文字幕在线观看 | 国产91精品视频在线观看| 成人av三级| 成人在线一区二区| 美女视频亚洲色图| 亚洲午夜在线观看| 欧美精品一区二区三区久久久竹菊| 久久国产精品网| 青娱乐精品视频在线| 中文字幕avav| 久久免费电影网| 性色av无码久久一区二区三区| 欧美日韩国产色| 91精品在线视频观看| 亚洲电影av在线| av基地在线| 国内精品在线一区| а√天堂资源国产精品| 成人av资源| 日韩欧美电影| 国产精品50p| 韩国av一区二区三区| 三级电影在线看| 亚洲欧美激情视频在线观看一区二区三区| 日韩av电影网| 91精品国产欧美一区二区成人| 亚洲 小说区 图片区 都市| 日韩视频一区在线| 日韩精品99| 国产伦精品一区二区三区照片91| 日韩成人免费| 天天摸天天碰天天添| 大胆亚洲人体视频| 人人干在线观看| 色综合视频一区二区三区高清| 精品美女www爽爽爽视频| 中文字幕久久久av一区| 乱馆动漫1~6集在线观看| 亚洲综合日韩在线| 99国产精品一区二区| 50路60路老熟妇啪啪| 成人av免费观看| 超碰在线国产97| 7777女厕盗摄久久久| 东热在线免费视频| 日韩av片电影专区| 91精品国产自产精品男人的天堂 | 2024最新电影在线免费观看| 国产91|九色| 菁菁伊人国产精品| 国产精品国产三级国产专区51| 国产综合久久久久影院| 99久久99久久精品免费看小说.| 日韩欧美极品在线观看| 色综合视频在线| 久久免费视频在线观看| 一区二区在线视频观看| 潘金莲一级淫片aaaaa免费看| 久久国产剧场电影| 亚洲天堂av中文字幕| 在线视频欧美精品| 福利成人在线观看| 国产精品久久久久久久久免费| 亚洲福利天堂| 337p粉嫩大胆噜噜噜鲁| 91网址在线看| 国产精品视频一区在线观看| 日韩成人中文电影| xxxx另类黑人| 国产精品一区二区欧美黑人喷潮水| 欧美天天视频| 黄色性视频网站| 午夜亚洲国产au精品一区二区| 六月婷婷中文字幕| 97视频在线观看成人| 另类尿喷潮videofree| 欧美成人三级在线视频| 久久中文字幕电影| 日韩黄色片网站| 日韩最新av在线| 欧美视频二区欧美影视| 日本国产中文字幕| 99久久国产免费看| 日韩综合在线观看| 在线播放精品一区二区三区| 99久久99九九99九九九| 91视频 - 88av| 97se狠狠狠综合亚洲狠狠| 区一区二在线观看| 视频直播国产精品| 欧美区一区二区| 欧美不卡在线播放| 国产拍欧美日韩视频二区| 中文字字幕在线观看| 久久久av亚洲男天堂| 第四色在线一区二区| 日本三级免费观看| 国产精品久久久久永久免费观看 | 免费成人高清在线视频| 懂色av粉嫩av蜜臀av| 99视频热这里只有精品免费| 亚洲黄色免费观看| 精品国产一区av| 国产劲爆久久| 邪恶网站在线观看| 亚洲国产欧美在线| 国产在线免费观看| 91免费版黄色| 久久久久久久欧美精品| 日韩三级在线观看视频| 日韩av在线直播| 午夜不卡一区| av免费观看网| 亚洲免费视频中文字幕| 美女做暖暖视频免费在线观看全部网址91 | 国产乱理伦片在线观看夜一区| 国产稀缺真实呦乱在线| 亚洲网在线观看| 一本一道久久a久久| 校园春色 亚洲色图| 亚洲动漫第一页| 欧洲不卡视频| 久久久国产精品一区二区三区| 精品一区二区三区在线播放视频| 国产一区二区三区影院| 久久精品视频在线|