10萬+的標(biāo)題怎么取？YouTube標(biāo)題首詞與播放量有什么關(guān)系？

作者：讀芯術(shù) 2020-04-23 15:31:50

“re.findall()”是Python中最基本的正則表達(dá)式函數(shù)之一，提取字符串表達(dá)式的開頭。本文將用這個(gè)函數(shù)告訴你，YouTube視頻標(biāo)題與播放量之間的關(guān)系。

本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID：AI_Discovery)

正則表達(dá)式是定義文本中搜索模式的特殊字符序列。“re.findall()”是Python中最基本的正則表達(dá)式函數(shù)之一，提取字符串表達(dá)式的開頭。本文將用這個(gè)函數(shù)告訴你，YouTube視頻標(biāo)題與播放量之間的關(guān)系。

下面開始吧!

[[323443]]

首先，導(dǎo)入python正則表達(dá)式模塊“re”：

import re

假設(shè)有以下字符串：

test_string1= 'Python is Amazing!'

可將表達(dá)式r“^\w+”與字符串一并傳遞至“re.findall”,這將返回輸入字符串的開頭：

reregex_1 =re.findall(r"^\w+",test_string1) 
print(regex_1)

在表達(dá)式r“^\w+”中，字符“^”對(duì)應(yīng)字符串開頭，而“\w+”查找字符串中的字母數(shù)字字符。

如果去掉“^”，會(huì)得到：

reregex_1 =re.findall(r"\w+",test_string1) 
print(regex_1)

試提取另一個(gè)字符串示例的開頭：

test_string2= 'Java is Amazing!'

圖源：unsplash

現(xiàn)在，應(yīng)用“re.findall()”查找該字符串的第一個(gè)單詞：

reregex_2 =re.findall(r"^\w+",test_string2) 
print(regex_2)

接下來，考慮一個(gè)更實(shí)際的場景。假設(shè)有一個(gè)YouTube視頻標(biāo)題列表和相應(yīng)的YouTube觀看次數(shù)。我們可能對(duì)分析視頻標(biāo)題的第一個(gè)單詞和相應(yīng)視頻觀看次數(shù)之間的關(guān)系感興趣。考慮以下標(biāo)題/觀看次數(shù)元組列表：

youtube_titles= [("How to Tell if We're Beating COVID-19", 2200000), ("ExtremeCloset Clean Out",326000), ("This is $1,000,000 inFood",8800000), ("How To Tell If Someone Truly Loves You ",2800000), ("How to Tell Real Gold from Fake", 2300000),("Extreme living room transformation ", 25000)]

可以通過以下方式找到每個(gè)標(biāo)題的第一個(gè)單詞：

for titlein youtube_titles: 
   print(re.findall(r"^\w+",title[0])[0])

10萬+的標(biāo)題怎么取？YouTube標(biāo)題首詞與播放量有什么關(guān)系？

可以將這些值添加到列表中：

first_words= [] 
for title in youtube_titles: 
   first_words.append(re.findall(r"^\w+",title[0])[0]) 
print(first_words)

還可以將觀看次數(shù)附加到列表中：

first_words= [] 
views = [] 
for title in youtube_titles: 
   first_words.append(re.findall(r"^\w+",title[0])[0]) 
    views.append(title[1])

然后，可以創(chuàng)建視頻首字值和視頻觀看次數(shù)的數(shù)據(jù)框：

importpandas as pd 
df = pd.DataFrame({'first_words': first_words, 'views':views}) 
print(df)

之后可以對(duì)每個(gè)標(biāo)題首詞進(jìn)行分組，并計(jì)算每個(gè)標(biāo)題首詞的平均觀看次數(shù)：

dfdf =df.groupby('first_words')['views'].mean() 
print(df)

按降序方式對(duì)這些值進(jìn)行排序：

dfdf =df.groupby('first_words')['views'].mean().sort_values(ascending = False) 
print(df)

假設(shè)這些結(jié)果來自一個(gè)足夠大的數(shù)據(jù)集(比如有數(shù)千個(gè)標(biāo)題和觀看次數(shù))，這種類型的分析可以幫助我們選擇最佳的YouTube視頻標(biāo)題。

[[323450]]

圖源：unsplash

本文討論了如何使用python正則表達(dá)式模塊中的“re.findall()”函數(shù)。為提取每個(gè)字符串的第一個(gè)單詞，筆者將該函數(shù)應(yīng)用于兩個(gè)簡單的字符串。然后，考慮了一個(gè)實(shí)際用例，使用該函數(shù)提取YouTube視頻標(biāo)題的第一個(gè)單詞，并計(jì)算第一個(gè)單詞對(duì)應(yīng)的平均觀看次數(shù)。

10萬+的標(biāo)題，或許就是這么來的。

責(zé)任編輯：趙寧寧來源：讀芯術(shù)

正則表達(dá)式函數(shù)Python