10萬+的標(biāo)題怎么取?YouTube標(biāo)題首詞與播放量有什么關(guān)系?
本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)
正則表達(dá)式是定義文本中搜索模式的特殊字符序列。“re.findall()”是Python中最基本的正則表達(dá)式函數(shù)之一,提取字符串表達(dá)式的開頭。本文將用這個(gè)函數(shù)告訴你,YouTube視頻標(biāo)題與播放量之間的關(guān)系。
下面開始吧!
首先,導(dǎo)入python正則表達(dá)式模塊“re”:
- import re
假設(shè)有以下字符串:
- test_string1= 'Python is Amazing!'
可將表達(dá)式r“^\w+”與字符串一并傳遞至“re.findall”,這將返回輸入字符串的開頭:
- reregex_1 =re.findall(r"^\w+",test_string1)
- print(regex_1)
在表達(dá)式r“^\w+”中,字符“^”對(duì)應(yīng)字符串開頭,而“\w+”查找字符串中的字母數(shù)字字符。
如果去掉“^”,會(huì)得到:
- reregex_1 =re.findall(r"\w+",test_string1)
- print(regex_1)
![]()
試提取另一個(gè)字符串示例的開頭:
- test_string2= 'Java is Amazing!'
現(xiàn)在,應(yīng)用“re.findall()”查找該字符串的第一個(gè)單詞:
- reregex_2 =re.findall(r"^\w+",test_string2)
- print(regex_2)
接下來,考慮一個(gè)更實(shí)際的場景。假設(shè)有一個(gè)YouTube視頻標(biāo)題列表和相應(yīng)的YouTube觀看次數(shù)。我們可能對(duì)分析視頻標(biāo)題的第一個(gè)單詞和相應(yīng)視頻觀看次數(shù)之間的關(guān)系感興趣。考慮以下標(biāo)題/觀看次數(shù)元組列表:
- youtube_titles= [("How to Tell if We're Beating COVID-19", 2200000), ("ExtremeCloset Clean Out",326000), ("This is $1,000,000 inFood",8800000), ("How To Tell If Someone Truly Loves You ",2800000), ("How to Tell Real Gold from Fake", 2300000),("Extreme living room transformation ", 25000)]
可以通過以下方式找到每個(gè)標(biāo)題的第一個(gè)單詞:
- for titlein youtube_titles:
- print(re.findall(r"^\w+",title[0])[0])

可以將這些值添加到列表中:
- first_words= []
- for title in youtube_titles:
- first_words.append(re.findall(r"^\w+",title[0])[0])
- print(first_words)
![]()
還可以將觀看次數(shù)附加到列表中:
- first_words= []
- views = []
- for title in youtube_titles:
- first_words.append(re.findall(r"^\w+",title[0])[0])
- views.append(title[1])
然后,可以創(chuàng)建視頻首字值和視頻觀看次數(shù)的數(shù)據(jù)框:
- importpandas as pd
- df = pd.DataFrame({'first_words': first_words, 'views':views})
- print(df)

之后可以對(duì)每個(gè)標(biāo)題首詞進(jìn)行分組,并計(jì)算每個(gè)標(biāo)題首詞的平均觀看次數(shù):
- dfdf =df.groupby('first_words')['views'].mean()
- print(df)

按降序方式對(duì)這些值進(jìn)行排序:
- dfdf =df.groupby('first_words')['views'].mean().sort_values(ascending = False)
- print(df)

假設(shè)這些結(jié)果來自一個(gè)足夠大的數(shù)據(jù)集(比如有數(shù)千個(gè)標(biāo)題和觀看次數(shù)),這種類型的分析可以幫助我們選擇最佳的YouTube視頻標(biāo)題。
本文討論了如何使用python正則表達(dá)式模塊中的“re.findall()”函數(shù)。為提取每個(gè)字符串的第一個(gè)單詞,筆者將該函數(shù)應(yīng)用于兩個(gè)簡單的字符串。然后,考慮了一個(gè)實(shí)際用例,使用該函數(shù)提取YouTube視頻標(biāo)題的第一個(gè)單詞,并計(jì)算第一個(gè)單詞對(duì)應(yīng)的平均觀看次數(shù)。
10萬+的標(biāo)題,或許就是這么來的。




























