七分之一在線評論都有假,人工智能救一把?
據(jù)目測,評論區(qū)是中國文學大師密度比較高,罵人水平比較高和逗逼水準比較高的地方,A站B站還把評論玩成彈幕。
平臺型APP因“評論”文化的迥異,體現(xiàn)出別樣的審美與趣味,知乎體、爺青回,成為“時髦”的暗號。

在宏觀層面,“網(wǎng)民評論”被定義為具有輿論屬性和廣泛的社會動員能力。所以,排查、約談、暫停、整改、審核也都是管理機構的常用“大錘”。
評論區(qū),是難以忽視的公共地區(qū)。
有一批活躍的、對社區(qū)品牌有認同,并產(chǎn)生大量優(yōu)質內容的用戶,是社區(qū)的福氣。
表面上 “評論區(qū)”肩負社區(qū)氛圍組的重任,是互聯(lián)網(wǎng)“公共場所”。
背地里,分享意見左右消費決策,進而影響生意。
(根據(jù)英國政府的數(shù)據(jù),僅在英國,在線評論每年就影響了約280億美元的酒旅預訂交易。)
而評論區(qū)不是烏托邦,
- 大眾點評(數(shù)量質量都不高,沒營養(yǎng)的口水評論多)
- 小紅書(水軍多,付費版高級測評師云集)
- 淘寶(數(shù)量多,看得累,返現(xiàn)金,得好評)
- 馬蜂窩(偷偷搬運別人家的評論據(jù)被實錘了)
這不是單一現(xiàn)象,外媒CNN甚至拋出一個數(shù)字:全球互聯(lián)網(wǎng),七分之一的酒旅在線評論是假的。
“評論區(qū)”青山常在,柴不斷,就繞不過人工智能(AI)的重要方向,自然語言處理(NLP),讓計算機像人類一樣對“中文/文字”進行理解。
群眾高呼,請AI緊急上線,內容檢測、水軍識別、臟話刪除、不良內容處理。
一、自然語言處理技術,挺行的
話說,NLP技術在互聯(lián)網(wǎng)大廠已經(jīng)用得非常好了,搜索、推薦、廣告、智能助理等許多系統(tǒng)中都有身影,技術團隊緊咬學術前沿。
先看工業(yè)界,新東方教育2018年就開始有學員用戶畫像項目,進行等級分類。NLP技術對相關結構化數(shù)據(jù)文本,數(shù)據(jù)標簽化,并增加用戶圈選和行為事件分析功能,各個業(yè)務部門可以根據(jù)標簽圈選學員。
汽車之家機器學習小組,為機器之家用戶產(chǎn)品中心下屬認知智能組,NLP技術支持用戶選車,多輪對話。
2020年,京東智聯(lián)云在雙十一的第一個小時,情感智能客服服務138萬次,使用情感識別、語音交互等智能化技術。
美團搜索,用機器理解用戶的各種查詢意圖。可是,用戶意圖會隨著時間變化,在有限的關鍵詞中解讀出非常豐富的信號,用于各種搜索的召回、排序以及展示。美團專門設有人工智能平臺/搜索與NLP部門。
再者,美團大腦挖掘、關聯(lián)各個場景數(shù)據(jù),用人工智能算法讓機器“閱讀”用戶針對商戶的公開評論,理解用戶在菜品、價格、服務、環(huán)境等方面的喜好,構建人、店、商品、場景之間的知識關聯(lián),可以認為是“餐飲娛樂的知識大腦”,支持搜索、SaaS 收銀、金融、外賣業(yè)務服務。
作為一種非結構化文本,用戶評論蘊含了大量非標準表達的“單詞”。
機器根據(jù)句子所在上文的一系列“單詞”,預測后面會跟哪個“單詞”,預測的是概率大小,句子里面每個“單詞”都有個根據(jù)上文預測的過程,把所有這些“單詞”的產(chǎn)生概率乘起來,數(shù)值越大,代表這句話越像一句人話,而不是鬼話或者胡話。
所以,除了人類,機器也可以判斷,哪個句子更像一句人話。
“黃鶴樓”一詞,可能有三個意思。武昌蛇山之巔的名樓,北京的商家,湖北香煙品牌。AI算法也不傻,預測則可結合上下文,前文在講長江、景點、旅游、票價、登高遠眺,就不會推測出此處的“黃鶴樓”是在講香煙,而是景點的概率更大。
再比如貓眼文娛,可以獲取電影、電視劇、藝人等信息,形成一部“詞典”。但是隨著搜索體量增大,搜索表述復雜,詞典滿足不了用戶需求,就會使用AI模型,作為詞典的補充。
再看學術界,誕生了名叫Transformer的模型(一種深度神經(jīng)網(wǎng)絡),基于Transformer的 BERT模型(2018年技術重大進展),GTP模型(硅谷OpenAI實驗室出品),它們都使用預訓練和微調的思路來解決問題。

預訓練語言模型,就像在無標注文本的大海里,學到潛在的語義信息,而無需為每一項任務單獨標注大量訓練數(shù)據(jù)。語言模型預訓練結束,再使用少量標注語料進行微調(Fine-tuning)來完成具體的NLP任務,比如分類、序列標注、句間關系判斷和機器閱讀理解等。
總之,算法的“性能”得到顯著改善,BERT做大了NLP技術的蛋糕。
二、運營組,也挺行的
《親愛的數(shù)據(jù)》和幾位互聯(lián)網(wǎng)大廠的運營小哥哥聊了一會,各家“評論”的運營花了很多心思。
抖音的評論區(qū)是雙軌制,既有最熱的評論,也有最新的評論。最新的評論可以理解為一個小池子,根據(jù)用戶的點贊數(shù)量,來看要不要繼續(xù)推。這樣能保證發(fā)得比較晚的神評論也能排上來,屬于推薦思想在評論區(qū)的一種應用。
抖音搜索是有考慮過識別到評論區(qū)如果提問的人比較多,會有提示搜索的建議。但路徑太長,直接改成了目前的高熱社會類視頻下面,加一個今日頭條的文章鏈接。
常見的處理評論區(qū)數(shù)據(jù)的方法是結構化,電商和酒旅APP都對幾十億條評論區(qū)做了結構化處理,這里是指對數(shù)據(jù)做結構化處理,因為計算機能處理的都是結構化的,非結構化的數(shù)據(jù)它理解不了,所以文本在涉及到“理解”這一層,都是需要先結構化。
NLP分析了評價,提煉了“分詞”,加了結構化的外展,相當于找到了“標注”,提高了用戶瀏覽評論的效率。英雄所見略同,用戶理所當然的認為,人數(shù)越多,觀點越可信。
日常中,在淘寶購買一款升降桌,“安裝效果好”“質量好”“用后感覺好”。選酒店的時候,你能看到多少人提到了“便宜”、“舒適”,又有多少人提到了“安靜”“交通方便”。
很顯然,消費+社區(qū)的評論會有門檻,淘寶、小紅書、大眾點評、馬蜂窩等。商品沒下單,沒經(jīng)歷的用戶不能參與評論。
看熱鬧的是外行,探店的往往是內行,平臺會傾向把好評往前排,促進轉化,消費后的訴求也會偏多,需要專門的回應,處理。純娛樂、純討論的社區(qū),參與評論的門檻低,抖音、快手、B站、芒果、豆瓣。一般來說,電商評論運營得好,有賣貨的訴求,大家聊的都是和商品相關的。

小紅書的鐵粉認為,雖然很多評價都是花錢買的。大V粉絲量多了就會接廣告。但是,小紅書整體測評感比較強,和無腦水軍還不太一樣,即使是托兒,也寫得很誠懇。
評論是“UGC(用戶生產(chǎn)的內容)”,既真實,又新鮮,可以挖掘出潛在商業(yè)價值。對用戶來說,人人都需要“真實”而且“好用”的評論,無論是“經(jīng)驗”“干貨”,還是“指南”。
三、為啥沒有管好“評論”?
技術這么硬,起點這么高,為啥還管不好“評論區(qū)”。
這里,有三個絆腳石:
第一,評論數(shù)據(jù)質量特別差,注意“特別”兩字。
數(shù)據(jù)治理水平低導致人工智能算法在很多時候效果不好。算法效果的好壞,與訓練數(shù)據(jù)有很大關系,可以說一份好的標注數(shù)據(jù),用一個普通的算法,也能有好的性能。現(xiàn)實中,企業(yè)想要做好 NLP,首先需要打通基礎數(shù)據(jù)。評論數(shù)據(jù)的底子太差,麻袋上繡花,白費勁。
第二,“假裝”在用。
反正大家都在智能化,裝也得裝著在用。把AI技術用起來,是“老板們”的剛需。有時候,工程會退化到自動化階段,只是少部分用了算法智能。目前做得多的,也就是情感傾向分析,垃圾評論過濾等等。AI用不好,會變成噱頭,可能倒退到最基礎的統(tǒng)計分析圖表。
第三,不重視。
很多互聯(lián)網(wǎng)廠商認為,評論區(qū)是第二場景,有些二等公民的意味。說白了,不夠重視,或者說支持主要業(yè)務“(推薦和搜索)”的技術還做得不夠好,根本顧不上評論區(qū)。挖掘得不夠,應用的深度和廣度不夠。管理評論的主動力之一就是只是滿足政府管理部門的監(jiān)管要求。
綜上,NLP技術對運營的號召力還不夠大,影響還不夠深刻,NLP與運營還沒有形成彼此不分的魚水關系。
英國南安普頓大學畢業(yè)的AI算法科學家袁雪瑤,也在采訪中透露:“互聯(lián)網(wǎng)廠商會針對用戶發(fā)布的評論內容有半人工識別,加上人工的數(shù)據(jù)標注。NLP現(xiàn)在比較成熟的領域有,情感分析、輿情分析、和用戶畫像,這些會對運營有比較適中的影響。”
(基于深度學習的情感分類方法,它能夠從海量的數(shù)據(jù)中主動學習文本中的語義信息并獲得文本的特征與情感分類,達到精準提取文本數(shù)據(jù)與情感的目的。比如“消極”“積極”)
一位來自平安智匯企業(yè)有限公司的算法專家也認為:“評論里,口水多,分析就是得把其中有價值的給自動篩選出來。NLP技術正在解決問題,還做不到藥到病除。”
“適中”一詞用得特別好,NLP還有很大的戰(zhàn)場,要與運營做盟軍,攻克業(yè)務側的難題。評論中使用的挖掘技術方法也包含了很多種,規(guī)則、傳統(tǒng)機器學習模型、深度學習模型等。
雖然專職挖掘“評論”商業(yè)價值的明星AI產(chǎn)品似乎還沒有出現(xiàn),但是,有人注意到了。

東京大學的創(chuàng)業(yè)企業(yè)TDAI Lab認為應該面向點評網(wǎng)站等推銷人工智能工具。
他們分析了4000多個日式拉面餐廳的評論,發(fā)布了東京版“人工智能排名,最優(yōu)百家拉面店”。
在剔除疑似“刷好評”和“惡意差評”的情況下,人工智能選出了評價高的店鋪。
分析“評論區(qū)”不立刻關乎生死,又能給企業(yè)降本增效的場景不應該被忽視。
AI 技術需要算力,需要數(shù)據(jù),需要算法模型,更需要應用場景。很多AI公司一開始就想給高速列車換輪子,以這種雄心壯志去敲開傳統(tǒng)企業(yè)的大門成功率很低,因為客戶對新技術和AI公司都沒有信任。
刷好評和惡意差評,消費者和餐飲店都有損失。消費者找不到好店,好店也失去了商機。
1968年,哈定(Garrett Hadin)在《科學》雜志上發(fā)表了一篇文章,題為The Tragedyof the Commons。譯成《公地悲劇》,原文中的the commons還包括公共的空間。
評論區(qū)環(huán)境的惡化,沒有人是贏家。AI審核、AI接管評論區(qū)是必然趨勢,“評論”需要才華,管好“評論”更需要才華。























