精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

百度文心一言在國產(chǎn)模型中倒數(shù)?我看懵了

人工智能
對(duì)于簡單問題而言,其實(shí)國產(chǎn)模型跟ChatGPT已經(jīng)沒有太大差距。而對(duì)于困難問題而言,各個(gè)模型各有所長。就筆者團(tuán)隊(duì)的綜合使用體驗(yàn)來看,文心一言完全足以吊打ChatGLM-6B等學(xué)術(shù)測試性質(zhì)的開源模型,部分能力上不如ChatGPT,部分能力上又超越了ChatGPT。

 夕小瑤科技說 原創(chuàng)
 作者 | 賣萌醬最近幾天,我們公眾號(hào)的社群在紛紛轉(zhuǎn)發(fā)一張名為SuperClue 評(píng)測的截圖。科大訊飛甚至在官號(hào)進(jìn)行了宣傳:

圖片

由于訊飛星火大模型剛發(fā)布,筆者玩的少,它是不是真的是國產(chǎn)最強(qiáng)這個(gè)筆者不敢下結(jié)論。

但在該評(píng)測截圖中,當(dāng)下國產(chǎn)模型中熱度最高的百度文心一言竟然連一個(gè)小型的學(xué)術(shù)開源模型ChatGLM-6B都打不過。這不僅與筆者自己的使用體驗(yàn)嚴(yán)重不符,而且在我們的專業(yè)NLP技術(shù)社群中,大家也紛紛表示一臉懵逼:

圖片

圖片

好奇之下,筆者去這個(gè)superclue榜單的github,想看看這個(gè)測評(píng)結(jié)論是怎么得出來的:https://github.com/CLUEbenchmark/SuperCLUE

首先筆者注意到這個(gè)repo下面已經(jīng)有一些issue了:

圖片

圖片

看起來這個(gè)離譜的感覺不僅僅是筆者有,果然群眾的眼睛還是雪亮的。。。

筆者進(jìn)一步看了一下這個(gè)榜單的評(píng)測方式:

圖片

好家伙,原來所謂的生成式大模型的測試,竟然全都是讓模型做選擇題。。。

很明顯這種做選擇題的評(píng)測方式是針對(duì)BERT時(shí)代的判別式AI模型的,那時(shí)候的AI模型普遍不具備生成能力,僅僅有判別能力(比如能判別一段文本屬于什么類別,選項(xiàng)中哪個(gè)是問題的正確答案,判斷兩段文本的語義是否一致等)。

而生成式模型的評(píng)測與判別式模型的評(píng)測有相當(dāng)于大的差異。

例如,對(duì)于機(jī)器翻譯這種特殊的生成任務(wù)而言,一般采用BLEU等評(píng)價(jià)指標(biāo)來檢測模型生成的回復(fù)與參考回復(fù)之間的“詞匯、短語覆蓋度”。但機(jī)器翻譯這種有參考回復(fù)的生成類任務(wù)是極少數(shù),絕大多數(shù)的生成類評(píng)測都要采用人工評(píng)測的方式。

例如閑聊式對(duì)話生成、文本風(fēng)格遷移、篇章生成、標(biāo)題生成、文本摘要等生成任務(wù),都需要各個(gè)待評(píng)測模型去自由生成回復(fù),然后人工去對(duì)比這些不同模型生成的回復(fù)的質(zhì)量,或人工判斷是否滿足了任務(wù)需求。

當(dāng)前這一輪的AI競爭,是模型生成能力的競爭,而不是模型判別能力的競爭。最有評(píng)價(jià)權(quán)的是真實(shí)的用戶口碑,不再是一個(gè)個(gè)冰冷的學(xué)術(shù)榜單。更何況是一個(gè)壓根沒測模型生成能力的榜單。

回想起來前些年——

2019年,OpenAI發(fā)布了GPT-2的時(shí)候,我們?cè)诙裻ricks刷榜;

2020年,OpenAI發(fā)布了GPT-3的時(shí)候,我們?cè)诙裻ricks刷榜;

2021-2022年,F(xiàn)LAN、T0、InstructGPT等instruction tuning和RLHF工作爆發(fā)的時(shí)候,我們還有不少團(tuán)隊(duì)在堅(jiān)持堆tricks刷榜…

希望這一波生成式模型的軍備競賽,我們不要再重蹈覆轍。

那么生成式AI模型到底應(yīng)該怎么測?

很抱歉,我前面說過,如果想做到無偏測試,非常非常的難,甚至比你自研一個(gè)生成式模型出來難得多。難度有哪些?具體拋幾個(gè)問題:

  • 評(píng)測維度該如何劃分?按理解、記憶、推理、表達(dá)?按專業(yè)領(lǐng)域?還是將傳統(tǒng)的NLP生成式評(píng)測任務(wù)雜揉起來?
  • 評(píng)測人員如何培訓(xùn)?對(duì)于寫代碼、debug、數(shù)學(xué)推導(dǎo)、金融法律醫(yī)療問答這種專業(yè)門檻極高的測試題,該如何招募人員測試?
  • 主觀性極高的測試題(如生成小紅書風(fēng)格的文案),該如何定義評(píng)測標(biāo)準(zhǔn)?
  • 問幾個(gè)泛泛的寫作類問題就能代表一個(gè)模型的文本生成/寫作能力了嗎?
  • 考察模型的文本生成子能力,篇章生成、問答生成、翻譯、摘要、風(fēng)格遷移都覆蓋到了嗎?各個(gè)任務(wù)的占比均勻嗎?評(píng)判標(biāo)準(zhǔn)都清晰嗎?統(tǒng)計(jì)顯著嗎?
  • 在上面的問答生成子任務(wù)里,科學(xué)、醫(yī)療、汽車、母嬰、金融、工程、政治、軍事、娛樂等各個(gè)垂類都覆蓋到了嗎?占比均勻嗎?
  • 如何測評(píng)對(duì)話能力?對(duì)話的一致性、多樣性、話題深度、人格化分別怎么設(shè)計(jì)的考察任務(wù)?
  • 對(duì)于同一項(xiàng)能力測試,簡單問題、中等難度問題和復(fù)雜長冷問題都覆蓋到了嗎?如何界定?分別占比多少?

這只是隨手拋的幾個(gè)要解決的基礎(chǔ)問題,在實(shí)際基準(zhǔn)設(shè)計(jì)的過程中,要面臨大量比以上問題棘手得多的問題。

因此,作為AI從業(yè)者,筆者呼吁大家理性看待各類AI模型排名。連一個(gè)無偏的測試基準(zhǔn)都沒有出現(xiàn),要這排名有何用?

還是那句話,一個(gè)生成式模型好不好,真實(shí)用戶說了算。

一個(gè)模型在一個(gè)榜單的排名再高,它解決不好你在意的問題,它對(duì)你來說就是個(gè)一般般的模型。換言之,一個(gè)排名倒數(shù)的模型,如果在你關(guān)注的場景下發(fā)現(xiàn)非常強(qiáng),那它對(duì)你來說就是個(gè)寶藏模型。

在此,筆者公開了我們團(tuán)隊(duì)內(nèi)部富集和撰寫的一個(gè)hard case(困難樣例)測試集。這份測試集重點(diǎn)關(guān)注模型對(duì)困難問題/指令的解決能力。

這個(gè)困難測試集重點(diǎn)考察了模型的語言理解、復(fù)雜指令理解與遵循、文本生成、復(fù)雜內(nèi)容生成、多輪對(duì)話、矛盾檢測、常識(shí)推理、數(shù)學(xué)推理、反事實(shí)推理、危害信息識(shí)別、法律倫理意識(shí)、中國文學(xué)知識(shí)、跨語言能力和代碼能力等。

再次強(qiáng)調(diào)一遍,這是筆者團(tuán)隊(duì)為測試生成式模型對(duì)困難樣例解決能力而做的一個(gè)case集,評(píng)測結(jié)果只能代表“對(duì)筆者團(tuán)隊(duì)而言,哪個(gè)模型感覺更好”,遠(yuǎn)遠(yuǎn)不能代表一個(gè)無偏的測試結(jié)論,如果想要無偏的測試結(jié)論,請(qǐng)先解答以上提到的測評(píng)問題,再去定義權(quán)威測試基準(zhǔn)。

想要自己評(píng)測驗(yàn)證的小伙伴,可以在本公眾號(hào)“夕小瑤科技說”后臺(tái)回復(fù)【AI評(píng)測】口令來下載測試文件

以下是在superclue榜單中受爭議最大的訊飛星火、文心一言與ChatGPT這三個(gè)模型的測評(píng)結(jié)果:

圖片

圖片

圖片

困難Case解決率:

  • ChatGPT(GPT-3.5-turbo):11/24=45.83%
  • 文心一言(2023.5.10版本):13/24=54.16%
  • 訊飛星火(2023.5.10版本):7/24=29.16%

這是要論證訊飛星火不如文心一言嗎?如果你仔細(xì)看前文了,就明白筆者想說什么。

確實(shí),盡管在這份我們內(nèi)部的困難case集上,星火模型不如文心一言,但這不能說明綜合起來誰一定比誰強(qiáng),僅僅說明,在我們團(tuán)隊(duì)內(nèi)部的困難case測試集上,文心一言表現(xiàn)最強(qiáng),甚至比ChatGPT多解決了2個(gè)困難case。

對(duì)于簡單問題而言,其實(shí)國產(chǎn)模型跟ChatGPT已經(jīng)沒有太大差距。而對(duì)于困難問題而言,各個(gè)模型各有所長。就筆者團(tuán)隊(duì)的綜合使用體驗(yàn)來看,文心一言完全足以吊打ChatGLM-6B等學(xué)術(shù)測試性質(zhì)的開源模型,部分能力上不如ChatGPT,部分能力上又超越了ChatGPT。

阿里通義千問、訊飛星火等其他大廠出品的國產(chǎn)模型也是相同的道理。

還是那句話,如今連一個(gè)無偏的測試基準(zhǔn)都沒出現(xiàn),你要那模型排名有啥用?

比起爭論各類有偏的榜單排名,不如像筆者團(tuán)隊(duì)一樣去做一個(gè)自己關(guān)心的測試集。

能解決你問題的模型,就是好模型。

責(zé)任編輯:武曉燕 來源: 夕小瑤科技說
相關(guān)推薦

2023-03-24 12:55:13

文心一言百度模型

2023-08-14 17:38:58

百度文心一言大模型評(píng)測

2023-02-08 07:14:51

文心一言ChatGPT機(jī)器人

2023-12-28 15:09:58

文心一言百度飛槳

2025-02-17 09:10:00

文心大模型開源人工智能

2023-02-22 20:20:23

AI文心一言百度

2023-12-18 14:57:00

訓(xùn)練模型

2023-03-22 10:02:41

2023-05-09 23:04:10

必應(yīng)文心一言AI

2023-07-13 15:10:06

2025-05-20 18:04:58

2023-02-17 08:50:57

AI

2023-02-17 10:34:17

Moka
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

日韩免费毛片| 欧美激情精品久久久| 国产日韩成人内射视频| 国产在线小视频| 蜜桃一区二区三区在线| 久久精品亚洲精品| 香蕉在线观看视频| 美女扒开腿让男人桶爽久久软| 91老师片黄在线观看| 国产精品日韩在线| 免费一级肉体全黄毛片| 要久久电视剧全集免费| 欧美日韩国产成人在线免费| 日韩国产小视频| 免费在线稳定资源站| 激情小说亚洲一区| 97视频在线观看亚洲| 中文字幕av久久爽一区| 欧美电影院免费观看| 岛国视频午夜一区免费在线观看| 亚洲国产午夜伦理片大全在线观看网站| 日韩成人av毛片| 不卡中文一二三区| 亚洲韩国青草视频| 激情文学亚洲色图| 日韩脚交footjobhdboots| 国产精品久久一级| 精品国产免费一区二区三区| 一级淫片免费看| 亚洲永久在线| 久久香蕉频线观| 亚洲精品色午夜无码专区日韩| 亚洲精品不卡在线观看| 欧美色手机在线观看| 免费拍拍拍网站| 老司机99精品99| 久久午夜电影网| 99爱精品视频| 国产精品欧美久久久久天天影视| 亚洲女人av| 久久亚洲春色中文字幕| 四虎影成人精品a片| 99精品在免费线中文字幕网站一区| 欧美视频中文字幕| 国产精品丝袜久久久久久消防器材| 黄网站在线免费看| 国产日韩欧美不卡| 久久久久久亚洲精品不卡4k岛国 | 日本一区二区在线播放| 欧美成人精品激情在线视频| 久久亚洲精品中文字幕蜜潮电影| 日韩高清欧美高清| 男人搞女人网站| 玛雅亚洲电影| 日韩欧美在线观看视频| 久久久久久久久久久99| 欧美寡妇性猛交xxx免费| 国产精品国产馆在线真实露脸 | 成年网站在线免费观看| f2c人成在线观看免费视频| 亚洲男人的天堂网| 超碰在线免费观看97| 2019中文字幕在线视频| 国产亚洲婷婷免费| 免费av一区二区三区| 天天干天天草天天射| 成人免费福利片| 91欧美激情另类亚洲| 91在线公开视频| 精品一区二区久久| 日韩美女在线观看一区| 国产又黄又猛又粗又爽| 亚洲影视综合| 日本欧美一二三区| 中文字幕视频在线播放| 国内精品不卡在线| 国产伦精品一区二区三毛| 少妇精品高潮欲妇又嫩中文字幕| 国产成人精品免费在线| 国产亚洲欧美另类一区二区三区| 污视频软件在线观看| yourporn久久国产精品| 九九99玖玖| 国产人成在线观看| 中文字幕一区二区三区精华液| 日本在线观看不卡| 日韩伦理在线电影| 亚洲欧洲综合另类| www插插插无码视频网站 | 亚洲欧洲成人精品av97| 成人性做爰片免费视频| 欧洲成人综合网| 亚洲综合在线五月| 日韩免费在线观看av| 美女的胸无遮挡在线观看| 欧美性xxxxx极品| 亚洲黄色av网址| 奇米一区二区| 精品一区二区三区四区| 你懂得视频在线观看| 一区二区影视| 青青草一区二区| 一本一道人人妻人人妻αv| 国产精品一级在线| 国产精成人品localhost| 国产综合视频在线| 国产欧美一区二区精品婷婷| 天天操天天干天天玩| 超碰资源在线| 欧美日韩aaaaa| 91av免费观看| 蜜桃精品wwwmitaows| 日韩视频免费中文字幕| 日本特黄一级片| 蜜桃在线一区二区三区| 国产在线一区二| 欧美另类极品| 欧美网站在线观看| 原创真实夫妻啪啪av| 精品国产成人| 国外成人在线视频| 国产精品特级毛片一区二区三区| 99国产麻豆精品| 日本成人性视频| 国产在线美女| 欧美一区二区三区免费在线看| 97伦伦午夜电影理伦片| 99久久视频| 欧美在线亚洲在线| 亚洲欧美激情国产综合久久久| 国产农村妇女毛片精品久久麻豆| 99er在线视频| 国产精品久久久久久av公交车| 亚洲免费高清视频| 国产精品23p| 国产一区二区三区免费在线观看| 久久久久久久久四区三区| 女同视频在线观看| 制服丝袜日韩国产| 97伦伦午夜电影理伦片| 亚洲在线免费| 精品欧美日韩在线| 在线中文字幕第一页| 欧美天天综合网| 国产人妻大战黑人20p| 国产亚洲成人一区| 国产无套精品一区二区| 日本一级理论片在线大全| 欧美精品久久99久久在免费线| 一级黄色片网址| 久久久久国产精品午夜一区| 精品一区久久久| av资源在线播放| 亚洲二区中文字幕| 国产成人精品亚洲男人的天堂| 国产福利91精品| 国产成人精品免费看在线播放| 亚洲国产尤物| 亚洲午夜av电影| 国产精品777777| 2019国产精品| 国产91美女视频| 偷拍视屏一区| 欧美最猛性xxxxx亚洲精品| 天天躁日日躁狠狠躁伊人| 亚洲国产综合91精品麻豆| 苍井空张开腿实干12次| 尤物网精品视频| 国产chinese精品一区二区| 91精品国产91久久久久久青草| 欧美一区二区性放荡片| 国产这里有精品| 国产成人av电影在线观看| 在线观看av的网址| 综合激情五月婷婷| 97视频在线观看免费高清完整版在线观看 | 久久免费国产精品1| 神马久久久久久久久久| 婷婷国产在线综合| 午夜理伦三级做爰电影| 男人操女人的视频在线观看欧美| 日韩亚洲视频| 国产亚洲字幕| 久久久久一本一区二区青青蜜月| 懂色av蜜臀av粉嫩av分享吧| 午夜不卡av在线| 国产av自拍一区| 久草热8精品视频在线观看| 免费久久久久久| japanese色系久久精品| 欧美与黑人午夜性猛交久久久| 国产私拍精品| 欧美夫妻性生活| 国产精品 欧美 日韩| 久久婷婷成人综合色| mm131亚洲精品| 欧美午夜一区二区福利视频| 欧美成人免费在线| 91麻豆精品| 韩剧1988免费观看全集| 九一国产在线| 91精品国产综合久久国产大片| 国产午夜免费视频| 日本一区二区成人在线| 成人三级做爰av| 亚洲女人av| 国产欧美综合一区| 一区二区三区美女xx视频| 国产一级免费观看| 中文字幕第一区二区| youjizz.com日本| 奇米影视一区二区三区| 丁香花在线影院观看在线播放| 天天揉久久久久亚洲精品| 久久婷婷开心| 成人av地址| 3d动漫精品啪啪一区二区三区免费| 午夜伦理福利在线| 欧美激情一级精品国产| 日本高清视频在线播放| 亚洲性猛交xxxxwww| 天天综合网在线观看| 日韩美女一区二区三区| 亚洲中文字幕在线一区| 色狠狠桃花综合| 国偷自拍第113页| 亚洲观看高清完整版在线观看| 黄色录像二级片| 国产精品―色哟哟| 中文字幕网站在线观看| av中文字幕不卡| 欧美做受高潮中文字幕| 国产精品影视网| 麻豆网站免费观看| 国产一区二区视频在线| 老司机久久精品| 麻豆国产精品官网| 国产九九在线视频| 日韩影院在线观看| 成人在线观看a| 久久久久综合| 日本999视频| 久久福利影视| 国产日韩一区二区在线观看| 久久一二三四| 成人黄色一区二区| 日韩国产一区二| 无需播放器的av| 蜜臀久久99精品久久久画质超高清| 密臀av一区二区三区| 日韩国产高清在线| 欧美成人三级在线播放| 麻豆精品视频在线| 日本一二三区在线| 国产一区二区h| wwwxx日本| 91视频在线观看免费| 中文字幕第4页| 亚洲国产高清不卡| 2014亚洲天堂| 亚洲主播在线播放| 日韩精品乱码久久久久久| 欧美天天综合色影久久精品| 蜜臀99久久精品久久久久小说 | 91免费看片在线观看| 少妇特黄一区二区三区| 国产欧美日韩另类一区| 91免费在线看片| 一区二区三区四区乱视频| 日韩 欧美 精品| 欧洲人成人精品| 国产三级视频在线播放| 亚洲精品在线免费播放| 九色视频在线观看免费播放| 中文字幕精品av| 亚洲七七久久综合桃花剧情介绍| 97人人爽人人喊人人模波多| 日韩天堂在线| 亚洲aaaaaa| 日韩有码一区| 中文字幕日韩精品久久| 精品动漫av| www日韩视频| 国产不卡一区视频| 亚洲第一香蕉网| 一区在线播放视频| 日本一级黄色大片| 在线影院国内精品| 国产成人精品毛片| 亚洲网在线观看| 成人爽a毛片免费啪啪动漫| 国产成人精品视频| 91国内精品| 午夜精品一区二区三区在线观看 | 国产国语亲子伦亲子| 日韩精品久久久久久久玫瑰园| 在线观看的av| 97色在线播放视频| 久久av偷拍| 日韩欧美三级电影| 亚洲国产91| 亚洲美女性囗交| 久久精品男人的天堂| 精品无码av在线| 欧美日韩在线观看一区二区 | 久久精品亚洲乱码伦伦中文| av成人免费网站| 欧洲人成人精品| 午夜视频福利在线| 欧美高清无遮挡| 欧美激情福利| 日韩精品久久久| 亚洲激情视频| 成人免费播放视频| 国产精品高潮久久久久无| 91精品国产高清一区二区三密臀| 日韩一区二区电影| 精品美女在线观看视频在线观看 | 久久亚洲一区二区三区四区五区高| 一区二区乱码| 国产精品一区二区三区精品| 亚洲国产精品成人| 日日噜噜夜夜狠狠| 久久久精品国产99久久精品芒果| 黄色激情视频在线观看| 日韩你懂的在线播放| v天堂福利视频在线观看| 国产有码一区二区| 欧美性感美女一区二区| 日韩有码免费视频| 91在线观看一区二区| 日本免费观看视| 欧美精品一区二区久久婷婷| 欧美人动性xxxxz0oz| 亚洲专区中文字幕| 欧美黄色一区二区| 日本在线视频播放| 一区二区三区成人在线视频| 国产女人18毛片18精品| 久久亚洲影音av资源网 | 国产免费一区二区三区四区| 欧美性一二三区| av在线第一页| 国产精品丝袜白浆摸在线| 成人黄色av| 女人高潮一级片| 17c精品麻豆一区二区免费| 91麻豆成人精品国产免费网站| 丝袜美腿亚洲一区二区| 婷婷激情成人| 欧美一级免费在线观看| 国产精品一区二区不卡| 久久久久久天堂| 日韩高清a**址| 色老太综合网| 亚洲精品永久www嫩草| 九九视频精品免费| 99精品久久久久| 亚洲第一中文字幕在线观看| 男人av在线播放| 热舞福利精品大尺度视频| 日本欧美在线看| www青青草原| 亚洲成色777777女色窝| 欧美黑人粗大| 在线不卡日本| 高清成人在线观看| 999这里只有精品| 中文字幕亚洲精品| 欧美另类中文字幕| 成人在线观看你懂的| 久久久噜噜噜久久中文字幕色伊伊| 国产美女www爽爽爽| 久久久精品国产网站| 国产精品久av福利在线观看| 日韩精品一区二区三区久久| 国产精品情趣视频| 精品人妻无码一区二区色欲产成人 | 国产酒店精品激情| 91aaa在线观看| 亚洲欧美国产一区二区三区| 色综合视频一区二区三区日韩| 妺妺窝人体色www看人体| 久久精品日韩一区二区三区| 国产原创中文av| 91精品国产自产91精品| 成人羞羞网站| 91成人在线观看喷潮蘑菇| 欧美伊人久久大香线蕉综合69| 污影院在线观看| 日韩一区免费观看| 国产**成人网毛片九色| 小泽玛利亚一区二区三区视频| 欧美猛交免费看| 国产乱码精品一区二区三区四区| 九九九久久久久久久| 色一情一乱一乱一91av| 免费毛片在线看片免费丝瓜视频 | 激情六月婷婷久久| 波多野结衣国产|