精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

首次擊敗GPT-4?700億參數(shù)Xwin-LM登頂斯坦福AlpacaEval,13B模型吊打ChatGPT

人工智能 新聞
GPT-4在斯坦福AlpacaEval的榜首之位,居然被一匹黑馬搶過來了。

第一個(gè)在AlpacaEval上超越GPT-4的模型,出現(xiàn)了!

今年6月,AlpacaEval榜單一公布,GPT-4就以絕對(duì)領(lǐng)先的優(yōu)勢(shì)奪得第一,勝率超過95%。

三個(gè)月后,一匹叫Xwin-LM的黑馬,居然把穩(wěn)居榜首的GPT-4從TOP 1拉下來了?

項(xiàng)目地址:https://tatsu-lab.github.io/alpaca_eval/

而且,Xwin-LM在同參數(shù)模型的對(duì)壘中,也毫無例外地拿下了三個(gè)第一:

Xwin-LM-70B-V0.1:在AlpacaEval基準(zhǔn)測(cè)試中對(duì)Davinci-003的勝率達(dá)到95.57%,在AlpacaEval中排名第一。也是第一個(gè)在AlpacaEval上超越GPT-4的模型。此外,它對(duì)上GPT-4的勝率為60.61。

Xwin-LM-13B-V0.1:在AlpacaEval上取得了91.76%的勝率,在所有13B模型中排名第一。

Xwin-LM-7B-V0.1:在AlpacaEval上取得了87.82%的勝率,在所有7B機(jī)型中排名第一。

Xwin-LM:700億參數(shù)打贏GPT-4

Xwin-LM是以Llama 2為基礎(chǔ)進(jìn)行微調(diào)的,該模型旨在開發(fā)和開源大語言模型的對(duì)齊技術(shù),包括監(jiān)督微調(diào)(SFT)、獎(jiǎng)勵(lì)模型(RM)、拒絕采樣、人類反饋強(qiáng)化學(xué)習(xí)(RLHF)等。

1. 性能評(píng)估

研究人員評(píng)估了Xwin-LM在805個(gè)問題上與Text-Davinci-003 、ChatGPT和GPT-4的勝率。

可以看到,Xwin-LM的70B模型完全霸榜,成為AlpacaEval指標(biāo)上的性能評(píng)估的第一,并首次打敗了GPT-4,對(duì)GPT-4的勝率達(dá)到了60.61%。

Xwin-LM其他規(guī)模的模型,如Xwin-LM-13B-V0.1、Xwin-LM-7B-V0.1在性能上也遠(yuǎn)超相同規(guī)模的其他模型。

Xwin-LM-7B-V0.1甚至超過了比它規(guī)模更大的Llama 2-13B-Chat。

2. 案例比較

在第一個(gè)案例中,研究人員向GPT-4和Xwin-LM提問:

「我把一個(gè)盤子放在蘋果上面,然后把盤子從廚房帶到餐廳。蘋果現(xiàn)在在哪里?」

GPT-4的回答是:

「蘋果現(xiàn)在在餐廳,當(dāng)你把盤子從廚房到端餐廳時(shí),它就在盤子下面。」

在這里GPT-4給出了一個(gè)缺少常識(shí)的回復(fù),現(xiàn)實(shí)生活中有重力,在盤子下方的蘋果保持原來的狀態(tài),并不會(huì)和盤子一起到餐廳。

相比之下,Xwin-LM的回答就比較符合現(xiàn)實(shí)情況,并且還給出了把蘋果帶到廚房的方法:

「蘋果還在廚房里,因?yàn)槟阒皇且苿?dòng)了盤子。

蘋果在盤子下面,所以如果你想把蘋果帶到餐廳,你應(yīng)該直接移動(dòng)蘋果或把蘋果放在盤子里,然后把盤子移到餐廳。」

在第二個(gè)案例中,研究人員向GPT-4和Xwin-LM提問:

「怎么法語說『晚上好』?」

GPT-4的回答是:

「在法語中,『晚上好』用『bonsoir』表達(dá)。」

而Xwin-LM的回答是:

「在法語中,『晚上好』被翻譯為『bonsoir』。這種問候語在晚上和夜間使用,通常在下午 6 點(diǎn)之后。

它是『bon』(意思是好)和『soir』(意思是晚上)的組合。要發(fā)音,請(qǐng)說『bone-swahr』」。

雖然GPT-4的回答是正確的,但Xwin-LM不僅正確回答了問題,還解釋了法語表達(dá)中「晚上好」的來源和發(fā)音,反饋給用戶的信息更加豐富。

3. NLP任務(wù)

下表是Xwin-LM與其他LLM在NLP基礎(chǔ)任務(wù)上的比較。

可以看到,Xwin-LM-70B-V0.1模型在所有任務(wù)中的性能都相對(duì)較高,在MMLU 5-shot和HellaSwag 10-shot任務(wù)中更是表現(xiàn)出色。

并且,從綜合水平上來說,Xwin-LM-70B-V0.1是表現(xiàn)最好的。

4. 推理能力

研究人員提出,為了在使用Xwin-LM進(jìn)行推理時(shí)獲得所需的結(jié)果,需要嚴(yán)格遵守推理的對(duì)話模板。

Xwin-LM采用Vicuna建立的提示格式,并支持多回合對(duì)話。

A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: Hi! ASSISTANT: Hello.</s>USER: Who are you? ASSISTANT: I am Xwin-LM.</s>......

HuggingFace示例

from transformers import AutoTokenizer, AutoModelForCausalLM


model = AutoModelForCausalLM.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")
tokenizer = AutoTokenizer.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")
(
    prompt := "A chat between a curious user and an artificial intelligence assistant. "
            "The assistant gives helpful, detailed, and polite answers to the user's questions. "
            "USER: Hello, can you help me? "
            "ASSISTANT:"
)
inputs = tokenizer(prompt, return_tensors="pt")
samples = model.generate(**inputs, max_new_tokens=4096, temperature=0.7)
output = tokenizer.decode(samples[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True)
print(output) 
# Of course! I'm here to help. Please feel free to ask your question or describe the issue you're having, and I'll do my best to assist you.

VLLM示例

因?yàn)閄win-LM是基于Llama 2微調(diào)而來,它還支持使用VLLM進(jìn)行快速推理。

from vllm import LLM, SamplingParams
(
    prompt := "A chat between a curious user and an artificial intelligence assistant. "
            "The assistant gives helpful, detailed, and polite answers to the user's questions. "
            "USER: Hello, can you help me? "
            "ASSISTANT:"
)
sampling_params = SamplingParams(temperature=0.7, max_tokens=4096)
llm = LLM(model="Xwin-LM/Xwin-LM-7B-V0.1")
outputs = llm.generate([prompt,], sampling_params)


for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(generated_text)

AlpacaEval:易使用、速度快、成本低、經(jīng)過人類標(biāo)注驗(yàn)證

作為一款LLM自動(dòng)評(píng)估工具,AlpacaEval把AlpacaFarm和Aviary進(jìn)行了結(jié)合。

一方面使用與AlpacaFarm相同的代碼(緩存/隨機(jī)排列/超參數(shù)),另一方面則使用類似于Aviary的排序提示。

與此同時(shí),還對(duì)Aviary的提示進(jìn)行了修改,從而減少對(duì)較長(zhǎng)輸出的偏見。

團(tuán)隊(duì)表示,AlpacaEval有著拔群的效果:

- 與人類多數(shù)票的一致性,高于單個(gè)人類標(biāo)注者

- 勝率與人類標(biāo)注高度相關(guān)(0.94)

圖片

- 勝率

模型的輸出在每個(gè)指令上優(yōu)于text-davinci-003(即參考文本)的比例。

具體而言,首先從AlpacaEval數(shù)據(jù)集中收集了期望模型在每個(gè)指令上的輸出對(duì),并將每個(gè)輸出與相同指令下的參考模型(text-davinci-003)的輸出進(jìn)行配對(duì)。

隨后,把這些輸出同時(shí)喂給自動(dòng)評(píng)測(cè)器,讓它去判斷哪一個(gè)更好(也就是評(píng)測(cè)器的偏好)。

最后,將數(shù)據(jù)集中所有指令的偏好進(jìn)行平均,從而得到模型相對(duì)于text-davinci-003的勝率。如果兩個(gè)模型打平,那么就算半個(gè)偏好。

論文地址:https://arxiv.org/pdf/2305.14387.pdf

- 局限性

雖然AlpacaEval為比較模型遵循指令的能力提供了一種有效的方法,但它并不是對(duì)模型能力進(jìn)行全面評(píng)估的黃金標(biāo)準(zhǔn)。

正如AlpacaFarm論文中詳述的那樣,自動(dòng)標(biāo)注器的勝率與長(zhǎng)度相關(guān)。雖然人類標(biāo)注也會(huì)有這種偏差,但目前還不清楚更長(zhǎng)的答案是否會(huì)增加下游任務(wù)的效用。

此外,AlpacaFarm的評(píng)估集雖然多種多樣,但主要由簡(jiǎn)單的指令組成。

最后,AlpacaEval并不評(píng)估任何模型的安全性。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-07-03 13:23:47

OpenChatOpenLLMChatGPT

2023-11-18 09:37:49

2025-11-04 08:42:27

2023-03-15 10:26:00

模型開源

2023-03-31 13:55:00

模型智能

2023-10-21 12:42:06

數(shù)據(jù)模型

2023-03-15 10:35:16

GPTAI

2024-01-03 13:37:00

模型數(shù)據(jù)

2024-03-25 07:15:00

AI模型

2024-06-03 10:43:34

2023-10-17 13:33:00

AI數(shù)據(jù)

2023-06-05 15:44:15

GPT-4AI

2023-02-14 09:45:11

模型測(cè)試

2023-10-12 14:18:06

2023-12-26 14:56:59

模型訓(xùn)練

2025-01-17 10:26:19

模型開發(fā)ChatGPT

2024-04-07 13:40:20

2023-03-22 15:14:00

數(shù)據(jù)模型

2023-10-06 12:48:43

AI論文

2023-06-25 13:28:21

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

好看不卡的中文字幕| 欧美黑人xx片| 蜜桃视频一区二区三区| 美女扒开尿口让男人操亚洲视频网站| 欧美污在线观看| 欧美巨大丰满猛性社交| 中文字幕精品一区二区三区精品| 97av自拍| 中文精品久久久久人妻不卡| 午夜国产精品视频| 亚洲视频一区二区| 蜜桃色一区二区三区| 久久久人成影片一区二区三区在哪下载| 中文字幕一区二区三区乱码在线| 国内精品久久国产| 国产精品人妻一区二区三区| 亚洲综合国产| 欧美日韩高清区| 国产黄色大片免费看| 国产精品色呦| 7777女厕盗摄久久久| 欧美日韩国产精品激情在线播放| www久久日com| 国产精品三级视频| 久久一区二区三区av| 99国产精品久久久久99打野战| 蜜桃伊人久久| 高清一区二区三区四区五区| 欧美日韩色视频| 国产一区不卡| 日韩精品免费在线视频| 香蕉视频xxxx| 九色porny丨首页入口在线| 亚洲色图清纯唯美| 亚洲国产日韩综合一区| 婷婷伊人综合中文字幕| 欧美成人一品| 韩国福利在线| 99a精品视频在线观看| 欧洲精品一区二区| 国产老熟妇精品观看| 日本高清在线观看视频| 中文字幕一区二区三区欧美日韩 | www.久久草.com| 狠狠躁天天躁日日躁欧美| 欧美视频第二页| 日韩精品网站| 欧美高清电影在线| av小说在线观看| 亚洲中文字幕一区二区| 亚洲国产高清视频| 久久99视频免费| 欧美做爰爽爽爽爽爽爽| 国产精品久久久久久| 中文日韩电影网站| 性猛交娇小69hd| 久操成人av| 亚洲欧美视频在线| 精品人伦一区二区三电影| 一本色道久久综合亚洲精品酒店| 亚洲国语精品自产拍在线观看| 肉丝美足丝袜一区二区三区四| 欧美片网站免费| 日韩精品中文字幕一区二区三区 | 国产一区二区三区四区五区美女| 成人欧美在线视频| a天堂视频在线| 国产成人免费av在线| 国产精品免费看一区二区三区| 日韩中文字幕免费观看| 国产欧洲在线| 久久99精品网久久| 亚洲最大福利视频网| 精品国产无码一区二区| 成人免费毛片aaaaa**| 久久精品日产第一区二区三区乱码| 天天av天天翘| 国产清纯白嫩初高生在线观看91| 亚洲欧美国产一区二区| 在线观看av免费| 欧美日韩国产一区二区三区| 日韩欧美黄色大片| **国产精品| 精品久久久久一区二区国产| av小说在线观看| 国产精品不卡| 午夜精品一区二区三区在线 | www日韩av| 色综合888| 国产精品理伦片| 欧美视频在线第一页| 高潮在线视频| 欧美日本一道本| www男人天堂| 神马电影久久| 欧美高清一级大片| 中文字幕免费高清网站| 国内精品国产三级国产a久久| 精品国产乱码久久久久久88av| 国产福利第一视频在线播放| 亚洲乱码国产乱码精品精可以看 | 91福利免费视频| 成人一区二区三区| 视频在线观看成人| 草美女在线观看| 国产精品一级片在线观看| 欧美挠脚心视频网站| 国产艳妇疯狂做爰视频| 日韩中文欧美| 国产91ⅴ在线精品免费观看| 国产精品久久久久久久免费| 26uuuu精品一区二区| 欧美一级中文字幕| 91亚洲精品| 日韩h在线观看| avtt天堂在线| 日韩av网站在线观看| 精品一区在线播放| 在线视频中文字幕第一页| 在线观看av不卡| 国产精品久久无码| 一区二区三区网站| 国产精品视频免费在线| 免费a在线观看| 亚洲成av人综合在线观看| 亚洲精品乱码久久久久久动漫| 最近国产精品视频| 97香蕉久久夜色精品国产| 99精品免费观看| 亚洲国产精品精华液2区45| 久久久999视频| 豆花视频一区二区| 欧美大片在线看| 国产女同91疯狂高潮互磨| 国产精品美日韩| 成人一区二区三| 天天躁日日躁狠狠躁欧美巨大小说 | 日本一区高清| 中文字幕一区二区三区欧美日韩| 午夜精品福利久久久| 日韩 国产 一区| 91综合久久一区二区| 国产精品视频导航| 亚洲成a人v欧美综合天堂麻豆| 日韩人在线观看| 公侵犯人妻一区二区三区| 免费日韩一区二区| 免费av在线一区二区| 女人高潮被爽到呻吟在线观看| 亚洲成人av资源网| 国产做受高潮漫动| 99热精品国产| 国产91在线视频观看| 亚洲欧洲av| 情事1991在线| av电影在线播放高清免费观看| 色先锋资源久久综合| 我不卡一区二区| 人人精品人人爱| 亚洲一区不卡在线| 蜜桃在线一区| 欧美激情在线狂野欧美精品| 后进极品白嫩翘臀在线视频| 午夜视频在线观看一区| 在线免费观看a级片| 久久国产精品久久w女人spa| 日韩激情久久| 国产日韩在线观看视频| 欧美黄色片在线观看| 手机在线观看毛片| 在线国产电影不卡| 疯狂撞击丝袜人妻| 高清不卡一区二区在线| 国产最新免费视频| 欧美电影免费| 国产成人免费观看| 欧美xxxxxx| 精品国产一区二区在线| 亚洲高清精品视频| 日本精品视频一区二区三区| 香蕉久久久久久久| 成人听书哪个软件好| 99热成人精品热久久66| 91av精品| 欧美精品尤物在线| 日韩免费在线电影| 午夜精品福利电影| www.久久热.com| 欧美xfplay| 国产一卡二卡三卡| 一区二区三区免费在线观看| 国产在线观看无码免费视频| 免费人成在线不卡| 久久久久久人妻一区二区三区| 经典一区二区| av资源一区二区| 日本欧美不卡| 久久久综合av| 欧美a在线看| 亚洲精品国产精品久久清纯直播 | 97人澡人人添人人爽欧美| 一区二区中文字幕| 刘亦菲毛片一区二区三区| 欧美色涩在线第一页| 日韩成人一区二区三区| 国产精品久久久久久久久免费丝袜| 亚洲香蕉中文网| 久久国产日韩欧美精品| aⅴ在线免费观看| 黄色在线一区| 久久视频免费在线| 国产一区二区三区网| 国产伦精品一区二区三区四区视频 | 亚洲va国产天堂va久久en| 激情无码人妻又粗又大| 26uuu亚洲| 国产ts在线观看| 视频一区二区中文字幕| 97视频在线免费| 亚洲综合色站| 中日韩在线视频| 狠狠做深爱婷婷综合一区| 国产在线欧美日韩| 色综合久久久| 欧美综合在线第二页| 91九色美女在线视频| 欧美超级乱淫片喷水| 77777影视视频在线观看| 亚洲乱码国产乱码精品精天堂| 亚洲国产日韩在线观看| 欧美一级xxx| 国产精品无码天天爽视频| 欧洲一区二区三区免费视频| 你懂的国产在线| 精品久久久视频| 日本一区二区网站| 亚洲国产视频一区| 日本精品一区二区三区高清 久久 日本精品一区二区三区不卡无字幕 | 青青草华人在线视频| 96sao在线精品免费视频| 国产精品丝袜久久久久久高清| 亚洲欧美一区二区三区| 51久久精品夜色国产麻豆| heyzo一区| 欧美精品福利在线| 污片在线免费观看| 欧美成人h版在线观看| 国产黄色小视频在线| 久久久精品视频成人| 国产精品扒开做爽爽爽的视频| 色小说视频一区| 午夜看片在线免费| 久久天天躁狠狠躁夜夜av| 久操视频在线免费播放| 久久久精品国产亚洲| av在线免费网站| 久久99精品久久久久久久久久久久| 国产传媒一区二区| 爱爱精品视频| 精品久久久久久一区二区里番| 露出调教综合另类| 另类欧美小说| 欧美亚洲国产激情| 综合网五月天| 欧美aⅴ99久久黑人专区| 黄色一级片黄色| 亚洲一本视频| 国产黄色特级片| 麻豆精品久久久| 手机免费av片| 美女视频一区二区三区| 国产精品一区二区羞羞答答| 韩国精品久久久| 香蕉在线观看视频| 91免费视频网址| 香蕉成人在线视频| 亚洲最大成人网4388xx| 天堂а√在线中文在线新版| 欧美在线三级电影| 99久久精品国产色欲| 亚洲国产精品va在线观看黑人| 欧美成人片在线| 精品国产网站地址| 日本不卡网站| 成人国产精品久久久久久亚洲| 亚洲国产精品免费视频| 你懂的视频在线一区二区| 国产大片一区| 国产69精品久久久久久久| 免费久久精品视频| 日韩少妇一区二区| 中文字幕不卡在线| 国产第100页| 精品视频999| 日本黄色不卡视频| 日韩亚洲欧美中文高清在线| 久久久123| 国产精品吴梦梦| 里番精品3d一二三区| 椎名由奈jux491在线播放 | www.中文字幕在线| 狠狠色丁香九九婷婷综合五月| 欧美xxxx×黑人性爽| 日韩一区在线看| 日韩在线视频不卡| 欧美videos大乳护士334| 成人免费高清在线播放| 韩国三级电影久久久久久| av国产精品| 日本精品一区二区三区不卡无字幕| 激情综合在线| 中文字幕色网站| 国产人成亚洲第一网站在线播放| 黄色小视频在线免费看| 在线观看91精品国产麻豆| 国产三级电影在线| 26uuu另类亚洲欧美日本老年| 经典三级久久| 亚洲欧洲精品一区二区三区波多野1战4| 国产欧美二区| 日韩黄色一区二区| 亚洲美女精品一区| 亚洲怡红院av| 一区二区国产精品视频| 北岛玲heyzo一区二区| 国产日韩欧美综合精品| 欧美激情91| 国产xxxxhd| 亚洲视频每日更新| 国产精品久久久久久免费免熟| 亚洲午夜精品久久久久久性色 | 成人性生交大片免费看视频直播 | 欧美交换配乱吟粗大25p| 麻豆高清免费国产一区| 卡一卡二卡三在线观看| 色综合久久66| 可以免费看污视频的网站在线| 91精品国产免费久久久久久| 911亚洲精品| 欧美日韩视频免费| 成人永久aaa| 日韩久久精品视频| 亚洲国产精品字幕| 国产精品yjizz视频网| 狠狠色噜噜狠狠色综合久| 亚洲人体大胆视频| 第四色在线视频| 欧美日韩激情网| 欧美理论在线观看| 国产成人精品在线视频| 国产中文字幕一区二区三区 | 日韩成人免费观看| 亚洲国内精品在线| 在线亚洲人成| 日韩欧美视频一区二区| 免费成人在线网站| 免费精品在线视频| 日韩精品一区二区三区四区| 青春草视频在线| 国产亚洲情侣一区二区无| 亚洲在线网站| 中文字幕第24页| 欧美日韩国产精选| av片哪里在线观看| 国产精品xxxx| 免费在线亚洲欧美| 日本猛少妇色xxxxx免费网站| 欧美裸体一区二区三区| 亚洲羞羞网站| 久久久一本精品99久久精品66| 久久亚洲美女| 欧美日韩色视频| 亚洲国产精久久久久久| 黄色精品视频| 女人色极品影院| 国产亚洲精品资源在线26u| 亚洲综合视频在线播放| 欧美交受高潮1| 蜜桃精品噜噜噜成人av| 在线播放av中文字幕| 亚洲一区二区三区国产| 毛片在线播放网址| 亚洲一区二区久久久久久 | 中文字幕66页| 午夜欧美大尺度福利影院在线看| 国产尤物视频在线| 亚洲自拍中文字幕| 狂野欧美一区| 欧美黑吊大战白妞| 亚洲欧美制服第一页| 韩国三级大全久久网站| 国产又黄又大又粗视频| 国产精品入口麻豆原神| 天堂网2014av| 成人性生交大片免费看小说| 久久黄色网页| 久久这里只有精品国产| 在线亚洲午夜片av大片| 牛牛视频精品一区二区不卡| 免费网站在线观看黄|