精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

擊敗ChatGPT?OpenChat霸榜斯坦福AlpacaEval開源榜首,性能高達(dá)105.7%

人工智能
最能打的開源模型來了?OpenLLM在最新評測中,一舉擊敗ChatGPT。

一夜之間,全新開源模型「OpenLLM」擊敗ChatGPT的消息,在網(wǎng)上引起軒然大波。

根據(jù)官方的介紹,OpenLLM:

- 在斯坦福AlpacaEval上,以80.9%的勝率位列開源模型第一

- 在Vicuna GPT-4評測中,性能則達(dá)到了ChatGPT的105.7%

圖片圖片

最重要的是,如此卓越的性能,只需要6K的GPT-4對話數(shù)據(jù)進(jìn)行微調(diào)訓(xùn)練。

圖片圖片

項(xiàng)目地址:https://github.com/imoneoi/openchat

不過Chatbot Arena的「榜單主」提醒稱,由于舊的Vicu?a eval基準(zhǔn)存在一些bias,因此提倡大家遷移到新提出的MT-bench上——從而更好地測評LLM更多方面的能力。

圖片圖片

OpenLLM:只需6K GPT-4對話微調(diào)

OpenLLM是一個(gè)在多樣化且高質(zhì)量的多輪對話數(shù)據(jù)集上進(jìn)行微調(diào)的開源語言模型系列。

具體來講,研究人員從約90K的ShareGPT對話中,過濾出來約6K的GPT-4對話。

經(jīng)過6k數(shù)據(jù)微調(diào)后,令人驚訝的是,OpenLLM已經(jīng)被證明可以在有限的數(shù)據(jù)下實(shí)現(xiàn)高性能。

OpenLLM有兩個(gè)通用模型,它們是OpenChat和OpenChat-8192。

圖片圖片

OpenChat:基于LLaMA-13B微調(diào),上下文長度為2048

- 在Vicuna GPT-4評估中達(dá)到ChatGPT分?jǐn)?shù)的105.7%

- 在AlpacaEval上取得了驚人的80.9%的勝率

OpenChat-8192:基于LLaMA-13B微調(diào),上下文長度為8192

- 在Vicuna GPT-4評估中達(dá)到ChatGPT分?jǐn)?shù)的106.6%

- 在AlpacaEval上取得的79.5%勝率

圖片圖片

此外,OpenLLM還有代碼模型,其性能如下:

OpenCoderPlus:基于StarCoderPlus,原始上下文長度為8192

- 在Vicuna GPT-4評估中達(dá)到ChatGPT分?jǐn)?shù)的102.5%

- 在AlpacaEval上獲得78.7%的勝率

模型評估

研究人員使用Vicuna GPT-4和AlpacaEval基準(zhǔn)評估了最新模型,結(jié)果如下圖所示:

圖片圖片

Vicuna GPT-4評估(v.s. gpt-3.5-turbo)

圖片圖片

Vicuna GPT-3.5-Turbo評估(v.s. gpt-3.5-turbo)

另外,值得注意的是,研究者采用的評估模式與Vicuna的略有不同,還使用了證據(jù)校準(zhǔn)(EC)+平衡位置校準(zhǔn)(BPC)來減少潛在的偏差。

圖片圖片

安裝和權(quán)重

要使用OpenLLM,需要安裝CUDA和PyTorch。用戶可以克隆這個(gè)資源庫,并通過pip安裝這些依賴:

git clone git@github.com:imoneoi/OChat.git
pip install -r requirements.txt

目前,研究人員已經(jīng)提供了所有模型的完整權(quán)重作為huggingface存儲庫。

用戶可以使用以下命令在本地啟動一個(gè)API服務(wù)器,地址為http://localhost:18888。

圖片圖片

其中,服務(wù)器與openai包,以及ChatCompletions協(xié)議兼容(請注意,某些功能可能不完全支持)。

用戶可以通過設(shè)置以下方式指定openai包的服務(wù)器:

openai.api_base = "http://localhost:18888/v1"

當(dāng)前支持的ChatCompletions參數(shù)有:

圖片圖片

建議:使用至少40GB(1x A100)顯存的GPU來運(yùn)行服務(wù)器。

數(shù)據(jù)集

轉(zhuǎn)換后的數(shù)據(jù)集可在openchat_sharegpt4_dataset上獲取。

項(xiàng)目中所使用的數(shù)據(jù)集,是對ShareGPT清洗和篩選后的版本。

其中,原始的ShareGPT數(shù)據(jù)集包含大約90,000個(gè)對話,而僅有6,000個(gè)經(jīng)過清理的GPT-4對話被保留用于微調(diào)。

清洗后的GPT-4對話與對話模板和回合結(jié)束時(shí)的token相結(jié)合,然后根據(jù)模型的上下文限制進(jìn)行截?cái)啵ǔ鱿拗频膬?nèi)容將被丟棄)。

要運(yùn)行數(shù)據(jù)處理流程,請執(zhí)行以下命令:

./ochat/data/run_data_pipeline.sh INPUT_FOLDER OUTPUT_FOLDER

輸入文件夾應(yīng)包含一個(gè)ShareGPT文件夾,其中包含每個(gè)ShareGPT對話頁面的.html文件。

數(shù)據(jù)處理流程包括三個(gè)步驟:

- 清洗:對HTML進(jìn)行清理并轉(zhuǎn)換為Markdown格式,刪除格式錯(cuò)誤的對話,刪除包含被屏蔽詞匯的對話,并進(jìn)行基于哈希的精確去重處理

- 篩選:僅保留token為Model: GPT-4的對話

- 轉(zhuǎn)換:為了模型的微調(diào),針對所有的對話進(jìn)行轉(zhuǎn)換和分詞處理

最終轉(zhuǎn)換后的數(shù)據(jù)集遵循以下格式:

MODEL_TYPE.train.json / .eval.json

[
    [token_id_list, supervise_mask_list],
    [token_id_list, supervise_mask_list],
    ...
]

MODEL_TYPE.train.text.json / .eval.text.json從token_id_list解碼的純文本

除此之外,研究人員還提供了一個(gè)用于可視化對話嵌入的工具。

只需用瀏覽器打開ochat/visualization/ui/visualizer.html,并將MODEL_TYPE.visualizer.json拖放到網(wǎng)頁中。點(diǎn)擊3D圖中的點(diǎn),就可以顯示相應(yīng)的對話。

其中,嵌入是使用openai_embeddings.py創(chuàng)建的,然后使用dim_reduction.ipynb進(jìn)行UMAP降維和K-Means著色。

圖片圖片

模型修改

研究人員為每個(gè)基礎(chǔ)模型添加了一個(gè)EOT(對話結(jié)束)token。

對于LLaMA模型,EOT的嵌入初始化為所有現(xiàn)有token嵌入的平均值。對于StarCoder模型,EOT的嵌入以0.02標(biāo)準(zhǔn)差進(jìn)行隨機(jī)初始化。

對于具有8192上下文的LLaMA-based模型,max_position_embeddings被設(shè)置為8192,并且進(jìn)行了RoPE(相對位置編碼)代碼的外推。

訓(xùn)練

訓(xùn)練模型時(shí)使用的超參數(shù)在所有模型中都是相同的:

圖片圖片

使用8xA100 80GB進(jìn)行訓(xùn)練:

NUM_GPUS=8


deepspeed --num_gpus=$NUM_GPUS --module ochat.training_deepspeed.train \
    --model_type MODEL_TYPE \
    --model_path BASE_MODEL_PATH \
    --save_path TARGET_FOLDER \
    --length_grouping \
    --epochs 5 \
    --data_path DATASET_PATH \
    --deepspeed \
    --deepspeed_config ochat/training_deepspeed/deepspeed_config.json

評估

要運(yùn)行Vicuna GPT-4評估,請執(zhí)行以下步驟:

1. 生成模型答案

python -m ochat.evaluation.get_model_answer --model_type MODEL_TYPE --models_path PATH_CONTAINING_ALL_MODELS_SAME_TYPE --data_path ./ochat/evaluation/vicuna --output_path ./eval_results

2. 生成基線(GPT-3.5)答案

OPENAI_API_KEY=sk-XXX python -m ochat.evaluation.get_openai_answer --data_path ./ochat/evaluation/vicuna --output_path ./eval_baselines --model_types gpt-3.5-turbo

3. 運(yùn)行GPT-4評估

OPENAI_API_KEY=sk-XXX python -m ochat.evaluation.openai_eval --data_path ./ochat/evaluation/vicuna --baseline_path ./eval_baselines/vicuna_gpt-3.5-turbo.jsonl --input_path ./eval_results

4. 可視化和細(xì)節(jié)

要獲得可視化和繪制評估結(jié)果,請使用瀏覽器打開ochat/visualization/eval_result_ui/eval_result_visualizer.html,并選擇./eval_results/eval_result_YYYYMMDD文件夾中的所有文件以顯示結(jié)果。

局限性

基礎(chǔ)模型限制

盡管能夠?qū)崿F(xiàn)優(yōu)秀的性能,但OpenLLM仍然受到其基礎(chǔ)模型固有限制的限制。這些限制可能會影響模型在以下領(lǐng)域的性能:

- 復(fù)雜推理

- 數(shù)學(xué)和算術(shù)任務(wù)

- 編程和編碼挑戰(zhàn)

不存在信息的幻覺

OpenLLM有時(shí)可能會產(chǎn)生不存在或不準(zhǔn)確的信息,也稱為「幻覺」。用戶應(yīng)該意識到這種可能性,并驗(yàn)證從模型中獲得的任何關(guān)鍵信息。

參考資料:

https://github.com/imoneoi/openchat

https://tatsu-lab.github.io/alpaca_eval/

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2023-09-21 12:31:54

AI數(shù)據(jù)

2025-01-17 10:26:19

模型開發(fā)ChatGPT

2021-03-04 14:50:11

計(jì)算機(jī)互聯(lián)網(wǎng) 技術(shù)

2023-03-31 13:55:00

模型智能

2023-02-14 09:45:11

模型測試

2024-05-06 08:00:00

AI模型

2025-07-21 11:51:12

模型AI工具

2024-01-03 13:37:00

模型數(shù)據(jù)

2021-04-02 15:02:42

開源技術(shù) 工具

2023-04-04 13:58:55

人工智能論文

2023-02-17 09:01:50

ChatGPT對話機(jī)器人

2013-01-31 09:45:14

斯坦福超級電腦百萬內(nèi)核

2012-03-21 21:38:27

蘋果

2009-05-19 09:06:41

Apple斯坦福iPhone

2025-03-12 10:38:05

2019-12-16 14:33:01

AI人工智能斯坦福

2025-02-28 09:22:00

2018-08-13 21:19:07

Weld開源數(shù)據(jù)

2024-04-02 08:45:08

ChatGPTAI會議人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

亚洲国产精品成人综合| 天堂久久久久va久久久久| 日韩欧美一区在线观看| 国语自产精品视频在线看一大j8 | 国产高清视频一区二区| 亚洲色图在线视频| 奇米一区二区三区四区久久| 国产123在线| 国产精品美女久久久久| 亚洲午夜电影网| 日本精品国语自产拍在线观看| 国产无套内射又大又猛又粗又爽 | 高清视频在线观看一区| 久久久久女人精品毛片九一| 日韩一区亚洲二区| 欧美成人午夜电影| 午夜免费高清视频| 国产网红在线观看| 中文字幕精品综合| 精品国产免费久久久久久尖叫 | 黑人精品xxx一区一二区| 成人黄色片视频网站| 69xxxx国产| 禁久久精品乱码| 欧美精品久久一区| 日本在线xxx| 丝袜+亚洲+另类+欧美+变态| 激情综合色综合久久综合| 中文字幕在线精品| 亚洲一区二区福利视频| 欧美久久天堂| 欧美国产综合色视频| 国产精品黄视频| 日本五十路女优| 自拍欧美日韩| 中文字幕在线日韩| 国产精品20p| 欧美变态挠脚心| 日韩欧美亚洲国产精品字幕久久久| 9191国产视频| 嫩草在线视频| 成人免费观看视频| 国产综合在线观看视频| 日韩国产成人在线| 亚洲欧美成人| 久久久噜噜噜久久| 九九热这里有精品视频| 欧美韩国日本在线观看 | 尤物yw午夜国产精品视频明星| 国产又大又黄又猛| 亚洲人免费短视频| 欧美日韩视频在线| 日韩精品―中文字幕| 蜜臀av国内免费精品久久久夜夜| 91在线你懂得| 91av视频在线观看| 九九九国产视频| 欧美黄免费看| 欧美乱大交xxxxx| 国产97免费视频| 欧洲vs亚洲vs国产| 亚洲国产成人一区| 韩国黄色一级大片| 日韩中文字幕影院| 岛国精品在线观看| 国产精品美女黄网| 136福利视频导航| 亚洲一区二区三区免费在线观看| 最新中文字幕亚洲| 婷婷国产成人精品视频| 亚洲精品99| 欧美国产视频日韩| 波多野结衣一本| 欧美视频免费看| 欧美日免费三级在线| 精品产品国产在线不卡| 四虎永久在线精品免费网址| 久久成人久久鬼色| 91夜夜揉人人捏人人添红杏| 北条麻妃一二三区| 不卡的av在线播放| 欧美婷婷久久| 午夜视频在线免费观看| www.日本不卡| 欧美日韩国产综合在线| youjizz在线播放| 成人欧美一区二区三区小说 | 国产一区二区三区在线观看网站| 91成人在线观看喷潮蘑菇| jizz欧美| 午夜欧美视频在线观看 | 国产福利影院在线观看| 日韩电影精品| 精品国产人成亚洲区| av在线网站观看| 97视频热人人精品免费| 久久久午夜视频| 国产裸体美女永久免费无遮挡| 午夜亚洲福利在线老司机| 国产精品久久久av久久久| 国产乱叫456在线| 精品无人区卡一卡二卡三乱码免费卡| 国产成人亚洲综合青青| 欧美成人片在线观看| jizzjizz欧美69巨大| 日韩在线观看成人| 国产又大又黑又粗免费视频| 日韩av一区二区三区| 91成人免费观看网站| 国产污视频在线看| 日本在线播放一区二区三区| 成人动漫视频在线观看完整版| 国产成人精品一区二区无码呦| 精品亚洲成a人在线观看| 国产在线精品一区| 大片免费在线观看| 亚洲免费观看视频| 国产一级片黄色| 清纯唯美激情亚洲| 欧美一区二区三区思思人| 色噜噜在线观看| 天堂资源在线亚洲| 久久久精品欧美| 人人草在线观看| 白白色 亚洲乱淫| 成人在线观看www| 日本在线精品| 日韩精品免费在线观看| 免费看一级一片| 蓝色福利精品导航| 欧美在线观看一区二区三区| 一级片一区二区三区| 久久伊人蜜桃av一区二区| 国产91在线亚洲| 国产99re66在线视频| 亚洲va天堂va国产va久| 亚洲综合123| 欧美大片91| 亚洲二区在线播放视频| 四虎影院中文字幕| 精品影视av免费| 动漫一区二区在线| caopeng在线| 制服丝袜日韩国产| 国产精品综合激情| 在线成人激情| 国产日韩中文字幕| 天堂地址在线www| 欧美日韩一区二区在线观看| 少妇无套高潮一二三区| 日韩国产高清在线| 欧美日韩一区二区三区在线视频 | 欧美a级在线观看| 欧美日韩在线免费视频| 9.1在线观看免费| 精品无人区麻豆乱码久久久| 日本sm极度另类视频| 欧美孕妇性xxxⅹ精品hd| 精品国产乱码久久久久酒店 | 国产在线精品一区二区中文| 成全电影大全在线观看| 欧美日韩中文国产| 影音先锋黄色资源| 亚洲欧美成人综合| 日韩精品久久久免费观看| 成年在线观看免费人视频| 欧美视频在线观看免费| 午夜免费福利网站| 午夜日韩视频| 国产精品免费一区二区三区在线观看| 尤物视频在线免费观看| 欧美三级电影在线观看| 女性裸体视频网站| 国产激情视频一区二区在线观看| 国产精品av网站| 国产乱视频在线观看| 欧美日韩国产美女| 午夜精品福利在线视频| 粉嫩av一区二区三区在线播放| 国产99视频精品免视看7| 暖暖视频在线免费观看| 夜色激情一区二区| 毛茸茸free性熟hd| 天使萌一区二区三区免费观看| 91亚洲国产成人久久精品网站| 欧美日韩影视| 欧美精选一区二区| 亚洲精品天堂网| 国产不卡一区视频| 在线观看免费91| 亚洲成人偷拍| 欧美一级电影久久| 97电影在线| 精品日韩一区二区三区免费视频| 少妇的滋味中文字幕bd| 国产福利视频一区二区三区| 欧美精彩一区二区三区| 精品久久在线| 久久人人爽人人| 九色国产在线观看| 日韩三级在线观看| 老熟妇仑乱一区二区av| 亚洲精品视频一区| 天天干天天色天天干| 日韩av在线播放网址| 国产va免费精品高清在线观看| 毛片网站在线观看| 日韩午夜在线观看视频| 欧美a∨亚洲欧美亚洲| 综合久久综合久久| 国产美女喷水视频| 国产成人在线看| 欧美特级aaa| 午夜在线精品| 日本免费a视频| 欧美hentaied在线观看| 久久超碰亚洲| 欧产日产国产精品视频| 日韩中文字幕在线精品| 午夜影院免费视频| 欧美一卡2卡3卡4卡| 中文字幕永久在线观看| 国产精品久久久一本精品| 艳妇乳肉豪妇荡乳xxx| 国模娜娜一区二区三区| 日本久久久久久久久久久久| 国产精品亚洲二区| 国产区一区二区三区| 欧美成人精品午夜一区二区| 国产精品一区二区久久精品| 天堂中文а√在线| 欧美色老头old∨ideo| 精品在线观看一区| 国产99久久久精品| 加勒比成人在线| 亚州国产精品| 国产免费一区二区三区| 国产精品一区二区精品| 国产精品久久久久久亚洲调教| 第一福利在线| 日韩成人在线播放| 男人天堂一区二区| 欧美大片在线观看| 精品人妻aV中文字幕乱码色欲| 亚洲一区二区三区视频在线| 紧身裙女教师波多野结衣| 国产日韩精品一区二区三区在线| 精品视频无码一区二区三区| 国产日韩一区二区三区在线| 男人天堂av片| 中文无码久久精品| 亚洲天堂第一区| 亚洲高清影视| 中文字幕精品在线播放| 一区二区三区四区在线观看国产日韩 | 欧美日本网站| 亚洲女人天堂av| 精品亚洲成a人片在线观看| 亚洲欧洲美洲在线综合| 国产私拍精品| 深夜福利日韩在线看| 麻豆传媒免费在线观看| 久久伊人免费视频| 新版中文在线官网| 亚洲91精品在线观看| 亚洲天堂av在线| 伊人激情综合网| yourporn在线观看中文站| 精品国产乱码久久| 色婷婷av一区二区三区之e本道| 欧美美女直播网站| jlzzjlzz亚洲女人18| 精品国产91亚洲一区二区三区婷婷| 亚洲一区二区三区高清视频| 欧美久久久久久久久久| 99热这里只有精品1| 欧美三级韩国三级日本三斤| 国产精品久久久国产盗摄| 日韩欧美三级在线| 香蕉视频免费在线看| 这里只有精品在线观看| 羞羞的视频在线观看| 91干在线观看| 99久久综合国产精品二区| 亚洲一区二区三区香蕉| 成人在线视频观看| 亚洲自拍av在线| av国产精品| 国产中文一区二区| 精品久久久久久久久久久下田| 麻豆视频成人| 99a精品视频在线观看| 久久国产手机看片| 国产精品99一区二区三| 亚洲一卡二卡| 尹人成人综合网| 在线免费av播放| www.亚洲免费av| 国产精品精品软件男同| 欧美日韩国产中文字幕 | 一区二区三区四区在线观看国产日韩 | 国产又黄又大又爽| 亚洲国产日韩一区| 亚洲高清视频网站| 亚洲欧美国产精品| 九九热视频在线观看| 国产亚洲一级高清| 亚洲男同gay网站| 国产精品九九久久久久久久| 小明成人免费视频一区| yy111111少妇影院日韩夜片| 精品无人区麻豆乱码久久久| 成人在线观看你懂的| 欧美亚洲一区| 日韩大尺度视频| 国产欧美日韩精品一区| 欧美成人久久久免费播放| 欧美日韩国产精品专区| 国产av一区二区三区精品| 国产亚洲精品久久久久久牛牛| 日韩大片在线永久免费观看网站| 日韩中文字幕免费视频| 69久成人做爰电影| 国产一区二区精品在线| 真实国产乱子伦精品一区二区三区| 久草视频国产在线| 国产一区二三区| 激情图片中文字幕| 欧美激情自拍偷拍| 日本视频网站在线观看| 亚洲精品99久久久久| 曰本三级在线| 91亚洲国产成人精品性色| 51亚洲精品| 看一级黄色录像| 国内精品免费在线观看| 久久久免费看片| 欧美性xxxxxx少妇| 国产中文字幕在线视频| 日本高清不卡在线| 亚洲男人在线| 亚洲看片网站| 亚洲欧洲日本一区二区三区| 天天躁日日躁狠狠躁av| 亚洲综合在线视频| 免费又黄又爽又猛大片午夜| 日韩激情av在线免费观看| 波多野结衣视频一区二区| 国产精品免费一区二区三区观看| 日韩理论在线| 国产一级片自拍| 国产精品成人在线观看| 91国在线视频| 久久不射热爱视频精品| 51亚洲精品| 一区二区三区四区国产| 久久精品国内一区二区三区| 噜噜噜在线视频| 亚洲色图一区二区三区| 国产aⅴ爽av久久久久成人| 欧美大片免费观看在线观看网站推荐| 天天免费亚洲黑人免费| 91精品免费看| 日韩av黄色在线| 97成人在线免费视频| 91麻豆精东视频| 国产成人av免费| 久久精品国产69国产精品亚洲| 中文在线аv在线| 日本午夜精品一区二区三区| 麻豆专区一区二区三区四区五区| 日本japanese极品少妇| 色哟哟亚洲精品| 日本中文字幕在线2020| av成人在线电影| 老鸭窝亚洲一区二区三区| 青青青视频在线播放| 日韩一区二区电影在线| 77thz桃花论族在线观看| 日韩一区不卡| 国产精品99久久久久久宅男| 欧美激情 一区| 欧美一级欧美三级| 亚洲国产成人二区| 色香蕉在线观看| 99久久久国产精品| 一本色道久久综合熟妇| 韩国视频理论视频久久| 成人三级视频| 污污免费在线观看| 欧洲亚洲精品在线| 色视频在线观看福利| 国产精品天天狠天天看| 影音先锋中文字幕一区| 欧美一级免费在线| 疯狂蹂躏欧美一区二区精品| 一区二区三区视频网站| 久久精品aaaaaa毛片| 韩国av一区二区三区| 老熟妇仑乱一区二区av|