精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

谷歌再雪前恥,新Bard逆襲GPT-4沖上LLM排行榜第二!Jeff Dean高呼我們回來了

人工智能 新聞
谷歌Bard又行了?在第三方LLM「排位賽」排行榜上,Bard擊敗GPT-4成為第二名。Jeff Dean興奮宣布:谷歌回來了!

一夜之間,Bard逆襲GPT-4,性能直逼最強GPT-4 Turbo!

這個聽起來似乎像夢里的事情,確確實實地發生了。

就在昨天,谷歌首席Jeff Dean發推提前透露了谷歌的最新版模型——Gemini Pro-scale。

基于此,Bard相較于3月份的首次亮相,不僅在表現上有了顯著的提升,而且還具備了更多的能力。

圖片

可以看到,在最新的Gemini Pro-scale加持下,Bard直接躥升到了排行榜第二名的位置。

一口氣把之前的兩款GPT-4模型斬于馬下,甚至和排名第一的GPT-4 Turbo的差距也非常小。

圖片

雖然Jeff Dean并沒有具體闡述「scale」的含義,但從名稱上推測,很可能是一個比初代Gemini Pro規模更大的版本。

而根據前段時間外媒曝出的內部郵件,搭載Gemini Ultra的Bard Advanced已經全面開放給谷歌員工試用。

也就是說,距離谷歌最強模型的上線,已經不遠了。

圖片

隨著谷歌對Gemini Pro更新后不斷大幅上漲的表現,也讓所有人對完全體Gemini Ultra的能力有了更多的期待。

不過,新推出的Bard目前只接受了約3,000次評價,而GPT-4的評價次數已高達30,000次。因此,這個結果后續很可能還會發生變動。

但不管怎樣,這對于谷歌來說是一項令人矚目的成就,也讓人對即將發布的、預期將超過Gemini Pro-Scale性能的最強AI模型Gemini Ultra充滿期待。

谷歌Bard超越GPT-4躍居第二

簡單介紹一下,這個由UC伯克利主導,CMU,UCSD等頂級高校共同參與創建的聊天機器人競技場「Chatbot Arena」,是學術圈內一個很權威的大模型對話能力排行榜。

榜單通過類似Moba游戲中的「排位賽」機制,讓各家大模型通過PvP的方式來排出性能高低。

期間,用戶會與模型(不知道具體型號)進行互動,并選擇他們更喜歡的回答。而這些投票將會決定模型在排行榜上的名次。

這種方式能夠有效地避免很多PvE基準測試中可能出現的,通過「刷題」來提高成績的問題,被業界認為是一個比較客觀的大模型能力排行榜。

圖片

為了便于區分,LMSYS Org指出,目前Gemini Pro市面上總共有3個版本:

- Gemini Pro API:用戶可以通過谷歌云的Vertex AI API進行訪問

- Gemini Pro(dev)API:開發者API可以通過谷歌 AI Studio進行訪問

- Bard(1月4日更新的Gemini Pro):是目前唯一可以訪問到1月24日更新的Gemini Pro的方式

圖片

同時,谷歌Bard項目的高級總監Sadovsky也透露,排行榜上的Bard和Gemini Pro(API)是兩個在微調層面不同的模型,而且Bard可以檢索互聯網上的信息。

圖片

在ChatBot Arena中,1月24號更新的Bard由于支持檢索互聯網,相比于之前放出的Gemini Pro(API)對于實時信息問題的回復提升巨大。

圖片

從谷歌的這波更新可以看出,Gemini Pro的潛力似乎遠遠沒有被完全釋放,希望谷歌能再接再厲,對OpenAI一家獨大的格局形成挑戰。

圖片

以下是1月14號更新的Bard在ChatBot Arena中的成績的明細:

圖片

模型A相對于模型B在所有非平局對決中獲勝的比例

圖片

不同模型組合間對決的次數統計(排除平局情況)

圖片

通過1000輪隨機抽樣對Elo評分進行的自舉法(Bootstrap)估計

圖片

在假設等概率抽樣和不存在平局的情況下,相對于所有其他模型的平均勝率

Elo評分系統

Elo等級分制度(Elo rating system)是一種計算玩家相對技能水平的方法,廣泛應用在競技游戲和各類運動當中。其中,Elo評分越高,那么就說明這個玩家越厲害。

比如英雄聯盟、Dota 2以及吃雞等等,系統給玩家進行排名的就是這個機制。

舉個例子,當你在英雄聯盟里面打了很多場排位賽后,就會出現一個隱藏分。這個隱藏分不僅決定了你的段位,也決定了你打排位時碰到的對手基本也是類似水平的。

而且,這個Elo評分的數值是絕對的。也就是說,當未來加入新的聊天機器人時,我們依然可以直接通過Elo的評分來判斷哪個聊天機器人更厲害。

具體來說,如果玩家A的評分為Ra,玩家B的評分為Rb,玩家A獲勝概率的精確公式(使用以10為底的logistic曲線)為:

圖片

然后,玩家的評分會在每場對戰后線性更新。

假設玩家A(評分為Ra)預計獲得Ea分,但實際獲得Sa分。更新該玩家評分的公式為:

圖片

網友熱議

對此,網友提問:現在能夠訪問的Bard就是這個排名第二的Bard了嗎?

谷歌官方回復,是的,而且現在訪問的Bard比排行榜的上的Bard還能支持更多的像地圖擴展等應用。

圖片

不過還是有網友吐槽,即使在PvP排行榜上Bard已經取得了很好的成績,但是對于理解用戶需求和解決實際問題的能力,Bard和GPT-4依然還有很大差距。

圖片

也有網友認為,用能聯網的Bard和離線的GPT-4打有失公平。甚至,就這樣還沒打過……

圖片

而最有意思的,還要數網友在排行榜中發現的「華點」了:號稱是GPT-4最大競品的Claude居然越更新越弱了。

對此,之前有分析認為,Anthropic一直在大力發展的與人類對齊,會嚴重影響模型的性能。

圖片

圖片

GPT-4 Turbo超長上下文A/B測試

有趣的是,這個連Jeff Dean都親自下場的「刷榜」,正巧就在OpenAI連發5款新模型的第二天。

根據OpenAI的介紹,新版GPT-4 Turbo——gpt-4-0125-preview,不僅大幅改善了模型「偷懶」的情況,而且還極大地提升了代碼生成的能力。

不過,正如大家對Bard的懷疑,GPT-4這次到底有沒有變強也有待驗證。

圖片

對此,AI公司Smol的創始人Shawn Wang,就在超過100k單詞的超長上下文中,對比測試了新舊GPT4-Turbo的總結能力。

Wang表示,兩次測試使用的是完全相同提示詞,以及基本相同的語料庫。

雖然沒有嚴格嚴格,但每個模型都進行了超過300次的API調用,因此對于總結任務而言,這一結果還是具有一定參考價值的。

圖片

結果顯示,2024年1月的GPT4-Turbo花費了19分鐘來生成20,265個單詞,相比之下,2023年11月的用16分鐘生成了18,884個單詞。

也就是說,新模型的生成速度大約慢了 18%,且生成文本的長度平均偏長約7%。

質量方面:

- 2024年1月的模型在主題選擇上略有改善,但仍存在問題

- 2023年11月的模型會產生更多錯誤信息

- 2024年1月的模型在總結中添加小標題的能力略有提升

- 2024年1月的模型出現了一次嚴重的格式錯誤,而這在之前是極為罕見的

- 2023年11月的模型文本詳情更加豐富

總體而言,新版GPT4-Turbo在總結這一應用場景上有所退步。

圖片

圖片

圖片

圖片

左側:2023年11月;右側:2024年1月(左右滑動查看全部)

OpenAI最后的「開源遺作」兩周年

不得不說,AI領域的發展過于迅猛,甚至讓人對時間的流速都產生了錯覺。

今天,英偉達高級科學家Jim Fan發推紀念了InstructGPT發布二周年。

圖片

在這里,OpenAI定義了一套標準流程:預訓練 -> 監督式微調 -> RLHF。直到今天,這依然是大家遵循的基本策略(盡管有些許變化,比如DPO)。

它不僅僅是大語言模型從學術探索(GPT-3)到轉化為具有實際影響力的產品(ChatGPT)的關鍵轉折點,而且也是最后一篇OpenAI詳細說明他們如何訓練前沿模型的論文。

圖片

論文地址:https://arxiv.org/abs/2203.02155

- InstructGPT在2022年的NeurIPS會議上首次亮相,但它并不是RLHF的發明者。實際上,相關博客將讀者引向了OpenAI團隊在2017年完成的原始RLHF研究。

這項研究最初的目的是解決模擬機器人領域中難以明確定義的任務——通過一名人類標注者提供的900個二選一偏好,RLHF讓一個簡單的「跳躍」機器人在模擬環境中學會了后空翻。

圖片

論文地址:https://arxiv.org/abs/1706.03741v4

- 模型提供了三種規模:1.3B、6B、175B。與舊的、需要復雜提示設計的GPT-3-175B相比,標注者明顯更喜歡Instruct-1.3B。微軟最知名的「小模型」Phi-1也是1.3B。

- InstructGPT展示了如何精彩地呈現研究成果。三個步驟的圖表清晰易懂,并且成為AI領域最標志性的圖像之一。引言部分直接了當,用粗體突出了8個核心觀點。對局限性和偏見的討論實事求是、坦誠直接。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-06-15 14:00:00

研究模型

2023-05-16 13:32:23

模型排行

2023-10-09 19:00:00

編程語言Python

2023-05-30 13:29:25

2020-03-07 22:01:58

編程語言JavaPython

2023-03-16 19:17:57

2023-11-03 11:08:03

PhindAI搜索工具

2018-04-04 08:50:02

PythonSQL Javascript

2024-01-30 20:08:07

谷歌GPT-4Bard

2020-05-07 10:02:46

編程語言JavaC語言

2023-05-26 14:10:00

模型AI

2017-04-10 09:04:14

編程語言排行榜Hack五十

2023-11-15 09:23:00

模型AI

2022-12-07 10:54:20

港股編程語言

2023-03-28 08:23:38

2021-05-06 23:11:20

編程語言數據Python

2015-12-17 10:30:44

2023-12-11 19:08:59

AI模型

2019-10-15 11:11:02

游戲顯卡NVIDIA

2013-08-23 09:41:19

點贊
收藏

51CTO技術棧公眾號

婷婷成人影院| 青青青免费在线视频| 国产高清视频一区| 欧美一区二区.| 婷婷综合在线视频| 亚洲国产中文在线二区三区免| 亚洲h动漫在线| 亚洲看片网站| 午夜视频在线播放| 久久99久久久欧美国产| 色呦呦在线播放| 国内精品伊人久久久久av一坑| 久久久久久久久久久91| 成年人在线免费看片| 一区二区三区免费在线看| 色偷偷成人一区二区三区91 | 欧美男男gaytwinkfreevideos| 欧美日韩一区二区在线观看视频| www.好吊操| 3d成人动漫在线| 99久久综合狠狠综合久久| 国产日韩在线观看av| 在线观看精品国产| 99九九热只有国产精品| 亚洲精品中文字幕有码专区| 欧美高清精品一区二区| 成人深夜福利| 色婷婷亚洲婷婷| 久久久久久久久久网| 国产黄大片在线观看画质优化| 久久夜色精品国产欧美乱极品| 51国偷自产一区二区三区| 亚洲图片中文字幕| 日本伊人精品一区二区三区观看方式| 久久久久久久久电影| 国产成人久久久久| 欧美精美视频| 亚洲精品一二区| 日韩少妇一区二区| 亚洲乱码一区| 日韩精品一区二区三区四区| 女人高潮一级片| 91麻豆精品| 欧美日本国产一区| 日本高清久久久| 2019年精品视频自拍| 色视频成人在线观看免| 日韩精品视频久久| 国产自产自拍视频在线观看| 亚洲成人资源在线| 97在线国产视频| 成av人片在线观看www| 亚洲一区免费在线观看| 亚洲天堂第一区| 欧美日韩经典丝袜| 亚洲自拍偷拍网站| 男人天堂a在线| 国产乱妇乱子在线播视频播放网站| 亚洲精品精品亚洲| 人妻av无码专区| mm视频在线视频| 狠狠躁天天躁日日躁欧美| 99爱视频在线| 青青热久免费精品视频在线18| 欧美综合亚洲图片综合区| 日本人视频jizz页码69| 亚洲日日夜夜| 欧美www视频| 男男做爰猛烈叫床爽爽小说| 青青一区二区| 亚洲网在线观看| 最新黄色av网址| 永久亚洲成a人片777777| 欧美精品免费在线观看| 九九九国产视频| 久久久久久久高潮| 成人激情视频免费在线| 亚洲AV无码精品自拍| 99久久久国产精品| 五码日韩精品一区二区三区视频| 欧美一区二区三区| 亚洲国产一区二区三区| 国产a视频免费观看| 久久久久久一区二区三区四区别墅| 宅男在线国产精品| 中国xxxx性xxxx产国| 国产亚洲一区二区三区啪| 久久天天躁狠狠躁老女人| 久久无码精品丰满人妻| 石原莉奈在线亚洲三区| 91在线播放国产| 人妻一区二区三区四区| 中文字幕不卡一区| 免费人成自慰网站| 成人免费毛片嘿嘿连载视频…| 欧美一区二区二区| 国产毛片久久久久久久| 欧美精品成人| 国产精品久久久91| 亚洲国产福利视频| 国产精品丝袜一区| 国产亚洲综合视频| 精品成人18| 国产一区二区美女视频| 久久精品女人毛片国产| 奇米色一区二区| 国产日韩精品一区观看| 亚洲成人三级| 欧美性xxxxx极品| 亚洲欧美激情一区二区三区| 国模吧精品视频| 97精品视频在线播放| 国产又大又粗又长| 久久精品男人的天堂| 青春草国产视频| 亚洲精品69| 99久久精品免费看| 亚洲欧美日韩国产yyy| a级片在线免费观看| 1区2区3区欧美| 国产成人无码精品久久久性色| 亚洲在线资源| 亚洲四色影视在线观看| 日本三级理论片| 国产福利一区二区三区| 一区二区不卡视频| 精品123区| 国产亚洲精品日韩| 天天干天天干天天操| 国产mv日韩mv欧美| 日韩精品福利片午夜免费观看| 人人精品久久| 视频在线观看99| 无码人妻av一区二区三区波多野 | 北岛玲一区二区| 伊人久久成人| 国产伦精品一区二区三区视频黑人 | 女同性恋一区二区| 日韩大陆av| 日韩在线一区二区三区免费视频| 波多野结衣电影在线播放| 久久久噜噜噜久久人人看| 极品美女扒开粉嫩小泬| 久久精品色播| 91大神福利视频在线| 五月天婷婷激情网| 午夜国产精品影院在线观看| 妖精视频一区二区| 国产精品毛片| 欧美日韩视频在线一区二区观看视频 | 99久久久国产精品无码网爆| 《视频一区视频二区| 日本高清久久久| 亚洲香蕉av| 官网99热精品| 黄色软件视频在线观看| 日韩成人小视频| 亚洲国产精品成人无久久精品| 99久久久精品免费观看国产蜜| 国产成人精品视频免费看| 免费观看久久av| 国产精品高潮呻吟久久av野狼 | 国产精品精品视频一区二区三区| 国产丰满美女做爰| 亚洲影视资源网| 91黄色免费视频| 日韩在线观看一区二区| 一区二区视频国产| 日韩在线网址| 91av国产在线| 午夜小视频在线| 欧美日韩精品中文字幕| 免费黄色片网站| 国产精品亚洲综合一区在线观看| av片在线免费| 国产99久久| 91中文字幕一区| 美女91在线看| 色偷偷偷亚洲综合网另类| 性做久久久久久久久久| 亚洲国产精品一区二区久久恐怖片 | 99re8在线精品视频免费播放| 欧美视频第三页| 偷拍欧美精品| 国模一区二区三区私拍视频| 性感美女一区二区在线观看| www.久久色.com| 国产深喉视频一区二区| 欧美日韩在线视频一区二区| 亚洲综合第一区| 不卡一区在线观看| 亚洲黄色av网址| 亚洲午夜视频| 国产精品欧美一区二区三区奶水| 国产区在线看| 亚洲精品久久久久| 国产精品视频久久久久久| 天天色天天操综合| 一起操在线播放| 久久免费看少妇高潮| 日韩大尺度视频| 蜜桃av噜噜一区二区三区小说| 妞干网视频在线观看| 自拍偷拍校园春色| 91亚洲人成网污www| 成人情视频高清免费观看电影| 性欧美gay| 国内精品久久久久| 超碰在线最新| 中文字幕日韩精品在线| 日夜干在线视频| 精品剧情在线观看| 国产精品久久婷婷| 欧美日韩在线三级| 97人妻一区二区精品视频| 亚洲电影中文字幕在线观看| 人人澡人人澡人人看| 欧美国产在线观看| 亚洲精品在线视频免费观看| 国产精品小仙女| 免费黄频在线观看| 蜜桃视频一区二区三区在线观看| 69堂免费视频| 在线欧美日韩| 国产片侵犯亲女视频播放| 99久久激情| 亚洲精品在线免费看| 国产精品手机在线播放| 精品久久一区二区三区蜜桃| 丁香婷婷成人| 俄罗斯精品一区二区| 精品国模一区二区三区欧美| 国产日韩欧美日韩大片| 成人在线视频观看| 日本a级片电影一区二区| 九色porny丨首页入口在线| 欧美国产精品va在线观看| 亚洲制服国产| 91精品在线观看入口| 久久精品国产亚洲av麻豆蜜芽| 狠狠躁夜夜躁人人爽天天天天97| 五月天婷婷丁香| 亚洲国产美国国产综合一区二区| 久久久久久久黄色| 亚洲影院理伦片| 日本一区二区免费在线观看| 亚洲成人动漫在线观看| 国产一级生活片| 亚洲va欧美va天堂v国产综合| 懂色av.com| 精品日韩美女的视频高清| 五月天婷婷久久| 色悠悠久久综合| www.五月婷婷.com| 欧美色涩在线第一页| 曰批又黄又爽免费视频| 欧美精品日韩一区| 精品人妻无码一区二区色欲产成人 | 久久免费视频色| 香蕉视频久久久| 国产精品免费网站在线观看| 最新日韩免费视频| 亚洲精品一二三区| a v视频在线观看| 色欲综合视频天天天| 亚洲天堂自拍偷拍| 欧美一区二区三区免费| 亚洲大尺度网站| 日韩av综合网站| 北岛玲一区二区三区| 久久久精品一区二区三区| 91麻豆免费在线视频| 久久人91精品久久久久久不卡| 欧美久久天堂| 国产精品视频最多的网站| 国产在线一区不卡| 福利精品视频| 精品av一区二区| 97精品国产97久久久久久粉红| 国产一区久久| 欧美精品一区二区三区免费播放| 蜜臀av一级做a爰片久久| 亚洲美女精品视频| 久久色中文字幕| 免费在线观看h片| 日韩欧美一区二区在线| 国产又粗又猛又爽又黄91| 亚洲国产91色在线| 在线看av的网址| 国内精品小视频| 国产香蕉久久| 国产欧美日韩一区| 久久综合电影| 成人综合视频在线| 韩国欧美国产一区| 久久久久久久久久久国产精品| 国产精品久久久久一区二区三区共| 国产一级大片在线观看| 在线观看日产精品| 欧美特黄一级视频| 久久精品国产亚洲一区二区| 少妇淫片在线影院| 3d动漫精品啪啪一区二区三区免费| 色婷婷狠狠五月综合天色拍| 成年人三级视频| 日韩激情中文字幕| 超碰caoprom| 亚洲欧美日韩人成在线播放| 伦av综合一区| 亚洲国产欧美久久| av软件在线观看| 国产精品久久久久77777| 国内精品国产成人国产三级粉色| 亚洲欧洲国产日韩精品| 亚洲一区二区三区四区五区午夜| 欧美日韩理论片| 国产精品日韩成人| 日韩在线播放中文字幕| 精品91自产拍在线观看一区| 韩国av网站在线| 国产精品免费久久久久影院| 要久久电视剧全集免费| 精品成在人线av无码免费看| 国产美女久久久久| 美女网站视频色| 欧洲一区在线观看| 男人的天堂在线| 欧日韩不卡在线视频| 国内精品免费| 日韩五码在线观看| 成人性视频免费网站| 劲爆欧美第一页| 欧美一卡二卡在线| 成人短视频在线| 成人免费福利视频| 天天射成人网| 爽爽爽在线观看| 亚洲欧洲日产国码二区| 伊人网中文字幕| 社区色欧美激情 | 国产第一精品| 一区二区日本| 国内不卡的二区三区中文字幕 | 久久久久久久久久久久国产精品| 亚洲日本护士毛茸茸| 国产伦理吴梦梦伦理| 久久精品男人天堂| 精品一区二区三区中文字幕 | 美日韩一区二区| 中国美女黄色一级片| 欧美日韩一区二区三区在线看| 无遮挡动作视频在线观看免费入口 | 亚洲黄色三级视频| 精品亚洲aⅴ在线观看| 国产伦精品一区二区三区视频金莲| 久久av一区二区| 老司机精品视频网站| www亚洲色图| 7777精品伊人久久久大香线蕉最新版 | 欧美精品午夜视频| 911亚洲精品| 欧美日韩在线一| 国产日韩av一区| 亚洲一级片免费看| 欧美成人自拍视频| 欧美爱爱网站| 九色91popny| 亚洲日本电影在线| 男人天堂一区二区| 欧美综合一区第一页| 成人一区二区| 三大队在线观看| 欧美午夜电影在线| 欧美极品另类| 国产伦精品一区二区三区免| 久久国产日本精品| а天堂中文在线资源| 精品国产一区二区三区久久影院| 欧美男人天堂| 中文字幕剧情在线观看一区| 成人一道本在线| 姑娘第5集在线观看免费好剧| 欧美精品免费看| 九九久久婷婷| 爱情岛论坛亚洲自拍| 精品久久久视频| 麻豆网站在线看| 狠狠色噜噜狠狠狠狠色吗综合| 日本成人中文字幕| 久久久久黄色片| 国产亚洲精品美女久久久久| 伊人www22综合色| 国产一级做a爰片久久| 夜夜嗨av一区二区三区网页| 激情综合闲人网| 国产另类第一区| 久久99久久精品| 国产精品久久久久久久久久久久久久久久久 | 国产日韩精品在线观看| 日韩天天综合|