精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

國產模型指令跟隨全球第一!來自LeCun親推的「最難作弊」大模型新榜單

人工智能 新聞
圖靈獎得主、Meta首席AI科學家楊立昆(Yann LeCun),聯合紐約大學等在今年6月推出。

What???

一直低調行事的國內初創公司,旗下模型悄悄地躍升成國內第一、世界第五(僅排在o1系列和Claude 3.5之后)

而且是前十名中的唯一一家國產公司

(該榜上國產第二名是阿里開源的qwen2.5-72b-instruct,總榜第13)

圖片

而且它登上的這個排行榜LiveBench,雖然現在還沒有大模型競技場(LMSYS Chatboat Arena)那么廣為人知,但資格杠杠的——

圖靈獎得主、Meta首席AI科學家楊立昆(Yann LeCun),聯合紐約大學等在今年6月推出。

號稱是“全球首個無法作弊的LLM基準測試”

圖片

而這次冷不丁殺出來的黑馬,其實比較熟悉國內大模型競爭格局的朋友們已經猜到了——

Step系列,背后是大模型六小虎之一的階躍星辰

指令跟隨高分拿下全球第一

在LiveBench榜單上,階躍星辰自研的萬億參數語言大模型Step-2-16k-202411在Global Average上拿下57.68分。

位列總榜第五、國產第一。

這個榜單之前出現頻率不高,一方面是它確實很新,今年6月才剛推出;另一方面更加現實,那就是此前國產大模型并未在這個榜單塔尖取得傲人成績。

這倒也不耽誤榜單自身的實力——

LeCun和紐約大學等機構聯手推出,專為大模型設計,目前包含6個類別的17個不同任務,每月更新新問題。

目標是確保榜單的問題不易受到污染 ,并且能夠輕松、準確、公平地進行評估。

強調不易受到污染,是因為訓練數據中包含了大量互聯網內容,許多BenchMark很容易受到污染。

比如大家比較熟悉的數學測試集GSM8K,最近被證明有好些模型已經在它這兒過擬合了。這顯然為評估模型能力帶來了困擾。

除了要小心BenchMark被污染,確保評估方式公平、無偏見也很重要。

一般來說,大家都采用的是LLM擔任評委或人類當裁判這兩種方式。而LiveBench選擇采用客觀、基本事實判斷來評估每個問題。

圖片

那么,當我們首次正視這個榜單的時候,我們還能從其中看出些什么?

先說成績出色的Step-2。

IF Average一項,也就是指令跟隨,它以最高分拿下全球第一。

這個項目的內容,是對《衛報》近期新文章進行改寫、簡化、總結或生成故事。

86.57這個成績是真的非常高——榜單上其余眾人(哪怕是OpenAI和Anthropic家的模型們)都在70-80分段,單項第二名的Meta-LLaMA-3.1-405b-instruct-turbo比它低了8分多。

這意味著,Step-2在語言生成上對細節有強控制力,理解能力max,然后更好地遵循人類指令。

更具體些可以理解為,當我們普通人輸入語句顛倒、語意不清、表意模糊的非專業·真普通·prompt時,Step-2能結合上下文、具體情境推斷使用者的具體需求,把一個模糊指令從“360p”進行“1080p”的理解,精準捕捉模糊指令背后的真實意圖。

同時意味著內容創作能力也很強,比如讓它創作一首古詩詞,它在字數、格律、押韻、意境等方面,都能有精準的把控。

完全自主研發,MoE架構,萬億參數

在這次因為LiveBench又出來炸場一波之前,Step-2留給外界的最深刻印象,一定有一個是“國內首個由初創公司推出的萬億參數大模型”。

這有點像階躍風格的具像化。在大模型六小虎中,階躍的Step系列發布最晚,但出手毫不含糊。

今年3月,Step-2在全球開發者先鋒大會開幕式預覽亮相,一下子就從前作Step-1的千億參數規模,拉升到了萬億參數規模。

吊足了胃口后,夏天的WAIC 2024期間,Step-2推出正式版。

模型采用了MoE架構。

一般而言,主流訓練MoE模型有兩種方式,不然就基于已有模型通過upcycle(向上復用)開始訓練,不然就從頭開始訓練。

Upcycle方式所需算力相對更低、訓練效率更高,但隨隨便便就到這種方式的天花板了。

比如基于拷貝復制得到的MoE模型,非常容易出現專家同質化嚴重的情況。

而選擇從頭開始訓練MoE模型的話,能夠探得更高的模型上限,但作為代價,訓練難度也會增大。

但階躍團隊還是選擇了后者,選擇完全自主研發,選擇從頭開始訓練

過程中,通過部分專家共享參數、異構化專家設計等創新MoE架構設計,Step-2這個混合專家模型中的每個專家都得到了充分訓練。

故而,Step-2總參數量達到萬億級別,每次訓練或推理所激活的參數量也超過了市面上的大部分Dense模型。

此外,Step-2的訓練過程中,階躍的系統團隊突破了6D并行、極致顯存管理、完全自動化運維等關鍵技術,支撐起了整個模型的高效訓練。

初亮相時,階躍官方表示:

Step-2在數理邏輯、編程、中文知識、英文知識、指令跟隨等方面體感全面逼近GPT-4。

結合這次LiveBench AI的成績來看,團隊對Step-2的定位、優勢所在,把握得很清晰。

基座模型技術能力強,關鍵是要讓人用起來才行。

官方消息是,Step-2已經接入了階躍星辰的C端智能生活助手「躍問」,Web端和App都可以試一把。

如果是開發者,可以在階躍星辰開放平臺通過API接入使用Step-2。

語言模型和多模態模型全都要

開篇咱們提到,Step模型是一個系列,而Step-2是其語言模型的實力代表。

在這個系列中,除了語言模型,階躍星辰的多模態模型也很有看頭

Step-1.5V是階躍星辰的多模理解大模型,這款模型在三個方面優勢突出:

一是感知能力。創新的圖文混排訓練方法,讓Step-1.5V能理解復雜圖表、流程圖、準確感知物理空間復雜的幾何位置,還能夠處理高分辨率和極限長寬比的圖像。

二是推理能力。根據圖像內容進行各類高級推理任務,如解答數學題、編寫代碼、創作詩歌等。

三是視頻理解能力。它不僅能夠準確識別視頻中的物體、人物和環境,還能夠理解視頻的整體氛圍和人物情緒。

生成方面,階躍手里有Step-1X圖像生成大模型

Step-1X采用DiT(Diffusion Models with transformer)架構,有600M、2B和8B三種不同的參數量,語意理解和圖像創意實現兩手抓。

具體而言,不管文本指令簡單還是復雜,不管是畫單一對象還是多層次、復雜內涵場景,它都能cover。

另外,該模型還支持針對中國元素的深度優化,使生成內容更適合國人的審美風格。

至于語言模型和多模態模型全都要,階躍有自己的道理。

從成立一開始,階躍星辰就明確了自身通往 AGI 的路線圖:

單模態——多模態——多模態理解和生成的統一——世界模型——AGI。

換言之,階躍的目標是開發出能夠實現AGI的多模態大模型,并利用這些自主研發的大模型,創造新一代的AI應用。

為著這個目標,這一年多來,階躍已經寫下了屬于自己的答案。

研發迭代速度很快,不到一年,無論Step-1到Step-2, 還是Step-1V到Step-1.5V,整體持續跑步前進中。

產品也有自己的想法,沒有局限在ChatBot上。Step-2登頂國內的同一天,階躍旗下的躍問還上了一個新功能:

簡單設置,就能通過iPhone 16右下方側邊的“相機控制”按鈕,一鍵調用“拍照問”功能。

沒有iPhone 16的蘋果用戶,把系統升級到iOS18也能一步調用國產AI 了。

雖然已經在六小虎中占據一席,但近日看階躍,仍然想以黑馬來形容它。

論技術和實力,Step-2能突然殺到業界權威榜單國內第一,成為全球榜單前十唯一國產玩家。

大模型浪潮奔騰至今,已經有快兩年的時間了。

兩年里,投身其中的技術從業者們都在(看似分布其實共同)打造一個愿景,一個許多人都愿意參與并與之聯系在一起的愿景。

有理由相信,階躍Step系列,以及中國的大模型們,都會因為卓越的技術實力和不懈的創新追求,越來越熠熠生輝。

One More Thing

上個月,智源研究院推出辯論平臺FlagEval Debate,旨在通過引入模型辯論這一競爭機制對大模型能力評估提供新的度量標尺

和大模型競技場玩法有點類似,就是倆模型一個正方一個反方,雙盲測試,辯論完后用戶投票。

然后才揭曉正反雙方都是誰。

圖片

模型辯論,主要靠的是信息理解、知識整合、邏輯推理、語言生成和對話能力。

當然了,同時還能測復雜語境中信息的處理深度和遷移應變能力,反映其學習與推理的進步水平。

淺玩了一下,有些議題還蠻有意思。

比如“博物館著火,只能救一個,救貓還是救《蒙娜麗莎》”這個議題。

倆模型吵到后面,“貓有九條命”的話都說出來了,笑死。

圖片

最后反復投了幾次,Step-2大勝o1。

看來它辯論能力也很強呀……

圖片

榜單官網:https://livebench.ai/#/blog

躍問鏈接:https://yuewen.cn

FlagEval Debate官網:https://flageval.baai.org/#/debate

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-09-24 09:02:42

2024-11-21 09:58:12

2024-06-19 11:45:34

2024-05-31 14:23:15

2023-09-06 09:50:29

人工智能模型

2025-05-16 10:15:06

2021-03-05 12:58:31

AISEER模型

2023-05-16 12:11:22

2025-10-20 09:30:34

2025-01-14 13:51:18

2025-02-28 12:32:42

2025-04-30 16:48:07

2025-05-13 02:00:22

2024-03-19 13:12:36

自動駕駛模型

2025-09-26 08:03:41

2023-10-11 12:32:53

AI模型

2024-10-24 14:30:00

模型數據
點贊
收藏

51CTO技術棧公眾號

四虎国产精品免费久久5151| 日韩av高清在线| 久久久久午夜电影| 欧美一级日韩不卡播放免费| 无码粉嫩虎白一线天在线观看| 男男激情在线| 国产精品99久久久| 欧洲成人免费视频| 国产午夜精品理论片在线| 在线视频亚洲欧美中文| 日本精品一区二区三区高清 | 午夜影院福利社| 性欧美hd调教| 亚洲在线观看免费| 日韩欧美在线观看强乱免费| 精品人妻少妇AV无码专区| 久久久久一区| 欧美激情一区二区三级高清视频| 久久精品老司机| 五月亚洲婷婷| 欧美老女人在线| 国产二区视频在线播放| 亚洲wwwww| 欧美激情在线一区二区三区| 国产欧美亚洲日本| 国产手机av在线| 日韩1区2区3区| 91av福利视频| 国产一级一级片| 影音先锋日韩在线| 最近的2019中文字幕免费一页| 51调教丨国产调教视频| 成人高潮a毛片免费观看网站| 欧美日韩精品一区二区三区四区 | 国产成人无码一区二区三区在线| 99国产**精品****| 国产一区二区三区在线观看视频| 朝桐光av一区二区三区| 亚洲一区二区免费在线观看| 欧美日韩国产免费一区二区| 啊啊啊国产视频| 亚洲黄色中文字幕| 狠狠躁18三区二区一区| 日韩av中文字幕第一页| 肉体视频在线| 一个色在线综合| 日韩精品久久一区二区| 性国产高清在线观看| 国产精品久久午夜夜伦鲁鲁| 神马影院一区二区| 国产特黄在线| 中文字幕乱码亚洲精品一区| 日本免费高清一区二区| 免费在线观看一级毛片| 久久久亚洲精品一区二区三区| 久久99欧美| 日韩黄色影片| 国产日产精品1区| 国内视频一区| 午夜国产在线视频| 91色综合久久久久婷婷| 欧美日韩一区二| 毛片在线播放网站| 国产精品丝袜一区| 中文字幕综合在线观看| 亚洲资源一区| 亚洲永久免费视频| 给我免费播放片在线观看| aa视频在线观看| 激情av一区二区| 不卡av免费在线| 青青在线精品| 日韩女优电影在线观看| 日本精品一二三区| 色综合www| 在线亚洲欧美视频| 丰满少妇高潮久久三区| 亚洲国产电影| 国产成人jvid在线播放| 在线观看亚洲国产| 国产麻豆精品95视频| 国产精品乱码| 成人免费在线视频网| 亚洲桃色在线一区| 成人免费视频91| 亚洲成av在线| 欧美一区二区三区在线电影| 国产chinese中国hdxxxx| 亚洲另类春色校园小说| 久久精品国产亚洲一区二区| 日本少妇吞精囗交| 日韩激情一二三区| 北条麻妃高清一区| 欧美套图亚洲一区| 一区二区三区中文字幕在线观看| 鲁一鲁一鲁一鲁一色| 国产香蕉久久| 精品国产91亚洲一区二区三区婷婷 | 日韩免费av电影| 亚洲国产精品精华素| 色综合网站在线| 绯色av蜜臀vs少妇| 欧美熟乱15p| 久久久影视精品| 在线播放精品视频| 91一区二区在线| 国产一区一区三区| 日本一区二区三区视频在线| 精品国产免费视频| 夫妇露脸对白88av| 一区二区三区国产盗摄 | 凹凸国产熟女精品视频| 精品一区二区三区中文字幕| 亚洲嫩模很污视频| 久久午夜无码鲁丝片午夜精品| 久热精品在线| 国产一区二区三区四区五区在线| 男人影院在线观看| 91国偷自产一区二区三区观看| 女教师高潮黄又色视频| 成人羞羞网站入口| 欧美中文字幕视频在线观看| www久久久com| 亚洲欧美日韩在线不卡| 91插插插插插插插插| 亚洲瘦老头同性70tv| 久久久久久久久久亚洲| 国产又粗又猛又黄又爽| 国产女人18毛片水真多成人如厕| 免费av观看网址| 98视频精品全部国产| 久热精品视频在线| 一本久道久久综合无码中文| 国产亚洲欧美激情| 狠狠爱免费视频| 成人在线超碰| 欧美极品少妇xxxxⅹ免费视频 | 国内成+人亚洲+欧美+综合在线| 日本一区二区三区视频在线播放| 性欧美xxx69hd高清| 亚洲国产天堂久久综合| 国产精品99无码一区二区| 国产99久久久国产精品| 性生活免费观看视频| 日韩国产一二三区| 久久精品99久久久香蕉| 一区二区精品视频在线观看| 国产精品每日更新| 国内国产精品天干天干| 91精品国产乱码久久久久久| 91精品在线看| 大地资源网3页在线观看| 欧美高清性hdvideosex| 精品国产视频一区二区三区| 国产一区二区美女| 欧美性猛交内射兽交老熟妇| 丁香5月婷婷久久| 2019亚洲男人天堂| 黄色电影免费在线看| 欧美亚洲一区二区在线| 国产白丝一区二区三区| 精品在线一区二区| 国产日韩视频在线播放| 免费精品一区| 国语自产在线不卡| 日韩福利一区二区| 欧美色精品在线视频| 亚洲精品国产精品乱码在线观看| 国产在线视频一区二区| 国产精品久久久影院| 成功精品影院| 欧美亚洲国产日本| yw视频在线观看| 91精品国产一区二区三区蜜臀| 麻豆changesxxx国产| 99视频有精品| 亚洲欧美自偷自拍另类| 欧美不卡在线| 久久久久久久久一区二区| av免费在线一区| 欧美成人免费va影院高清| 亚洲精品一区二区三区不卡| 色呦呦日韩精品| 中文乱码字幕高清一区二区| 国产1区2区3区精品美女| 国产男女在线观看| 亚洲女同中文字幕| 久久久久久九九九九| 天堂综合在线播放| 8050国产精品久久久久久| 午夜视频在线免费观看| 精品美女一区二区三区| 国产91国语对白在线| 亚洲黄色尤物视频| 久久精品—区二区三区舞蹈| 国产老肥熟一区二区三区| 女人另类性混交zo| 欧美精品午夜| 日韩一区二区三区资源| 综合中文字幕| 国产欧美日韩专区发布| www.youjizz.com在线| 日韩专区在线播放| 久草在现在线| 亚洲精品一区二区在线观看| 亚洲视频在线观看一区二区| 欧美日韩国产一区中文午夜| 国产精品视频一区二区三| 久久久久久97三级| 中国特级黄色片| 麻豆国产精品777777在线| 国产成人在线免费看| 欧美成人日韩| 在线观看欧美亚洲| 国产日韩欧美一区二区三区| 国产精品免费一区二区三区在线观看 | 亚洲av熟女高潮一区二区| 毛片av中文字幕一区二区| 久色视频在线播放| 国内自拍一区| 日本精品免费视频| 99视频精品全国免费| 欧美中文娱乐网| 三级精品视频| 国产欧美日韩综合一区在线观看| 日韩在线成人| 成人激情在线播放| 日本综合视频| 日本精品性网站在线观看| 99re6在线精品视频免费播放| 欧美日韩国产成人| 日本精品在线| 日韩中文娱乐网| а天堂8中文最新版在线官网| 亚洲免费电影一区| 日本福利片在线| 亚洲黄色在线看| 性感美女一级片| 日韩av最新在线| 免费观看黄色一级视频| 精品国产91洋老外米糕| 亚洲国产福利视频| 欧美大肚乱孕交hd孕妇| 精品人妻一区二区三区四区不卡| 欧美一区二区视频网站| 国产黄色小视频在线观看| 欧美一区二区三区小说| 国产精品乱码一区二区| 91精品蜜臀在线一区尤物| 国产精品无码天天爽视频| 91精品国产综合久久蜜臀| 99久久精品无免国产免费| 欧美一级淫片007| 性一交一乱一乱一视频| 精品国产区一区| 污视频网站免费观看| 日韩精品在线视频美女| 亚洲欧美日韩动漫| 亚洲色图第三页| 亚洲欧美视频一区二区| 久久精品视频播放| 羞羞视频在线观看免费| 午夜精品福利视频| 小h片在线观看| 国产精品美女主播| 国产精一区二区| 成人毛片网站| 国产精品午夜一区二区三区| 亚洲一区二区高清视频| 欧美一区精品| 亚洲午夜无码av毛片久久| 欧美a级理论片| www.黄色网| 国产亚洲婷婷免费| 91免费公开视频| 无码av中文一区二区三区桃花岛| 潘金莲一级淫片aaaaaa播放| 欧美性生活一区| 精品久久久久中文慕人妻| 日韩高清有码在线| 免费av不卡| 91高清视频在线免费观看| 欧美xnxx| 国产91视觉| 精品国产91乱码一区二区三区四区 | 色一区在线观看| 国产精品探花视频| 日韩福利视频在线观看| 免费黄色电影在线观看| 韩日欧美一区二区| 麻豆久久久久| 久久99精品国产一区二区三区| 日韩欧美字幕| 欧美成人一区二区在线观看| 久久99精品国产麻豆不卡| 亚洲国产第一区| 最新热久久免费视频| 成人午夜淫片100集| 欧美一区午夜视频在线观看| 秋霞av在线| 久久久久国产一区二区三区| 成人亚洲视频| 久久国产精品免费一区| 在线电影一区二区| 九色porny91| 成人国产在线观看| 亚洲二区在线播放| 欧美怡红院视频| 无码精品黑人一区二区三区| 久久久久北条麻妃免费看| 成人亚洲欧美| 国产一区在线观| 欧美日本国产| 国产一级片自拍| 国产日韩欧美电影| 麻豆久久久久久久久久| 精品美女在线播放| 顶级网黄在线播放| 国产剧情久久久久久| 久久av影视| 日日鲁鲁鲁夜夜爽爽狠狠视频97| 国产不卡免费视频| 国产一区二区播放| 欧美猛男男办公室激情| 高清福利在线观看| 国产ts人妖一区二区三区| 激情av综合| av网站手机在线观看| 国产·精品毛片| 久久成人在线观看| 日韩一区二区三区视频在线观看| 亚洲搞黄视频| 成人福利在线视频| 三区四区不卡| 做a视频在线观看| 亚洲天堂网中文字| av在线资源观看| 久久国产天堂福利天堂| 国产一区二区三区黄网站| 中日韩在线视频| 久久电影网电视剧免费观看| 能直接看的av| 欧美日韩国产免费| 精品国产丝袜高跟鞋| 成人免费大片黄在线播放| 忘忧草精品久久久久久久高清| 性欧美1819| 亚洲欧洲成人精品av97| 国产又粗又黄又爽的视频| 久久精品成人欧美大片| 97精品资源在线观看| 玖玖精品在线视频| 国产suv一区二区三区88区| 国产亚洲色婷婷久久99精品| 精品999久久久| 中文在线а√天堂| 日本一区二区三区免费看| 秋霞午夜鲁丝一区二区老狼| 国产亚洲精品精品精品| 欧美精品乱人伦久久久久久| 欧美另类tv| 久久久久综合一区二区三区| 日韩精品91亚洲二区在线观看| 美女av免费看| 日韩一级片网址| 少妇视频在线观看| 色狠狠久久av五月综合| 激情欧美日韩一区二区| 豆国产97在线 | 亚洲| 国产午夜精品麻豆| 久久久久伊人| 国产高清不卡无码视频| 99在线精品观看| 一级欧美一级日韩| 久久久久久一区二区三区| 免费成人网www| 伊人五月天婷婷| 日韩欧美国产激情| 黄网站在线免费看| 国产综合动作在线观看| 免费xxxx性欧美18vr| 免费在线视频观看| 亚洲丝袜av一区| 久久av网站| 欧美v在线观看| 综合久久综合久久| 日本在线视频1区| 91久久在线视频| 亚洲在线网站| 朝桐光av在线| 亚洲欧洲一区二区三区久久| 99精品在线免费观看| 漂亮人妻被中出中文字幕| 国产精品国产馆在线真实露脸| 欧美一级淫片免费视频魅影视频| 国产福利精品av综合导导航| 欧美国内亚洲| 免费一级suv好看的国产网站| 日韩大陆欧美高清视频区| 成人网av.com/|