精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI“推理”模型興起,基準(zhǔn)測試成本飆升

人工智能
隨著人工智能(AI)技術(shù)的不斷發(fā)展,所謂的“推理”AI 模型成為了研究熱點(diǎn)。這些模型能夠像人類一樣逐步思考問題,在特定領(lǐng)域,如物理學(xué)中,被認(rèn)為比非推理模型能力更強(qiáng)。然而,這種優(yōu)勢卻伴隨著高昂的測試成本,使得獨(dú)立驗(yàn)證這些模型的能力變得困難重重。

4 月 13 日消息,隨著人工智能(AI)技術(shù)的不斷發(fā)展,所謂的“推理”AI 模型成為了研究熱點(diǎn)。這些模型能夠像人類一樣逐步思考問題,在特定領(lǐng)域,如物理學(xué)中,被認(rèn)為比非推理模型能力更強(qiáng)。然而,這種優(yōu)勢卻伴隨著高昂的測試成本,使得獨(dú)立驗(yàn)證這些模型的能力變得困難重重。

據(jù)第三方 AI 測試機(jī)構(gòu)“人工智能分析”(Artificial Analysis)提供的數(shù)據(jù)顯示,評估 OpenAI 的 o1 推理模型在七個(gè)流行的 AI 基準(zhǔn)測試(包括 MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME 2024 和 MATH-500)中的表現(xiàn),需要花費(fèi) 2767.05 美元(IT之家注:現(xiàn)匯率約合 20191 元人民幣)。而評估 Anthropic 的 Claude 3.7 Sonnet 這一“混合”推理模型的成本為 1485.35 美元(現(xiàn)匯率約合 10839 元人民幣),相比之下,測試 OpenAI 的 o3-mini-high 則只需 344.59 美元(現(xiàn)匯率約合 2514 元人民幣)。盡管有些推理模型的測試成本相對較低,例如評估 OpenAI 的 o1-mini 只需 141.22 美元(現(xiàn)匯率約合 1030 元人民幣),但從整體來看,推理模型的測試成本仍然比較高昂。截至目前,“人工智能分析”已經(jīng)花費(fèi)了約 5200 美元(現(xiàn)匯率約合 37945 元人民幣)來評估大約十幾種推理模型,這一金額接近該公司分析超過 80 種非推理模型所花費(fèi)的 2400 美元的兩倍。

OpenAI 在 2024 年 5 月發(fā)布的非推理 GPT-4o 模型,其評估成本僅為 108.85 美元,而 Claude 3.6 Sonnet(Claude 3.7 Sonnet 的非推理前身)的評估成本為 81.41 美元。“人工智能分析”聯(lián)合創(chuàng)始人喬治?卡梅倫(George Cameron)向 TechCrunch 表示,隨著越來越多的 AI 實(shí)驗(yàn)室開發(fā)推理模型,該組織計(jì)劃增加其測試預(yù)算。“在‘人工智能分析’,我們每月進(jìn)行數(shù)百次評估,并為此投入了相當(dāng)可觀的預(yù)算,”卡梅倫說,“我們預(yù)計(jì)隨著模型的頻繁發(fā)布,這一支出將會(huì)增加。”

“人工智能分析”并非唯一面臨 AI 測試成本上升的機(jī)構(gòu)。AI 初創(chuàng)公司“通用推理”(General Reasoning)的首席執(zhí)行官羅斯?泰勒(Ross Taylor)表示,他最近花費(fèi)了 580 美元用大約 3700 個(gè)獨(dú)特的提示詞評估了 Claude 3.7 Sonnet。泰勒估計(jì),僅對 MMLU Pro(一套旨在評估模型語言理解能力的問題集)進(jìn)行一次完整的測試,成本就會(huì)超過 1800 美元。“我們正在邁向一個(gè)世界,在這個(gè)世界里,一個(gè)實(shí)驗(yàn)室在一項(xiàng)基準(zhǔn)測試中報(bào)告 x% 的結(jié)果,而他們在其中花費(fèi)了 y 數(shù)量的計(jì)算資源,但學(xué)者們的資源遠(yuǎn)遠(yuǎn)小于 y,”泰勒在 X 上最近的一篇帖子中寫道,“沒有人能夠復(fù)制這些結(jié)果。”

那么,為什么推理模型的測試成本如此之高呢?主要原因在于它們生成了大量的 token。token 代表原始文本的片段,例如將單詞“fantastic”拆分為音節(jié)“fan”、“tas”和“tic”。據(jù)“人工智能分析”稱,在該公司的基準(zhǔn)測試中,OpenAI 的 o1 生成了超過 4400 萬個(gè) token,大約是 GPT-4o 生成量的八倍。大多數(shù) AI 公司都是按 token 收費(fèi)的,因此成本很容易就會(huì)累積起來。

此外,現(xiàn)代基準(zhǔn)測試通常會(huì)從模型中引出大量 token,因?yàn)樗鼈儼婕皬?fù)雜、多步驟任務(wù)的問題。Epoch AI 的高級研究員讓-斯坦尼斯拉斯?德內(nèi)恩(Jean-Stanislas Denain)表示,這是因?yàn)榻裉斓幕鶞?zhǔn)測試更加復(fù)雜,盡管每個(gè)基準(zhǔn)測試的問題數(shù)量總體有所減少。“它們通常試圖評估模型執(zhí)行現(xiàn)實(shí)世界任務(wù)的能力,例如編寫和執(zhí)行代碼、瀏覽互聯(lián)網(wǎng)以及使用計(jì)算機(jī),”德內(nèi)恩稱。德內(nèi)恩還指出,最昂貴的模型隨著時(shí)間的推移,每個(gè) token 的成本也在增加。例如,Anthropic 在 2024 年 5 月發(fā)布的 Claude 3 Opus 是當(dāng)時(shí)最昂貴的模型,每百萬輸出 token 的成本為 75 美元。而 OpenAI 今年早些時(shí)候推出的 GPT-4.5 和 o1-pro,每百萬輸出 token 的成本分別為 150 美元和 600 美元。

“盡管隨著時(shí)間的推移,模型的性能有所提高,達(dá)到給定性能水平的成本也確實(shí)大幅下降,但如果你想在任何特定時(shí)間評估最大最好的模型,你仍然需要支付更多,”德內(nèi)恩說。許多 AI 實(shí)驗(yàn)室,包括 OpenAI,為測試目的向基準(zhǔn)測試組織提供免費(fèi)或補(bǔ)貼的模型訪問權(quán)限。但一些專家表示,這會(huì)影響測試結(jié)果的公正性 —— 即使沒有操縱的證據(jù),AI 實(shí)驗(yàn)室的參與本身就可能損害評估評分的完整性。

責(zé)任編輯:龐桂玉 來源: IT之家
相關(guān)推薦

2022-04-11 11:37:13

AI研究NLP

2025-04-21 08:22:25

2025-06-10 09:10:00

2014-04-17 09:25:20

VM Depot文思海輝Microsoft A

2025-04-09 04:22:00

2012-11-12 11:00:56

風(fēng)河Ido測試

2013-05-07 09:47:30

測試MySQLMySQL測試

2024-07-19 09:59:31

2025-10-15 00:00:00

2024-12-02 11:45:48

2025-01-16 08:40:00

2024-01-24 13:11:00

AI模型

2025-05-08 09:05:37

2024-09-05 16:37:37

2024-08-27 08:38:34

2009-07-02 18:41:24

TPC能耗服務(wù)器
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

成人在线高清免费| 91成人在线免费| 你懂的一区二区三区| 在线视频欧美精品| 伊人久久青草| 亚洲第一视频在线播放| 亚洲少妇自拍| 日韩中文字幕视频在线| 国产ts在线观看| 无人区在线高清完整免费版 一区二| 国产精品久久久久久久久图文区 | 色欲久久久天天天综合网| 宅男噜噜噜66一区二区 | 亚洲一区二区三区日韩| 免费一级欧美在线大片| 色婷婷久久久久swag精品| 熟女熟妇伦久久影院毛片一区二区| 风流老熟女一区二区三区| 日本v片在线高清不卡在线观看| 欧美日韩xxx| av男人的天堂av| 国产乱人伦精品一区| 欧美视频一区二| 欧美视频第一区| 丝袜国产在线| 一色屋精品亚洲香蕉网站| 欧美福利一区二区三区| 亚洲不卡免费视频| 久久99精品国产| 日韩av123| 永久免费看片在线播放| 欧美精品三级| 久久久国产在线视频| 免费成人深夜天涯网站| 日韩大片在线免费观看| 欧美成人猛片aaaaaaa| 久久久久久久久久一区| 影视一区二区三区| 日韩欧美国产中文字幕| 国产精品专区在线| 青草av在线| 亚洲精品视频在线观看免费| 亚洲精品国产精品国自产| 巨骚激情综合| 久久综合色之久久综合| 久久99国产精品99久久| 丰满人妻一区二区三区四区53| 久久99精品国产麻豆婷婷洗澡| 国产国语刺激对白av不卡| 九九热精品视频在线| 亚洲国产婷婷| 午夜精品久久久久久99热软件 | 波多野结衣在线网站| 91色porny在线视频| 精品国产乱码久久久久久久软件| 亚洲AV无码精品自拍| 国产精品亚洲专一区二区三区| 91福利视频导航| 亚洲欧美国产高清va在线播放| 国产精品一级片在线观看| 99九九视频| 好吊色在线观看| 成人短视频下载| 久久艳妇乳肉豪妇荡乳av| 外国精品视频在线观看 | 欧美日韩综合久久| 草碰在线视频| 亚洲欧洲日产国码二区| 水蜜桃在线免费观看| 久久电影网站| 欧美天天综合色影久久精品| 日韩欧美xxxx| 日韩欧美三区| 日韩免费视频一区| 在线精品一区二区三区| 精品国产精品国产偷麻豆| 尤物精品国产第一福利三区| 天海翼在线视频| 欧美视频成人| 国产97色在线| 国产老妇伦国产熟女老妇视频| 国产精品夜夜嗨| 久久久com| 日本在线观看视频| 日韩一区欧美小说| 欧美 日韩 亚洲 一区| 8av国产精品爽爽ⅴa在线观看| 69堂成人精品免费视频| 国产精品久久久久久久无码| 欧美日韩中文一区二区| 久久国产天堂福利天堂| 偷偷操不一样的久久| 日韩国产在线观看一区| 99久久综合狠狠综合久久止| 免费在线性爱视频| 国产精品高潮呻吟| 3d动漫一区二区三区| 亚洲精品大全| 亚洲精品色婷婷福利天堂| 潘金莲一级黄色片| 午夜在线播放视频欧美| 91人人爽人人爽人人精88v| 无码国产精品一区二区色情男同| 国产精品毛片久久久久久久| 久久国产午夜精品理论片最新版本| 日韩精品免费观看视频| 亚洲精品一区二区在线观看| 成人在线观看免费高清| 亚洲青涩在线| 成人在线精品视频| 超碰国产在线| 欧美日韩午夜剧场| 国产精品一级无码| 成人高清av| 欧美亚洲视频一区二区| 国产超碰人人模人人爽人人添| 91网站在线播放| www插插插无码免费视频网站| 成人深夜福利| 亚洲欧美国产另类| 日韩大片免费在线观看| 国产精品伊人色| 日韩影片在线播放| 女人让男人操自己视频在线观看| 欧美一区二区三区视频在线观看| 人妻熟人中文字幕一区二区| 亚洲一区二区三区高清不卡| 不卡日韩av| 亚洲第一图区| 欧美一区午夜精品| 亚洲一级二级片| 日本强好片久久久久久aaa| 久中文字幕一区| 国产一二在线播放| 精品精品国产高清a毛片牛牛| 欧美肥妇bbwbbw| 美女脱光内衣内裤视频久久网站 | 午夜激情一区二区| 国产白袜脚足j棉袜在线观看| 欧美aa国产视频| 亚洲一区二区在线播放| 操你啦视频在线| 91精品国产91久久久久久一区二区| 国产在视频线精品视频| 免费成人在线观看| 婷婷四房综合激情五月| 成人啊v在线| 少妇av一区二区三区| 中文字幕人妻丝袜乱一区三区 | 亚洲国产小视频在线观看| 久久久久久久国产精品毛片| 国产精品综合av一区二区国产馆| 女同性恋一区二区| 91国内精品| 91精品国产高清久久久久久久久 | 亚洲视频中文字幕在线观看| 中文字幕乱码亚洲精品一区| 中文字幕永久视频| 久久在线视频| 亚洲一区亚洲二区| 色呦呦在线视频| 精品国产乱码久久久久久闺蜜| 国产在线拍揄自揄拍| 91老师片黄在线观看| 大肉大捧一进一出好爽动态图| 亚洲精品aaaaa| 国产极品jizzhd欧美| h网站在线免费观看| 欧美人狂配大交3d怪物一区| 欧美日韩在线视频免费| 成人美女视频在线看| 男人的天堂狠狠干| 久久不见久久见免费视频7| 国产成人精品视频| 天堂地址在线www| 欧美日韩精品久久久| 长河落日免费高清观看| 久久99九九99精品| www.亚洲视频.com| 你懂的一区二区三区| 国产精品综合不卡av| 欧美人体视频xxxxx| 日韩成人在线视频| 中文字幕天堂在线| 一区二区欧美视频| 久久精品成人av| 国内精品写真在线观看| 一区二区传媒有限公司| 精品一区二区三| 国产在线999| 成人影院在线视频| 精品亚洲男同gayvideo网站| 在线观看国产精品入口男同| 亚洲午夜在线视频| 人与动物性xxxx| 97se亚洲国产综合在线| 中文字幕一区久久| 国产亚洲一区在线| 亚洲精品视频一二三| 精品国产一区二区三区不卡蜜臂| 91av在线免费观看视频| 国产色在线观看| 亚洲日本成人女熟在线观看 | 日韩深夜视频| 久久天天躁狠狠躁夜夜躁| 欧美 日韩 国产 成人 在线 91| 91福利在线观看| 国产真实的和子乱拍在线观看| 欧美国产精品劲爆| 亚州av综合色区无码一区| 老司机免费视频一区二区三区| 女人喷潮完整视频| 午夜电影亚洲| 亚洲乱码一区二区三区三上悠亚| 久久九九热re6这里有精品| 91日韩在线播放| 成人看片毛片免费播放器| 欧美一二三视频| 好看的中文字幕在线播放 | 91豆花视频在线播放| 啊v视频在线一区二区三区| 欧美捆绑视频| 日韩国产欧美精品在线| 亚洲黄色片视频| 制服丝袜成人动漫| 中文字幕日产av| 色噜噜狠狠一区二区三区果冻| 国产一级在线观看视频| 亚洲黄色录像片| 国产在线观看免费视频软件| 欧美国产国产综合| 成人精品999| 久久午夜国产精品| 亚洲一区二区三区四区五区六区| 国产美女娇喘av呻吟久久| 污污网站免费观看| 青娱乐精品视频在线| 男人搞女人网站| 乱码第一页成人| 久久久免费视频网站| 一本色道久久综合亚洲精品不卡 | 日本亚洲三级在线| 激情婷婷综合网| 国产日韩高清一区二区三区在线| 亚洲国产精品成人天堂| 亚洲欧洲日本一区二区三区| 少妇人妻大乳在线视频| 99综合视频| aa在线免费观看| 麻豆精品91| 亚洲视频在线观看一区二区三区| 久久中文精品| 一区二区成人网| 久久99精品视频| 两女双腿交缠激烈磨豆腐| 国产精品资源在线看| 男人添女人荫蒂国产| 成人午夜av在线| 亚洲av片不卡无码久久| 久久男人中文字幕资源站| 亚洲码无人客一区二区三区| 欧美国产1区2区| 三级在线观看免费大全| 亚洲综合免费观看高清完整版在线| 黄色一级视频在线观看| 精品久久久国产精品999| 成人免费视频毛片| 欧美在线色视频| 国产熟女精品视频| 精品国产伦一区二区三区观看体验 | 国产欧美精品久久| 亚洲视频在线a| 精品一区二区三区在线播放视频 | 秋霞蜜臀av久久电影网免费| 秋霞在线观看一区二区三区| 国产二区精品| 欧美大黑帍在线播放| 午夜在线精品| 亚洲欧美手机在线| av中文字幕一区| 一二三四国产精品| 亚洲综合在线第一页| √资源天堂中文在线| 欧美日韩国产小视频| 成人午夜福利视频| 亚洲小视频在线| 成人在线免费看黄| 欧美一区二区三区艳史| 在线日韩三级| 欧美一级二级三级| 久久精品青草| 日韩中文字幕免费在线 | 国产二级一片内射视频播放| 国产区在线观看成人精品 | 日本福利在线| 国内精品久久久久久久| 78精品国产综合久久香蕉| 国产成人免费观看| 青青草91久久久久久久久| 国产精品久久久久久久乖乖| 人人精品人人爱| 懂色av粉嫩av蜜乳av| 亚洲日本va在线观看| 亚洲GV成人无码久久精品| 欧美一区二区久久久| 成人性生交大片免费看午夜 | 一区二区三区四区不卡| 国产精品日本| 国产精品91av| 国产精品婷婷午夜在线观看| 国产精品视频久久久久久久| 欧美一区国产二区| av在线首页| 日本三级久久久| 欧美大奶一区二区| 久久人妻无码一区二区| 蜜臀a∨国产成人精品| 中文字字幕码一二三区| 午夜精品福利在线| av天堂一区二区三区| 色婷婷av一区二区三区久久| 久久青青视频| 欧美激情导航| av不卡在线| 欧产日产国产精品98| 一区二区在线电影| 99久久精品国产成人一区二区| 亚洲午夜国产成人av电影男同| 黄色软件视频在线观看| 国产精品播放| 红桃视频亚洲| 年下总裁被打光屁股sp| 亚洲自拍偷拍九九九| 99国产在线播放| 伦伦影院午夜日韩欧美限制| 久久免费资源| 亚洲欧洲精品在线观看| 青青青伊人色综合久久| 久久久久久久久福利| 在线精品视频小说1| 国产黄色在线| 国产欧美最新羞羞视频在线观看| 成人系列视频| 亚洲黄色小视频在线观看| 国产婷婷色一区二区三区四区 | 天堂av网手机版| 欧美人牲a欧美精品| 含羞草www国产在线视频| 亚洲专区国产精品| 欧美91大片| 91人妻一区二区| 一区二区三区四区亚洲| 亚洲爆乳无码一区二区三区| 久久久久久久久久久成人| 99久久婷婷国产综合精品青牛牛| 欧美一区二区视频在线播放| av在线不卡免费看| 国产精品黄色大片| 亚洲日韩第一页| 97精品国产综合久久久动漫日韩 | a级在线观看视频| 一道本成人在线| 91精彩在线视频| 91系列在线观看| 影音国产精品| 少妇大叫太粗太大爽一区二区| 日本久久一区二区三区| 男人资源在线播放| 国产66精品久久久久999小说| 99热在线精品观看| 免费在线观看你懂的| 欧美日韩国产综合视频在线观看| 国产精品剧情| 国产一区在线观| 日韩电影在线看| 青青操视频在线播放| 精品呦交小u女在线| 日韩成人精品一区二区三区| 亚洲熟妇无码av在线播放| 久久久精品中文字幕麻豆发布| 这里只有精品6| 欧美激情视频网站| 国产欧美一区| 天堂网成人在线| 欧美性极品xxxx做受| 男人影院在线观看| 精品乱码一区二区三区| 麻豆成人久久精品二区三区红 | 山东少妇露脸刺激对白在线| 91精品在线一区二区| 麻豆蜜桃在线观看| 在线电影看在线一区二区三区| 成人美女视频在线观看| 欧美男人天堂网| 午夜精品久久久久久久99热浪潮 | 久久在线观看视频| 亚洲人成伊人成综合图片| 99热这里只有精品2| 色狠狠桃花综合| 92久久精品|