精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

開源大模型新王干翻GPT-4o,新技術可糾正自己幻覺,數學99.2分刷爆測試集

人工智能
Reflection 70B能力提升的關鍵,是采用了一種名為Reflection-Tuning的訓練方法,它能夠讓模型反思自己生成的文本,在最終確定回應前檢測并糾正自身推理中的錯誤。

開源大模型王座突然易主,居然來自一家小創業團隊,瞬間引爆業界。

新模型名為Reflection 70B,使用一種全新訓練技術,讓AI學會在推理過程中糾正自己的錯誤和幻覺。

圖片

比如最近流行的數r測試中,一開始它犯了和大多數模型一樣的錯誤,但主動在<反思>標簽中糾正了自己。

圖片

在官方評測中,70B模型全面超越最強開源Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro,特別是數學基準GSM8K上直接刷爆,得分99.2%

這個結果也讓OpenAI科學家、德撲AI之父Noam Brown激情開麥:

GSM8K得分99%!是不是可以正式淘汰這個基準了?

圖片

模型剛剛上線網友就把試玩擠爆了,對此Meta還主動支援了更多算力。

圖片
圖片

在網友測試中,Reflection 70B能回答對GSM8K數據集中本身答案錯誤的問題:

我向模型提供了GSM8K中存在的5個“ground_truth”本身就不正確的問題。

模型沒有重復數據集中的錯誤答案,而是全部回答對了,這很令人印象深刻,表明那99.2%的準確率并非來自于記憶測試集

圖片

數各種r都不在話下,連生造詞“drirrrngrrrrrnnn”中有幾個r也能被正確數對。

圖片

網友紛紛對小團隊做出的開源超越頂流閉源感到驚訝,現在最強開源模型可以在本地運行了。

圖片

關鍵70B還只是個開始,官方表示下周還會發布更大的Reflection 405B

預計405B性能將大幅優于Sonnet和GPT-4o。

圖片

Reflection 70B權重已公開,API訪問將于今天晚些時候由Hyperbolic Labs提供。

模型能自我反思糾正錯誤

目前關于Reflection 70B的更多細節如下。

Reflection 70B能力提升的關鍵,是采用了一種名為Reflection-Tuning的訓練方法,它能夠讓模型反思自己生成的文本,在最終確定回應前檢測并糾正自身推理中的錯誤。

圖片

訓練中的數據來自使用GlaiveAI平臺生成的合成數據。

圖片

Reflection 70B基于Llama 3.1 70B Instruct,可以使用與其它Llama模型相同的代碼、pipeline等從Reflection Llama-3.1 70B進行采樣。

它甚至使用了標準的Llama 3.1聊天格式。

不過,Reflection 70B引入了一些特殊tokens,結構化輸出過程。

圖片

如下面這個例子所展示的,規劃過程分為一個獨立的步驟,這樣做可以提高CoT效果,并保持輸出精煉:

圖片

模型將從在<thinking>和</thinking>標簽內輸出推理開始,一旦對其推理感到滿意,就會在<output>和</output>標簽內輸出最終答案。

所以它能夠將其內部思考和推理與最終答案分離。

在<thinking>部分,模型可能會輸出一個或多個<reflection>標簽,這表明模型發現了其推理中的錯誤,并將在提供最終答案之前嘗試糾正該錯誤。

系統提示如下:

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside tags, and then provide your final response inside tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside tags.
(你是一個世界級人工智能系統,能夠進行復雜的推理和反思。在標簽內對查詢進行推理,然后在標簽內提供你的最終回應。如果你發現自己在任何時候推理出錯,請在標簽內糾正自己。)

圖片

此外值得一提的是,基準測試中,所有基準都已通過LMSys的LLM Decontaminator檢查污染,隔離了<output>部分,并單獨對這一部分進行測試。

使用Reflection 70B的時候,官方還分享了小tips:

  • 初步建議參數temperature為.7 , top_p為.95
  • 為提高準確性,最好附加“Think carefully.”在Prompt末尾

官方還表示,下周會發布一份報告,詳細介紹模型訓練過程和發現。

Agent創業團隊打造

Reflection 70B的背后是一支小團隊,由HyperWriteAI的CEO Mutt Shumer帶領。

圖片

領英顯示,Mutt Shumer是一位連續創業者,畢業于美國錫拉丘茲大學,現任OthersideAI的聯合創始人兼CEO。

圖片

OthersideAI是一家AI應用公司,致力于通過大規模AI系統開發全球最先進的自動補全工具,也是HyperWrite的幕后公司。

HyperWrite是一個瀏覽器操作agent,可以像人一樣操作谷歌瀏覽器來完成一系列任務,比如訂披薩:

圖片

和gpt-llm-trainer一樣,你只需要用文字描述目標,它就會一邊列步驟,一邊執行。

剛推出時號稱“比AutoGPT強”。

圖片

HyperWrite還可以在谷歌擴展程序中安裝。

另外,Mutt Shumer高中時期就創立了Visos,致力于開發用于醫療用途的下一代虛擬現實軟件。

還創立了FURI,這是一家旨在通過創造高性能產品并以公平的價格銷售它們來顛覆體育用品行業的公司。

圖片

雖然有Meta支持,但目前打開試玩,還是:暫時無法訪問。

圖片

感興趣的童鞋可以先碼住了~

https://reflection-playground-production.up.railway.app/ 

參考鏈接:
[1]https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B

[2]https://x.com/mattshumer_/status/1831767014341538166
[3]https://x.com/polynoamial/status/1831798985528635806
[4]https://x.com/degeneratoor/status/1831809610451448196
[5]https://x.com/kimmonismus/status/1831772661296345333

責任編輯:武曉燕 來源: 量子位
相關推薦

2024-05-15 17:34:15

2024-09-06 13:00:29

2024-10-17 13:30:00

2025-08-07 14:05:40

OpenAI大模型開源

2024-02-07 12:39:00

AI數據

2024-10-17 14:05:34

2024-12-27 10:27:58

2024-08-09 12:50:02

2024-06-21 09:58:38

2024-12-18 13:24:30

谷歌AI大語言模型

2024-09-02 08:30:00

大模型AI

2024-08-14 12:54:46

2024-12-19 09:00:00

模型數學訓練

2024-05-14 11:29:15

2024-06-05 13:09:26

2025-05-26 08:33:00

2025-04-08 02:26:00

2024-09-14 09:31:00

2024-06-27 12:45:30

2024-12-13 14:03:44

模型訓練AI
點贊
收藏

51CTO技術棧公眾號

日韩av二区在线播放| 欧美经典影片视频网站| 久久综合给合久久狠狠狠97色69| 7777免费精品视频| b站大片免费直播| 欧美极品在线| 亚洲国产精品嫩草影院| 免费在线成人av电影| 日本一区二区三区久久| 自拍偷拍欧美专区| 精品亚洲一区二区三区在线播放| 欧美色图色综合| 色的视频在线免费看| 成人av电影在线播放| 国产精品免费看久久久香蕉| 欧美三级在线免费观看| 自拍偷拍精品| 欧美成人性战久久| 激情婷婷综合网| www免费视频观看在线| 久久久久久一二三区| 2019国产精品视频| 亚洲色成人www永久网站| 欧美高清一区| 中文字幕日韩欧美在线视频| 性色av蜜臀av浪潮av老女人| 欧洲亚洲精品久久久久| 欧美视频在线免费看| 91嫩草国产丨精品入口麻豆| 成人好色电影| 成人av在线看| 91成人免费视频| 天天干天天插天天射| 亚洲大胆视频| 欧美精品日韩www.p站| 国产一级久久久久毛片精品| 久久porn| 欧美草草影院在线视频| www.涩涩涩| 国产精欧美一区二区三区蓝颜男同| 亚洲日本乱码在线观看| 水蜜桃一区二区| 久草视频在线看| 91色在线porny| 国内精品一区二区| 丁香六月色婷婷| 国产精品综合二区| 成人黄色av免费在线观看| 无码人妻精品一区二区三区蜜桃91| 在线视频亚洲| 性欧美xxxx| 国产一级片免费| 在线成人国产| 欧美激情精品久久久久久大尺度| 欧美三级日本三级| 婷婷久久综合| 久久av在线播放| 日本中文在线视频| 2023国产精品久久久精品双| 久久精品中文字幕电影| 男人av资源站| 亚洲经典一区| 久精品免费视频| 欧美人妻精品一区二区三区| 永久91嫩草亚洲精品人人| 久久天天躁夜夜躁狠狠躁2022| 男人晚上看的视频| 91精品一区二区三区综合| 久久亚洲精品网站| 久草网站在线观看| 伊人激情综合| 欧美在线视频网站| 无码人妻精品一区二区| 青青青爽久久午夜综合久久午夜 | 一级性生活大片| 亚洲最大在线| 少妇av一区二区三区| 91精品一区二区三区蜜桃| 欧美日韩国产欧| 97在线视频免费观看| 欧美性猛交bbbbb精品| 奇米在线7777在线精品 | 国产中文字幕在线免费观看| 中文在线а√天堂| 欧美午夜不卡在线观看免费| www.国产福利| 红杏一区二区三区| 伊人伊成久久人综合网小说| 亚洲综合久久av一区二区三区| 欧美涩涩网站| 日韩美女视频中文字幕| 国产精品国产三级国产aⅴ| 国产成人午夜高潮毛片| 麻豆久久久av免费| 在线看的av网站| 亚洲激情第一区| 黄色免费观看视频网站| 成年永久一区二区三区免费视频| 欧美精品一区二区三区在线 | 国产激情久久久久久熟女老人av| 99精品在线免费| 亚洲一区bb| 91黄页在线观看| 欧美日韩一级黄| 丰满岳乱妇一区二区| 欧美日韩中文一区二区| 欧美精品久久久久久久久久| 国内av在线播放| 成人听书哪个软件好| 亚洲午夜在线观看| 天天综合av| 日韩一区二区高清| 一级在线观看视频| 日韩亚洲在线| 91黄色国产视频| 高清在线观看av| 亚洲国产精品一区二区久久| 99sesese| 亚洲另类av| 久久久久久国产三级电影| 国产成人自拍偷拍| 91香蕉视频黄| 蜜臀精品一区二区| **国产精品| 在线电影中文日韩| 久久久久久少妇| 国产福利一区二区三区视频| 亚洲日本理论电影| 欧美亚洲韩国| 亚洲国产中文字幕在线观看| 久久中文免费视频| 日韩精品一二三| 另类视频在线观看+1080p| 丁香花高清在线观看完整版| 7777精品伊人久久久大香线蕉最新版 | 欧美日韩精品在线观看视频| 久久99久久99小草精品免视看| 欧美精品尤物在线| 麻豆视频在线看| 欧美精品一区二区三区一线天视频| 夫妻性生活毛片| 美美哒免费高清在线观看视频一区二区 | 国产精品久久久久久免费| 国产欧美精品区一区二区三区| 黄色免费福利视频| 欧美调教在线| 91精品国产乱码久久久久久久久 | 亚洲人成电影网站色…| 国产尤物在线视频| 久久一留热品黄| 欧美精品第三页| 国产免费久久| 国产精品久久久久久久久久小说| 国产精品天堂| 欧美亚洲综合一区| 国产一二三av| 精东粉嫩av免费一区二区三区| 中文字幕日韩精品久久| 91成人福利社区| 九九综合九九综合| 亚洲精品久久久久avwww潮水| 一级日本不卡的影视| 妖精视频一区二区| 国产欧美日韩综合一区在线播放| 久久九九视频| 精品日韩视频| 精品国产美女在线| 亚洲AV无码成人片在线观看| 亚洲成av人片在线观看| 黄色正能量网站| 日本亚洲欧美天堂免费| 亚洲一区二区三区在线观看视频| 国产精品美女久久久久| 久久久久久久久亚洲| 天堂在线观看视频| 日本大香伊一区二区三区| 亚洲综合第一区| 国产精品一区二区三区99| 国产av熟女一区二区三区| 激情亚洲另类图片区小说区| 国产成人极品视频| a天堂中文在线官网在线| 欧美精品一区二区三区视频| 天天干天天干天天| 国产精品福利一区二区| 亚洲成年人av| 日韩和欧美一区二区| 激情视频小说图片| 一本久久青青| 成人情趣片在线观看免费| japanese色国产在线看视频| 在线成人一区二区| 风流少妇一区二区三区91| 91成人国产精品| 欧美日韩在线观看成人| 久久夜色精品国产噜噜av| 亚洲小视频网站| 香蕉成人久久| 日本免费黄色小视频| 久久av网址| 成人av免费电影| 国产日韩另类视频一区| 欧美大片免费观看在线观看网站推荐| 日韩大片b站免费观看直播| 欧美高清视频不卡网| 美日韩一二三区| 亚洲欧美一区二区三区孕妇| 欧美做受喷浆在线观看| 韩国精品免费视频| mm1313亚洲国产精品无码试看| 午夜精品网站| 亚洲国产一区二区三区在线播 | 免费黄网站欧美| 91成人综合网| 成人情趣视频网站| 精品国产乱码一区二区三区四区| 深夜福利亚洲| 日本乱人伦a精品| 国产在线xxx| 久久精品国产96久久久香蕉| 国产大片在线免费观看| 日韩成人在线视频观看| 99国产精品久久久久99打野战| 91国内精品野花午夜精品| 国产 欧美 日韩 在线| 一区二区三区久久久| 中文字幕乱码av| 国产婷婷色一区二区三区四区| 欧美熟妇精品一区二区蜜桃视频 | 韩国三级在线看| 捆绑调教美女网站视频一区| 国产精品免费成人| 国产乱码精品| 精品少妇一区二区三区在线| 韩日欧美一区| a级片一区二区| 香港欧美日韩三级黄色一级电影网站| 亚洲国产日韩欧美| 黑人操亚洲人| 神马影院一区二区三区| 制服丝袜日韩| 人偷久久久久久久偷女厕| 亚洲精品国模| 欧美激情专区| 天堂av一区二区三区在线播放| 国产乱码精品一区二区三区卡| 日韩一二三区| 97伦理在线四区| 深夜激情久久| 国产精品日韩一区二区免费视频| 亚洲日本视频在线| 99在线观看| 9l亚洲国产成人精品一区二三 | 国产最新精品视频| 草莓视频丝瓜在线观看丝瓜18| 欧美激情综合亚洲一二区 | 亚洲一区免费视频| 久久久精品国产sm调教| 亚洲高清三级视频| 欧美bbbbbbbbbbbb精品| 色综合视频一区二区三区高清| 欧美 日韩 精品| 91久久人澡人人添人人爽欧美| 久草热在线观看| 欧美日韩aaaaa| 国产丝袜视频在线观看| 精品国产一区二区三区忘忧草| 日韩在线视频第一页| 国产视频久久久久| 国产在线观看黄| 久久香蕉频线观| 国产桃色电影在线播放| 97在线看福利| 一区二区视频免费完整版观看| 成人黄色免费在线观看| 亚洲精品aⅴ| 久久综合伊人77777麻豆| 日韩电影免费网址| 男人天堂新网址| 西西人体一区二区| 亚洲一级免费在线观看| 国产成人精品午夜视频免费| 成人网站免费观看| 国产精品久久久久久久久晋中 | 91日韩在线播放| 国产精品一线| 色视频一区二区三区| 午夜激情一区| 日韩 欧美 高清| 国产一区二区不卡| 亚洲专区区免费| 亚洲欧洲成人自拍| 在线观看免费国产视频| 欧美日韩在线三级| 四季av日韩精品一区| 日韩中文字幕在线免费观看| 国产高潮在线| 国产一区香蕉久久| 综合色就爱涩涩涩综合婷婷| 椎名由奈jux491在线播放| 在线亚洲观看| 91网址在线观看精品| 26uuu成人网一区二区三区| 青青草综合在线| 一级一级黄色片| 性欧美长视频| 日韩视频在线观看一区二区三区| 91香蕉视频污| 日本青青草视频| 欧美性生活大片视频| 日本韩国在线观看| 欧美成人中文字幕| 国产成+人+综合+亚洲欧美| 国产女主播一区二区三区| 亚洲国产不卡| 邪恶网站在线观看| 99在线精品一区二区三区| 北条麻妃在线观看视频| 色老头久久综合| 人妻一区二区三区免费| 久久福利网址导航| 欧美成人家庭影院| 欧美精品在线一区| 在线亚洲观看| 日本护士做爰视频| 亚洲综合免费观看高清在线观看| 国产精品毛片一区二区在线看舒淇| 亚洲视屏在线播放| 成人美女大片| 欧美二区在线| 亚洲精选久久| 野战少妇38p| 亚洲一区二区三区视频在线播放 | 午夜成年人在线免费视频| 国产精品www网站| 亚洲黄色录像| 欧美性大战久久久久xxx | 国产精品v欧美精品v日韩| 最新欧美人z0oozo0| 亚洲欧美天堂在线| 国产精品久久久久婷婷| 亚洲图片欧美在线| 色诱女教师一区二区三区| jizz亚洲女人高潮大叫| 清纯唯美一区二区三区| 日本欧美一区二区| 美女100%露胸无遮挡| 欧美午夜片在线看| 素人av在线| 91久久久在线| 综合精品久久| 亚洲精品鲁一鲁一区二区三区| 一区二区三区免费看视频| 亚洲精品久久久久avwww潮水| 久久久久久91| 神马久久av| 黄色一级大片在线观看| 国产精品视频免费| 国产免费不卡视频| 九九精品视频在线| 果冻天美麻豆一区二区国产| 国产精品无码人妻一区二区在线| 99视频在线观看一区三区| 黄色污污网站在线观看| 亚洲最大中文字幕| 韩日一区二区| 亚洲第一综合网站| 成人午夜av影视| 国产超碰人人爽人人做人人爱| 亚洲欧美日韩网| 久久精品资源| 17c丨国产丨精品视频| 久久综合五月天婷婷伊人| 中文字幕乱码无码人妻系列蜜桃| 日韩在线播放av| 国产一区福利| 国产成人黄色网址| 一卡二卡三卡日韩欧美| 视频三区在线观看| 国产欧美久久一区二区| 国产一区清纯| 波多野结衣片子| 欧美一区二区免费视频| 美女露胸视频在线观看| 伊人久久大香线蕉精品 | 日韩丰满少妇无码内射| 91麻豆精品国产91久久久久久久久| 久久青青色综合| 日本一区二区三区视频在线播放| 国产专区欧美精品| 久久亚洲精品国产| 久久天天躁狠狠躁夜夜爽蜜月| 欧美综合自拍| 日韩 国产 一区| 动漫精品一区二区| 国产精品va在线播放| 激情丁香综合| 91n在线视频| 亚洲欧美日韩爽爽影院| 国产成人在线中文字幕|