上海AI實(shí)驗(yàn)室版o1已上線!數(shù)學(xué)競(jìng)賽題、Leetcode賽題全拿下,還會(huì)玩24點(diǎn)
國(guó)產(chǎn)o1新選手登場(chǎng)!
它能快速解決更復(fù)雜的數(shù)學(xué)解題、代碼編程、數(shù)字游戲等任務(wù)。
這就是上海AI實(shí)驗(yàn)室版o1——強(qiáng)推理模型書(shū)生InternThinker,剛剛正式開(kāi)放試用!
新模型不僅在長(zhǎng)思維能力方面有了很大提升,而且還能在推理過(guò)程中進(jìn)行自我反思和糾正。
先來(lái)一起看兩個(gè)例子感受一下:
比如官方展示的這個(gè)有點(diǎn)復(fù)雜的填字游戲。
InternThinker不僅一步步從易到難猜測(cè)出了答案,而且還能在做題的過(guò)程中不斷檢查是否存在沖突。

聽(tīng)說(shuō)這次InternThinker的編程能力也變強(qiáng)了,量子位馬上幫大家測(cè)試了一下。
在解答一道中等難度的Leetcode賽題中,InternThinker不僅根據(jù)題目要求分步寫(xiě)出了解決思路,而且還在編寫(xiě)完代碼之后針對(duì)整體邏輯和邊界條件進(jìn)行了檢查:

把這個(gè)代碼直接提交了一下,結(jié)果真的通過(guò)了。

國(guó)外網(wǎng)友也都稱贊不已:中國(guó)公司的進(jìn)步速度太快了!


在推理中自我反思、糾正
上海人工智能實(shí)驗(yàn)室(上海AI實(shí)驗(yàn)室)今年7月發(fā)布的書(shū)生·浦語(yǔ)2.5已經(jīng)實(shí)現(xiàn)了開(kāi)源模型中領(lǐng)先的推理能力,而InternThinker則使大模型的推理能力再上新臺(tái)階。
團(tuán)隊(duì)表示,在OpenAI o1模型發(fā)布之前,他們就已開(kāi)展了相關(guān)技術(shù)的獨(dú)創(chuàng)性探索與實(shí)踐:
在訓(xùn)練數(shù)據(jù)側(cè),在國(guó)內(nèi)率先開(kāi)發(fā)出大規(guī)模合成數(shù)據(jù)技術(shù);在任務(wù)場(chǎng)景側(cè),新模型在數(shù)學(xué)、代碼、推理謎題等多種場(chǎng)景都能體現(xiàn)出較強(qiáng)的推理能力,并具備一定的任務(wù)泛化性。
最新的強(qiáng)推理模型書(shū)生InternThinker具備長(zhǎng)思維能力,并能在推理過(guò)程中進(jìn)行自我反思和糾正,在數(shù)學(xué)、代碼、推理謎題等多種復(fù)雜推理任務(wù)上都取得了更優(yōu)結(jié)果。

量子位還測(cè)試了更多InternThinker的實(shí)際體驗(yàn)案例,一起來(lái)看看吧。
首先考察一下模型的數(shù)學(xué)能力,以2024年第65屆IMO國(guó)家集訓(xùn)隊(duì)第一階段試題題目為例,模型在讀取題目信息后會(huì)先列出相關(guān)的知識(shí)點(diǎn),然后逐步進(jìn)行推理計(jì)算,和人類解題的方式非常接近。

再來(lái)看看另外一個(gè)大家都很熟悉的數(shù)字游戲24點(diǎn),模型也能做到先列出相關(guān)的計(jì)算方法,然后根據(jù)最可能成功的思路進(jìn)行嘗試,并在失敗時(shí)及時(shí)進(jìn)行反思和重新嘗試。

最后來(lái)看一個(gè)比較抽象的推理問(wèn)題:1天24小時(shí)之內(nèi)時(shí)針和分針有多少次處于相對(duì)的位置。
這對(duì)人類來(lái)說(shuō)都是一個(gè)很有難度的題,然而InternThinker在分析了時(shí)鐘角度和時(shí)針的對(duì)應(yīng)關(guān)系之后,得出了公式規(guī)律,最終得出了正確答案!

怎么做到的
InternThinker的表現(xiàn)真的讓人非常驚喜,據(jù)上海AI實(shí)驗(yàn)室團(tuán)隊(duì)的信息,他們主要利用了以下3種策略:
1.利用元認(rèn)知理論學(xué)習(xí)思維模式
為高效提升模型的推理能力,InternThinker采用了更接近人類學(xué)習(xí)方式的路徑。
人在學(xué)習(xí)解決復(fù)雜推理任務(wù)時(shí),更多是學(xué)習(xí)思維模式,即通過(guò)回憶相關(guān)知識(shí)點(diǎn),對(duì)正確的解題過(guò)程進(jìn)行理解、記憶,對(duì)錯(cuò)誤解題等過(guò)程進(jìn)行反思和修正,進(jìn)而解決更多的問(wèn)題。
這種對(duì)自我的認(rèn)知過(guò)程進(jìn)行覺(jué)察和調(diào)節(jié)的能力也被稱作元認(rèn)知能力。
受元認(rèn)知理論的啟發(fā),研究團(tuán)隊(duì)設(shè)計(jì)了一系列元?jiǎng)幼鱽?lái)引導(dǎo)模型解決問(wèn)題的過(guò)程,如對(duì)問(wèn)題的理解、知識(shí)回憶、規(guī)劃、執(zhí)行、反思、總結(jié)等。
模型在面對(duì)復(fù)雜任務(wù)時(shí),會(huì)顯式且動(dòng)態(tài)地選擇元?jiǎng)幼鳎龠M(jìn)一步展開(kāi)相關(guān)動(dòng)作的具體思維過(guò)程。通過(guò)這種設(shè)計(jì),利用部分訓(xùn)練任務(wù),可強(qiáng)化模型對(duì)關(guān)鍵元?jiǎng)幼鹘M合的使用,顯著提升模型學(xué)習(xí)效率。
研究團(tuán)隊(duì)認(rèn)為,模型在思考過(guò)程中能更靈活、多樣、有效地使用元?jiǎng)幼?/strong>,是模型在推理階段能夠利用更多思考時(shí)間解決更復(fù)雜任務(wù)的重要原因。

2.“通專融合”的高密度監(jiān)督數(shù)據(jù)路徑

InternThinker率先獨(dú)創(chuàng)性地采用了基于通專融合的技術(shù)路線生產(chǎn)所需數(shù)據(jù)。
這樣一來(lái),模型就可以獲取已有強(qiáng)推理模型的思維鏈數(shù)據(jù)并進(jìn)行蒸餾,這也是提升數(shù)學(xué)等榜單性能及復(fù)現(xiàn)強(qiáng)推理模型的“捷徑”。
為此,研發(fā)團(tuán)隊(duì)設(shè)計(jì)了多種通用模型和專業(yè)模型的協(xié)作流程:
首先基于專家模型搜索出針對(duì)復(fù)雜任務(wù)的正確解決軌跡(但這種軌跡數(shù)據(jù)并不直接適用于元?jiǎng)幼魉季S能力的訓(xùn)練);
進(jìn)而由通用模型對(duì)復(fù)雜任務(wù)解決過(guò)程進(jìn)行覺(jué)察、分析、改造和質(zhì)量完善,基于正確軌跡提升思維鏈的格式規(guī)范性和可學(xué)習(xí)性,最終產(chǎn)出用于模型訓(xùn)練的數(shù)據(jù)。
在此過(guò)程中,模型和數(shù)據(jù)會(huì)交替迭代,達(dá)到協(xié)同增強(qiáng)的效果。
3.構(gòu)建大規(guī)模沙盒環(huán)境:交互中獲得反饋信號(hào)
在訓(xùn)練模型中,面對(duì)豐富多樣的推理任務(wù),如何準(zhǔn)確地獲得過(guò)程和結(jié)果反饋也非常重要。
為此,團(tuán)隊(duì)針對(duì)專業(yè)任務(wù)構(gòu)建了大規(guī)模的沙盒環(huán)境,為可形式化驗(yàn)證的推理任務(wù)提供反饋信號(hào),包括數(shù)十種編程語(yǔ)言的高效率代碼執(zhí)行編譯環(huán)境,以及代碼領(lǐng)域之外的通用推理任務(wù)沙盒。
通過(guò)自動(dòng)化專家模型、人機(jī)協(xié)同策略生成等方法,構(gòu)建了超過(guò)50種不同邏輯思維方式的推理任務(wù)思考過(guò)程,通過(guò)沙盒環(huán)境提供思考過(guò)程的反饋,形成自下而上對(duì)模型思維能力的構(gòu)建,為模型的自主演進(jìn)提供精準(zhǔn)的反饋信號(hào),這些策略使得InternThinker解決專業(yè)任務(wù)的能力得到了非常大的提升。
下一步,上海AI實(shí)驗(yàn)室將把相關(guān)技術(shù)融入下一代書(shū)生大模型,并繼續(xù)沿著通專融合發(fā)展路徑,通過(guò)開(kāi)源與產(chǎn)學(xué)研各界共同推動(dòng)技術(shù)進(jìn)步。
InternThinker已經(jīng)開(kāi)啟了測(cè)試使用,你可以通過(guò)下方鏈接測(cè)試更多有趣的題目!
試用鏈接:https://internlm-chat.intern-ai.org.cn


































